주요 목차 가 . 소리의 기본 나 . 통신 다 . 파일 저장 방식 (WAVE,MIDI) 라 . 사운드 편집 마 . 최근 음성인식

소리 주요 목차 가. 소리의 기본 나. 통신 다. 파일 저장 방식 (WAVE,MIDI) 라. 사운드 편집 마. 최근 음성인식 바. 참고 문헌

소리의 기본 • 소리란 어떤 물질이 진동함으로써 발생되는 물리적인 현상, 음(音)이라고도 한다. 좁은 뜻으로는 사람의 청각기관을 자극하여 청각을 일으키는 것을 말함 • 균일한 소리의 파형은 일정한 간격으로 같은 모양을 반복하며, 같은 모양이 한번 나타나는데 소요되는 시간을 주기라고 하고 1 초당 주기 수를 주파수라고 함 • 소리의 파형은 자연적으로 발생하기 때문에 주기적인 모양을 하지는 않으나 악기에서 발생하는 소리나 사람의 음성, 중모음과 같은 소리는 주기적인 형태를 띄게 되며, 물이 흐르는 소리나 재채기와 같은 음향과 사람의 음성 등의 중,자음은 비 주기적인 형태임

소리의 기본

소리의 기본 • 주파수 • 전파나 음파가 반사, 굴절하여 파동의 방향을 주기적으로 바꾸는 현상이 1초 동안에 반복되는 횟수를 주파수라고 하며 단위로 헤르츠(Hertz)를 사용 • 일반적으로 주파수의 단위는 Hz, KHz, MHz 사용 • 1KHz는 1초에 천 개의 파동, 1MHz 는 1초에 백만 개의 파동이 발생 • 주파수가 높을수록 고음이 발생하며, 낮을수록 저음이 발생

소리의 기본 • 소리의 주파수

소리의 기본 • 서로 다른 두 소리의 합성

소리의 기본 • 서로 다른 두 소리의 합성(2)

통신 • 소리의 분류 • 아날로그 신호: 광섬유 내의 빛의 변화가 유연하고 연속적(continuous)인 것 • 디지털 신호 : 단계가 연속적이지 않은 이산(discrete) 적으로 구성된 신호

통신 • 통신 시스템 • 전송 매체 • - 유선 매체 : 트위스트 페어, 동축 케이블, 광섬유 • - 무선 매체 : 무선 라디오, 마이크로파, 통신위성

통신 • 통신의 배경 • 통신의 시작 : 라디오 전화 등의 아날로그로 시작 • 20세기 중반 : TR의 출현 =>디지털 통신 가능 • 아날로그 시스템 : 전화, 라디오, TV는 소리와 영상을 다루어 여전히 아날로그 성질을 유지 • 디지털 시스템 : 컴퓨터 대 컴퓨터 통신 • 현재 : 디지털과 아날로그가 혼합된 형태

통신 • 아날로그 통신 • 아날로그 통신 시스템 : 전송되는 정보를 표현하기 위해 반송파의 파형이 변조된다. • 변조 방법 : 진폭변조(AM)와 주파수 변조(FM) • 진폭 변조(AM) • 통신 데이터를 나타내기 위해 반송파의 진폭이 변하는 것으로 반송파 진폭은 통신 데이터의 아날로그 신호 주파수에 대응하는 비율로 증가하거나 감소 • 주파수 변조(FM) • 정보 신호 주파수의 변화와 일치하는 비율로 반송파 신호의주파수가 변화

아날로그 이진 표본화 부호화 양자화 신호 코드 PCM의 절차 통신 • 디지털 통신 • 광원의 출력에서 일련의 펄스 생성을 포함(PCM) • 펄스 코드 변조(PCM) • 디지털 신호 1과 0으로 나타내며, 이 1과 0은 펄스의 유무에 의해 나타낼 수 있다. 광 출력의 펄스는 1을 표시하고 펄스가 없을 때는 0을 표시

통신 • 샘플링(표본화) • 자연의 소리를 컴퓨터나 디지털음악 장비에서 사용하기 위해서는 샘플링(sampling)이라는 작업이 필요 • 아날로그 신호를 이산신호(discrete signal)로 변환하려면 Nyquist 규정을 따라야 하며 이는 아날로그 주파수보다 샘플링의 주파수는 최소한 2배 이상이 되어야만 다시 이산신호를 아날로그신호의 역 변환이 가능 • 오디오 경우의 샘플링의 속도는 44.1 KHz이며 16비트의 선형 정량화를 사용

통신 • 아날로그 신호를 디지털 신호로 변환하기 위하여 샘플링

통신 • 양자화 • 표본화에 의해 얻은 PAM신호를 디지털화하기 위해 부호화에 필요한 비트수를 미리 정하고, 그 비트수에 의해서 표현이 가능한 독립적인 개수만큼의 양자화 레벨을 선정하여 표본의 크기를 그와 가까운 크기를 갖는 양자화 레벨에 근사화시키는 것 • 양자화 비트수가 많으면 원신호를 충실히 부호화할 수 있으나 부호-복호기(CODEC)와 중계기 등의 고속화가 필요하다.

통신 • 양자화 잡음 • 아날로그 신호를 디지털 신호로 변환할 때 실제 반올림 절차를 거치게 되므로 약간의 에러가 포함된다. 이러한 오차를 양자화 오차 또는양자화 찌그러짐이라고 부르며 이것은 수화자에게 잡음으로 들리므로양자화 잡음이라고 하는 것이다 • 양자화 잡음을 줄일 수 있는 법 • 이 양자화 잡음을 줄이기 위해서는 양자화 레벨의 개수를 증가시켜 양자화 레벨 사이의 간격(양자화 간격)을 적게 하거나 신호의 크기에 따라 양자화 간격을 달리 취하는 비선형 양자화 방법을 취한다.

. . . . . . . (a) 원래의 아날로그 신호 5.7 4.6 4.2 3.4 2.8 2.3 1.2 (b) 표본화 결과 5 6 4 3 3 2 1 (c) 양자화 결과 100 011 110 011 001 101 010 (d) PCM 출력 통신

파일 저장 방식 • 사운드는 파형을 그대로 표현하는 웨이브(wave)형식과 악기의 음표와 연주시간을 표시하는 미디(MIDI: Musical Instrument Digital Interface)방식의 두 가지가 사용 • 웨이브 방식을 사용하는 파일로는 WAV, VOC, AU, AIFF(Audio Interchange File Format) 등의 파일이 있으며 미디 방식의 파일은 MID, RMI, MOD 등이 있음

파일저장방식(WAVE) • PC 에 있어 가장 대표적인 사운드 저장용 포맷으로 웨이브 방식을 사용하는 모든 사운드에 적용 가능 • 마이크로소프트에서 사용하는 RIFF 방식을 사용하고 있어 압축 방식 및 실제 데이터를 함께 저장할 수 있는 다양한 형식 • 사운드 카드를 PC의 확장 슬롯에 부착시킨 후, 마이크로폰을 사운드 카드에 연결하여 음성 정보를 입력하면 입력된 음성에 대한 디지털 정보를 포함하는 웨이브 파일을 생성

파일저장방식(WAVE) • 마이크로 폰 대신 음악 소리를 내는 장치를 연결할 경우 음악 정보의 저장도 가능 • 사운드 카드는 아날로그 신호를 디지털 신호로 바꾸는 ADC(Analog-to-digital converter)의 역할 • 현재 PC 상에서 쓰이고 있는 웨이브 파일의 이용은 짧은 시간 동안의 음성 정보를 저장해 두고 이를 반복적으로 재생시키거나 편집하는데 이용하는 것이 주된 응용 방법 • 마이크로소프트 윈도우즈에서 웨이브 파일은 확장자로서 *.wav를 가지며, 웨이브 파일의 생성과 재생을 위한 기본적인 소프트웨어가 윈도우즈의 기본적인 프로그램으로 제공

파일저장방식(WAVE) • PCM방식과 ADPCM방식 • 아날로그 사운드는 기본적으로 PCM 방식으로 표본화(sampling)되어 디지털 사운드로 변환되지만 PCM 방식은 용량이 크기 때문에 ADPCM 방식을 주로 사용 • PCM 방식 • PCM 방식은 입력된 값을 그대로 저장하는 방법으로 압축하는 과정을 거치지 않기 때문에 용량이 큼 • PCM방식은 CD나 DAT(Digital Audio Tape) 등에서 사용

파일저장방식(WAVE) • ADPCM 방식 • 제 멀티미디어 협회(IMA)에서 제안한 방식으로 디지털화한 결과를 PCM 방식처럼 그대로 저장하는 것이 아니라, 바로 앞 신호와의 차이를 저장하는 방식 • 차이를 그대로 저장하는 방법은 DPCM이며 그 차이만을 이용하므로 용량이 작음 • 그러나 차이가 클 경우에는 DPCM의 효율도 떨어지므로 이런 문제를 해결하기 위한 방법으로 ADPCM 기법 생김 • 변화폭이 클 때는 신호 차이 값을 표현하는 단위를 크게 하고 그렇지 않은 경우는 반대로 작게 하여 정밀한 신호 표현과 함께 신호의 변화폭이 클 때도 잘 적응할 수 있도록 하는 방법

파일저장방식(WAVE) • ADPCM 방식

파일저장방식(WAVE) • 8 비트 모노(Mono) • 8비트 모노 샘플에서 모든 바이트는 연속적으로 저장 • 8 비트 스테레오(Stereo) • 스테레오 샘플에서는 채널 0은 왼쪽 채널로 채널 1은 오른쪽 채널로 사용

파일저장방식(WAVE) • 16비트 모노 • 메모리에서 16비트 모노 단일 샘플을 표현하는 경우 하나의 단일 샘플을 기록 할 때 2바이트가 필요, 바이트의 순서는 8비트 모노 샘플과 동일 • 16비트 스테레오 • 채널 저장방법은 8비트 스테레오와 동일하며 각 채널은 2바이트를 사용

파일저장방식(WAVE) • 오디오 종류와 데이터률

파일저장방식(WAVE) • AU • Audio의 약자로 유닉스 시스템에서 사용되는 표준 오디오 파일이다. 썬마이크로 시스템즈에서 만든 사운드 포맷으로 웨이브 파일과 비슷하다.

파일저장방식(WAVE) • VOC • Creative Lab.사의 Sound Blaster 제품에 사용되는 웨이브 방식을 기록하는데 사용 • 초기에는 8비트 샘플만을 지원하였으나 16비트 샘플 지원 기능이 추가 • 윈도우 환경에는 사용되지 않으나 초창기의 게임에 일부 사용

파일저장방식(WAVE) • AIFF • 오디오 파일로 Audio Inter change File Format의 약자이다. WAV처럼 샘플링 된 디지털 오디오 파일이다.. • AIFF 포맷은 8비트 스테레오로 모노로 저장되지만 압축되지 않아 파일 크기가 크다는 것이 단점이다..

파일저장방식(MIDI) • 미디 파일의 대표적인 포맷이며 파일은 하나의 헤더 정보와 여러 개의 트랙 정보로 구성 • 헤더에는 트랙의 수에 관한 정보가 기록되고 트랙에는 연주에 따라 발생하는 이벤트의 시간 정보와 이벤트 자체에 대한 정보가 차례로 기록 • MID 파일은 곡목과 같이 당연히 표현되어야 할 정보를 기록할 별도의 필드가 없다는 문제점을 갖고 있으나 모든 미디 편집 소프트웨어에서 사용할 수 있는 대표적인 포맷

파일저장방식(MIDI) • 미디음악을 위한 필수장비 • Windows와 미디 소프트웨어 • 최소한의 운영체제와 Cakewalk같은 미디소프트웨어 필요 • 미디 인터페이스 카드 • 컴퓨터와 미디 악기는 서로 다른 디지털 신호를 사용하기 때문에 그 사이에 하나의 통역장치가 필요하며, 이것을 미디 인터페이스라 함

파일저장방식(MIDI) • 신디사이저와 마스터키보드 • 신디사이저(synthesizer)란 여러 가지 파형의 음을 합성하여 원하는 음을 만들어 연주할 수 있는 장치 • 마스터 키보드는 음원을 제외한 컨트롤러서의 건반만 있는 것

파일저장방식(MIDI) • 미디 케이블 • 각 미디 장비 사이의 연결에는 전용 미디 케이블을 사용 • 스피커와 앰프 • 개인적인 미디 작업을 위한 음향 모니터 장비로서 가장 쉽게 준비할 수 있는 것은 가정용 오디오 시스템임

파일저장방식(MIDI) • 샘플러 • 샘플러(sampler)는 실제의 소리를 디지털 방식으로 직접 녹음한 후 그것을 원하는 형태로 가공하여 악기나 효과음 등으로 사용 • 샘플러에는 녹음된 샘플을 저장하기 위해서 보통 하드디스크와 같은 대용량의 저장 매체가 장착되어야 하며 샘플을 연주하거나 편집하기 위해서 많은 메모리(RAM)가 필요 • 전문 음악인들에게는 필수적인 장비

파일저장방식(MIDI) • 믹서 • 하나의 스테레오 녹음기에 여러 악기의 출력 신호를 녹음하기 위해서는 그 신호들을 적절하게 섞어야 하므로 이것을 위해서 믹서(mixer)라는 장비를 사용 • 믹서는 각 입력 및 출력 신호의 양과 스테레오 밸런스를 조절 • 대부분의 믹서에는 이퀄라이저(equalizer)가 연결되어 있어서 입력 신호의 베이스(base)와 트레블(treble)을 조절이 가능

파일저장방식(MIDI) • 멀티트랙 테이프 레코더 • 멀티트랙 테이프 레코더(MTR; Multi Track Recorder)를 이용하면 녹음 테이프의 한 면을 여러 트랙으로 나누어 녹음이 가능 • MTR장비를 사용하면 컴퓨터 음악뿐만 아니라 보컬, 코러스, 기타연주 등을 각기 다른 트랙에 녹음하기 때문에 믹싱 작업이 한결 수월 • 어느 한 트랙을 실수했다해도 다른 트랙에는 아무 영향도 주지 않고, 그 트랙만을 다시 녹음할 수가 있는 것이 MTR의 장점

파일저장방식(MIDI) • 디지털 멀티트랙 레코더 • 최근에 등장한 것으로 앞에서 설명한 멀티트랙 테이프 레코더를 디지털화한 것으로 즉, 테이프를 사용하는 아날로그 방식이 아닌 하드디스크 드라이브나 고유한 매체에 디지털 방식으로 녹음 • 디지털 멀티 이펙터 • 이펙터는 신디사이저의 음색을 새롭게 가공/처리하여 출력 • 연주된 음에 특수한 효과를 부여하는 것으로서 에코, 리버브, 딜레이 등이 모두 이펙터의 일종

소리의 기본 • RMI • RMI는 MID 파일의 단점을 해결하기 위한 포맷으로 MID 파일 내용과 함께 곡에 대한 추가 정보를 기록할 수 있도록 한 포맷을 사용한다. Microsoft에서 지원하고 있어서 MID와 함께 널리 사용된다.

소리의 기본 • MOD • 샘플링된 소리 데이터들을 소프트웨어적인 방법으로 변형, 합성해 음악으로 출력 • 아미가(AMIGA) 시스템에서 시작된 형식인데, Modules의 약자로 음원을 내장한 사운드 파일 • MOD 파일은 MID처럼 악보 정보와 함께 WAV 같은 음원도 함께 내장

사운드 편집 • 전문적인 사운드 편집작업은 고가의 장비를 갖춘 스튜디오에서 이루어지지만, 간단한 작업, 예를 들어 wav파일의 복사, 자르기, 이어 붙이기 등은 Windows에서 기본으로 제공하는 녹음기에서도 가능 • 통신이나 인터넷상에서 쉽게 구할 수 있는 사운드 편집 소프트웨어를 이용하면 여러 가지 다양한 효과들을 구현가능

사운드 편집 소프트웨어 • 케이크워크 케익크워크(CakeWalk)는 미국 Cakewalk Music Software사에서 만든 IBM 호환 컴퓨터용 컴퓨터 음악 작곡 프로그램으로서 총 256개의 미디/오디오 트랙을 지원하며 미디 악기나 사운드 카드를 사용하여 미디/오디오 데이터를 녹음, 편집, 인쇄할 수 있는 강력한 시퀀서이다. • 사운드 포지 • 사운드 포지(Sound Forge)는 Sonic Foundry사에 의해 만들어진 윈도우 베이스의 음성 편집 프로그램이다. • 사운드 포지 6.0에는 음성편집을 하기 위한 강력한 오디오 처리, 툴, 효과 기능이 탑재되어 있어 음성 편집 및 녹음, 처리로부터 미디어 인코딩까지 어플리케이션 하나로 완성된다.

사운드 편집 소프트웨어 • 쿨 에디터 • WAV 편집 프로그램하면 떠오르는 것이 쿨에디트(Cool Edit)라고 할 수 있을 만큼 널리 알려진 프로그램이며 쿨에디트 2000의 경우 멀티 트랙 레코딩이 지원된다. • 골드 웨이브 • 디지털 오디오는 크게 시퀀싱 오디오 포맷과 샘플링 오디오 포맷으로 나눌 수 있는데, 전자는 MIDI로 대표되며, 후자는 WAVE, MP3가 대표적이다. 그래서 두 포맷을 별도로 다루는 것이 오디오 프로그램의 일반적인 특징인데, 골드웨이브(GoldWave)는 그 중에서도 후자(샘플링 오디오)의 데이터를 편집하는 프로그램이다.

사운드 편집 소프트웨어 • 웨이브랩 • 웨이브랩(WaveLab) 3.0은 윈도우즈 95, 윈도우즈 98, 윈도우즈 NT, 그리고 윈도우즈 2000에 사용되는 오디오 편집·마스터링 소프트웨어이다.

음성 인식(음성의 이해) • 음성 이해는 컴퓨터가 음향 음성 신호(acoustic speech signal)를 듣고서 음성의 의미(abstract meaning)로 매핑시키는 과정 • 단지 한마디 한마디를 정확히 인식하는 것만이 아니라, 발음되는 문장 전체의 의미를 이해하려는 시도를 음성이해라함

음성 인식(음성의 이해) • 1971년에 시작된 미국 국방부 고등 연구 계획국(DARPA)의 음성 이해 연구 계획으로 음성 이해에 관한 연구가 본격화 • 음성 인식의 궁극적 목표는 자연스러운 발성에 의한 음성을 이해하여 컴퓨터에 정보를 입력하는 음성 이해 시스템을 실현하는 것

음성 인식(음성이해의 순서)

음성 인식 • 음성이해 시스템의 국제적 동향

음성 인식 • 음성은 인간이 사용하고 있는 통신매체 중 가장 자연스러운 형태로 자신의 의사표명 혹은 정보의 생성에 있어서 음성을 이용하는 비중이 매우 높음 • 음성을 매체로 한 사람과 기계간의 의사소통(man-machine interface)의 필요성이 크게 대두되었으며, 1970년대 중반 이후 음성인식에 대한 연구가 활발히 전개되어 오고 있음 • 초기(1980년대 초반까지) 음성인식 시스템은 주로 인공지능 기법에 기반을 두고 개발되었는데, 이는 실제 사람이 음성을 인식하는데 적용하는 지식을 컴퓨터에 구현한 것이었음

음성 인식 • 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. • 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI)의 발달에 따라 가로 세로가 몇 mm 크기 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화 되었음

음성 인식 기술 • 음성인식 기술은 그 분류기준에 따라 여러 가지로 분류할 수 있다. 우선 인식의 대상으로 삼는 화자에 따라 화자독립과 화자종속 인식기술로 분류됨. • 화자종속 시스템은 특정 화자의 음성을 인식하기 위한 시스템으로 현재 휴대폰에 탑재되어 사용되는 음성다이얼링(voice dialing) 시스템이 대표적 • 화자독립 시스템은 불특정 다수 화자의 음성을 인식하기 위한 것으로, 다수화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행

주요 목차 가 . 소리의 기본 나 . 통신 다 . 파일 저장 방식 (WAVE,MIDI) 라 . 사운드 편집 마 . 최근 음성인식