2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM

2.4.3 디지털 사운드의 압축 방식 • 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 • ADPCM • 앞에서 언급한 바와 같이 ADPCM은 이론적으로 표준화어 있지만 각 방식간의 호환성은 없음 • ITU-T(International Telecommunication Union-Telecommunication)에서 ADPCM 방식으로 32Kbps에서 음성을 전송할 수 있는 방식으로 G.721 제정 • 각 표본화 값의 차이를 4bit로 표현하고 표본화율(Sampling Rate)은 8KHz를 사용 1

A-law, u-law • 음성 통신을 목적으로 정한 압축 방식 • 두 방식 모두 양자화 과정에서 오차를 줄이기 위해 만들었으며 비슷한 방식을 사용 • 사람은 대화시 큰소리의 변화보다는 작은 소리의 변화를 더 잘 감지한다는 사실을 이용한 비균등 코딩(Non-uniform Coding) 방식 • TrueSpeech • DSP(Digital Speech Products) 사에서 음성의 실시간 전송을 위해 만든 방식으로 3.7Kbps에서 8.5Kbps까지 전송 가능 • 사람과 사람이 대화할 때 대화 사이의 공백은 디지털 데이터로 전송할 필요가 없다는 사실을 이용하여 최대 40:1까지 압축 가능 2

MP3 또는 MPEG Layer 3 • 동화상 압축 표준인 MPEG(Moving Picture Expert Group)에서 오디오 부분의 압축을 의미 • PCM 관련의 압축 방식과 다른 손실 압축(Lossy Compression) • MPEG-1의 오디오 부분의 Layer 3를 MP3라는 이름으로 사용 • MPEG-2의 오디오 부분은 AAC(Advanced Audio Coding)라고 하여 사용 • 음성 심리학적인 방법인 마스킹(Masking) 효과를 이용 • 마스킹 효과 : 큰소리와 작은 소리가 동시에 발생하면 작은 소리는 들리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상을 의미 • MPEG-1의 오디오 트랙에는 Layer 1(압축률 1:4 정도), Layer 2(압축률 1:6 - 1:8 정도), Layer3(압축률 1:10 - 1:12 정도)가 있음 3

RealAudio • RealNetwork사에서 실시간으로 음성을 보내기 위해 만든 압축 방식으로 별도의 서버가 필요 • 스트리밍 기술을 이용,실시간에 사운드를 전송받으며 재생할 수 있는 사운드 형식 • 네트워크 속도에 따라 선택적으로 전송 가능 4

2.4.4 디지털 사운드의 파일 포맷 • Wav • Microsoft사와 IBM 사가 PC상의 사운드 표준 형식으로 공동 개발 • Windows 기반 PC에서 주로 사용 • 머리(Header)와 몸체(Body)로 구성 • 머리 : 압축방식, 표본화율 등의 정보를 설정 • 몸체 : 머리 부분에서 정의한 형식에 맞추어 사운드 데이터를 저장 • 같은 wav확장을 가져도 구체적인 압축 방식은 상이할 수 있음 • 일반적으로 ADPCM방식이 많이 사용되고, 그 외에 Truespeech, u-Law등도 많이 사용 5

Au • u-law 방식으로 압축된 형식으로 유닉스 환경에서 사용 • 일반적인 형식이며 다른 형식으로 변환하기 위한 크로스 플랫폼 형식 • Sun이나 NeXT가 표준으로 채택 • MP2, MP3 • 압축효과가 뛰어나고, 음질도 우수 • 인터넷 상에서 음악을 압축하는데 많이 사용 • Layer 2는 .mp2, Layer 3는 .mp3의 확장자를 갖음 6

vqf(plug-In) • 일본 Yamaha사에서 만든 사운드 형식 • 압축율이 MP3보다 뫂고 파일 크기는 작음 • MP3가 사람과 음악 정보에 포괄적으로 적용되는 압축방식을 사용하고 있으나 VQF는 음악에 대해 특화된 압축 방식을 이용 • 압축률은 MP3에 비해 30%이상 향상되었으나 인코딩과 디코딩은 MP3보다 시간이 많이 걸림 • Real Audio (.ra, .rm) • 인터넷 상에서 스트리밍 기술을 이용, 실시간에 사운드를 전송받으며 플레이할 수 있는 사운드 형식 • 기존의 방식은 접속시 처음의 대역폭에 따라 음질이 결정 • 대역폭이 동적으로 변함에 따라 음질도 동적으로 변화시키는 SureStreaming이라는 기술을 이용하여 항상 최적의 음질을 재생시켜줌 7

ASF(Advanced Streaming Format) • 1996년 인텔이 개발한 멀티미디어 파일 형식 • 통합 멀티미디어 파일로 파일 안에는 오디오, 비디오, 이미지, URL, 실행 프로그램까지 포함 가능 • 스트리밍방식을 지원하며 56K 모뎀 정도면 부드럽게 재생 가능 8

2.6 미디(MIDI) 2.6.1 개요 • 미디(MIDI:Musical Instrument Digital interface)는 1983년 세계 악기 제조업체들이 미국 캘리포니아주 산호세에 모여 제정한 전자 악기와 컴퓨터 간의 상호 정보교환을 위한 규약임 • 음의 높이 및 음표의 길이, 음의 강약 등에 대한 정보 • 실제 음을 듣기 위해서는 그 음을 발생시켜주는 기계(신디사이저, Synthesizer)가 필요함 • 이전에는 전자 악기 간의 호환이 불가능하였으나 MIDI를 이용하여 여러 전자 악기들에 대해 일관된 방식의 제어가 가능해졌고, 동시에 여러 악기들에 대한 제어가 가능해짐 9

2.6.2 시스템의 구성 미디 시스템의 구성 10

MIDI 시스템의 흐름 • 음의 입력 : 신디사이저에서 음을 발생 => 미디 인터페이스 카드 => 컴퓨터로 전송 • 음의 처리 : 컴퓨터에서 미디 프로그램(시퀀서 등)을 이용하여 편집 • 음의 출력 : 컴퓨터 => 미디 인터페이스 카드 => 신디사이저 등의 미디 장치를 통해 음을 스피커로 출력(앰프를 이용하여 스피커로 출력할 수도 있음) • 미디 인터페이스와 신디사이저와 같은 미디 장치들은 자료를 입력 받는 MIDI-IN단자, 처리된 자료를 출력하는 MIDI-OUT단자, 자료를 전달(bypass)시키는 MIDI-THRU단자를 가짐 11

2.6.3 하드웨어 장비 (1) 신디사이저 • 전기적인 신호를 합성하여 음을 생성하는 장치 • 소리를 발생시키는 음원부와 음원부를 이용하여 연주하는 건반부로 구성 • 음원모듈은 건반부가 없는 것을 마스터 키보드는 음원부가 없는 것을 의미 신디사이저 12

음을 합성하는 방법 • FM 방식 sine파의 합성 • sine파를 기본으로 하여 소리를 합성하는 방식 • Yamaha사의 초기의 DX 시리즈와 근래의 TG 시리즈나 MU-80 등 13

PCM 방식 • 소리를 디지털로 변환하여 저장하였다가 사용하는 방식 • 음질은 좋으나 정보의 양이 많고, 소리의 변형이 자류롭지는 않으나 원음 재현이 뛰어남 • Roland사의 SC 시리즈, JV 시리즈, Yamaha사의 AWM(Advanced Wave Memory) 방식 등이 있음 14

3. AI 방식 • 여러 음에 걸쳐서 여러 번 샘플링한 결과를 음원 모듈로 사용 • 일반적인 신디사이저에서 사용하는 대표음을 녹음하는 방식은 저음부와 고음부에서 약간 차이가 있음 • 음을 합성할 경우에도 FM 방식 뿐 아니라 샘플링된 음도 사용하는 방식 • 향상된 PCM 방식과 FM 방식의 합성이라고 볼 수 있음 (2) 샘플러(Sampler) • 신디사이저가 각 악기 음의 대표적인 음을 갖고 있는데 반해 샘플러는 악기의 모든 음을 갖고 있음 • 실제 소리를 녹음하여 악기로 변환하여 쓰거나 각종 효과음으로 활용할 수 있도록 해주는 장비 • 좀더 정교한 음을 사용하고자 할 때나 음원에 없는 새로운 음을 만들고자 할 때 사용 15

(3) 믹서(Mixer) • 여러 개의 오디오 출력을 섞어서 하나의 출력으로 만들어 주는 역할 • 각 출력의 균형 등을 맞추어 주는 이퀄라이저(Equalizer)가 장착되어 있어 음악의 균형을 맞추어 녹음하고 연주하는데 많이 이용 (4) 드럼 모듈 • 드럼의 소리들만을 담아둔 모듈 • 일반 음원 모듈이나 신디사이저의 드럼 소리보다 훨씬 좋은 소리를 내장 16

(5) MIDI 인터페이스 카드 • 시퀀서 프로그램이 실행되는 컴퓨터와 미디 모듈 간의 신호 체계가 다른데 이를 연결해 주는 기능을 함 • Roland사의 MPU-401은 미디 초창기에 개발되어 거의 표준으로 사용되고 있음 (6) 미디 전용 케이블 (7) 앰프와 스피커 17

2.6.4 미디의 표준 모드 • 미디에는 최소한의 규정만 있을 뿐 악기 번호에 대한 것과 이펙터(음을 연주할 때 특수한 효과를 주는 것)를 조정하는 방식 등에 관한 규정이 없음 • 예를 들어 A라는 사람은 악기번호 1번에 바이올린을 할당하여 곡을 만들었는데 그 곡을 B라는 사람이 듣는데 B라는 사람의 환경은 악기번호 1번에 피아노가 할당되어 있다면 이상한 소리가 연주 됨 18

2.6.5 미디의 소프트웨어 (1) 작곡용 프로그램(시퀀서,Sequencer) • 음원 모듈에 어떤 악기를 얼마의 강도로 얼마나 오랫동안 소리를 내라고 명령함 • 미디 신호를 입출력할 수 있고, 저장되어 있는 미디 데이터를 연주, 편집하는 기능이 있음 • 미디 신호는 미디 메시지로 표현 • 미디 장치간에 음악적인 사건 정보를 전달 • 음악적인 사건 : 악기를 연주하면서 연주자가 취하는 동작 • 건반을 누르거나 건반에서 손을 떼는 등의 행동 • 채널 별로 송수신 되는 메시지와 미디 시스템 전체를 제어하는 시스템 메시지로 구분 19

CakeWalk • PC로 미디 작곡이나 편곡 등을 하는데 가장 널리 사용되고 있는 프로그램 • 마이크로소프트 ActiveMovie지원, 실시간 음향 효과 지원, DirecSound 지원 등 강력한 미디 사운드와 웨이브 사운드 편집 기능 지원 • 128 트랙의 오디오를 미디와 함께 레코딩 가능하며, 24 비트의 오디오 및 96KHz 표본화율을 지원 • 오디오 및 미디 트랙과 함께 AVI, MPEG, QuickTime 등의 동화상을 동기화시키는 기능, 믹스 기능 제공 • Cubase • Logic 20

(2) 악보용 프로그램(Notation, Scoring 프로그램) • 모니터 상에 악보를 그리고(scoring), 프린터로 출력하는 출판용 프로그램 • 출판 기능 뿐 아니라 편집 기능을 제공하고 있어서 시퀀서와 더불어 많이 이용 • Coda사의 Finale , Passport Design사의 Encore 등 (3) 음색편집용 프로그램(Voice Editor, Sound Editing 프로그램) • 소리를 편집, 수정하는 프로그램으로 미디 음원 모듈이나 신디사이저에 있는 각종 음색과 효과음을 바꾸거나 새로 만들 때 사용하는 프로그램 • 오딧세이소프트(OdysseySoft)사의 Classic-B, KORG사의 X5DR등 21

음성 • 음성인식-음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이해할 수 있는 표현방법으로 변환하는 과정 • 음향학, 음운학, 언어학등의 지식 포함 • 목적: 컴푸터를 사용하여 입력된 사용자의 음성을 자동으로 인식할 수 있는 시스템 개발 및 기술개발 목적 22

분류: • 패턴정합법 - 주어진 입력패턴 비교 하여 유사성 정도 측정 - 동적 정합법 • 지식기반 방법 - 음성인식과정을 규칙 형태로 저장한 후에 입력되는 현상에 애하여 저장된 규칙을 적용 인식 - spectro gram reading Expert • 은닉 마르코프 모델 - 마르코프 체인 모델을 기반으로 음성데이타의 확률적 모델간의 유사도를 사용하여 인식 수행-SPHINX 23

음성인식기 훈련과정 표준패턴 생성 훈련과정 음성입력 전처리 분할 인식과정 인식결과 음성인식과정 24

전처리단계 • 휴지 제거 • 분할단계 • 음소단위로 분할 • 인식단계 • 후처리과정 포함하여 오류 교정 25

화자인식 • 음성에 포함되어 있는 화자정보를 추출하여 개인을 확인하는 기술 • 효과적인 보안기술의 하나 • 1962년 Kersta가 성문이라고 명명한 spectrogram에서 비롯 • 패턴 정합법, 은닉 마르코프 방법, 신경회로망, 벡터양자화 26

벡터양자화기법 • 입력패턴과 양자화코드북내에있는 코드워드표준패턴들 사이의 거리를 측정하여 가장 거리가 가까운 코드워드에 입력패턴 매칭 • (그림2-8 참조) 27

화자식별과 화자 인식 28

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM