1 / 28

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM 앞에서 언급한 바와 같이 ADPCM 은 이론적으로 표준화어 있지만 각 방식간의 호환성은 없음 ITU-T(International Telecommunication Union-Telecommunication) 에서 ADPCM 방식으로 32Kbps 에서 음성을 전송할 수 있는 방식으로 G.721 제정

henry
Download Presentation

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2.4.3 디지털 사운드의 압축 방식 • 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 • ADPCM • 앞에서 언급한 바와 같이 ADPCM은 이론적으로 표준화어 있지만 각 방식간의 호환성은 없음 • ITU-T(International Telecommunication Union-Telecommunication)에서 ADPCM 방식으로 32Kbps에서 음성을 전송할 수 있는 방식으로 G.721 제정 • 각 표본화 값의 차이를 4bit로 표현하고 표본화율(Sampling Rate)은 8KHz를 사용 1

  2. A-law, u-law • 음성 통신을 목적으로 정한 압축 방식 • 두 방식 모두 양자화 과정에서 오차를 줄이기 위해 만들었으며 비슷한 방식을 사용 • 사람은 대화시 큰소리의 변화보다는 작은 소리의 변화를 더 잘 감지한다는 사실을 이용한 비균등 코딩(Non-uniform Coding) 방식 • TrueSpeech • DSP(Digital Speech Products) 사에서 음성의 실시간 전송을 위해 만든 방식으로 3.7Kbps에서 8.5Kbps까지 전송 가능 • 사람과 사람이 대화할 때 대화 사이의 공백은 디지털 데이터로 전송할 필요가 없다는 사실을 이용하여 최대 40:1까지 압축 가능 2

  3. MP3 또는 MPEG Layer 3 • 동화상 압축 표준인 MPEG(Moving Picture Expert Group)에서 오디오 부분의 압축을 의미 • PCM 관련의 압축 방식과 다른 손실 압축(Lossy Compression) • MPEG-1의 오디오 부분의 Layer 3를 MP3라는 이름으로 사용 • MPEG-2의 오디오 부분은 AAC(Advanced Audio Coding)라고 하여 사용 • 음성 심리학적인 방법인 마스킹(Masking) 효과를 이용 • 마스킹 효과 : 큰소리와 작은 소리가 동시에 발생하면 작은 소리는 들리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상을 의미 • MPEG-1의 오디오 트랙에는 Layer 1(압축률 1:4 정도), Layer 2(압축률 1:6 - 1:8 정도), Layer3(압축률 1:10 - 1:12 정도)가 있음 3

  4. RealAudio • RealNetwork사에서 실시간으로 음성을 보내기 위해 만든 압축 방식으로 별도의 서버가 필요 • 스트리밍 기술을 이용,실시간에 사운드를 전송받으며 재생할 수 있는 사운드 형식 • 네트워크 속도에 따라 선택적으로 전송 가능 4

  5. 2.4.4 디지털 사운드의 파일 포맷 • Wav • Microsoft사와 IBM 사가 PC상의 사운드 표준 형식으로 공동 개발 • Windows 기반 PC에서 주로 사용 • 머리(Header)와 몸체(Body)로 구성 • 머리 : 압축방식, 표본화율 등의 정보를 설정 • 몸체 : 머리 부분에서 정의한 형식에 맞추어 사운드 데이터를 저장 • 같은 wav확장을 가져도 구체적인 압축 방식은 상이할 수 있음 • 일반적으로 ADPCM방식이 많이 사용되고, 그 외에 Truespeech, u-Law등도 많이 사용 5

  6. Au • u-law 방식으로 압축된 형식으로 유닉스 환경에서 사용 • 일반적인 형식이며 다른 형식으로 변환하기 위한 크로스 플랫폼 형식 • Sun이나 NeXT가 표준으로 채택 • MP2, MP3 • 압축효과가 뛰어나고, 음질도 우수 • 인터넷 상에서 음악을 압축하는데 많이 사용 • Layer 2는 .mp2, Layer 3는 .mp3의 확장자를 갖음 6

  7. vqf(plug-In) • 일본 Yamaha사에서 만든 사운드 형식 • 압축율이 MP3보다 뫂고 파일 크기는 작음 • MP3가 사람과 음악 정보에 포괄적으로 적용되는 압축방식을 사용하고 있으나 VQF는 음악에 대해 특화된 압축 방식을 이용 • 압축률은 MP3에 비해 30%이상 향상되었으나 인코딩과 디코딩은 MP3보다 시간이 많이 걸림 • Real Audio (.ra, .rm) • 인터넷 상에서 스트리밍 기술을 이용, 실시간에 사운드를 전송받으며 플레이할 수 있는 사운드 형식 • 기존의 방식은 접속시 처음의 대역폭에 따라 음질이 결정 • 대역폭이 동적으로 변함에 따라 음질도 동적으로 변화시키는 SureStreaming이라는 기술을 이용하여 항상 최적의 음질을 재생시켜줌 7

  8. ASF(Advanced Streaming Format) • 1996년 인텔이 개발한 멀티미디어 파일 형식 • 통합 멀티미디어 파일로 파일 안에는 오디오, 비디오, 이미지, URL, 실행 프로그램까지 포함 가능 • 스트리밍방식을 지원하며 56K 모뎀 정도면 부드럽게 재생 가능 8

  9. 2.6 미디(MIDI) 2.6.1 개요 • 미디(MIDI:Musical Instrument Digital interface)는 1983년 세계 악기 제조업체들이 미국 캘리포니아주 산호세에 모여 제정한 전자 악기와 컴퓨터 간의 상호 정보교환을 위한 규약임 • 음의 높이 및 음표의 길이, 음의 강약 등에 대한 정보 • 실제 음을 듣기 위해서는 그 음을 발생시켜주는 기계(신디사이저, Synthesizer)가 필요함 • 이전에는 전자 악기 간의 호환이 불가능하였으나 MIDI를 이용하여 여러 전자 악기들에 대해 일관된 방식의 제어가 가능해졌고, 동시에 여러 악기들에 대한 제어가 가능해짐 9

  10. 2.6.2 시스템의 구성 미디 시스템의 구성 10

  11. MIDI 시스템의 흐름 • 음의 입력 : 신디사이저에서 음을 발생 => 미디 인터페이스 카드 => 컴퓨터로 전송 • 음의 처리 : 컴퓨터에서 미디 프로그램(시퀀서 등)을 이용하여 편집 • 음의 출력 : 컴퓨터 => 미디 인터페이스 카드 => 신디사이저 등의 미디 장치를 통해 음을 스피커로 출력(앰프를 이용하여 스피커로 출력할 수도 있음) • 미디 인터페이스와 신디사이저와 같은 미디 장치들은 자료를 입력 받는 MIDI-IN단자, 처리된 자료를 출력하는 MIDI-OUT단자, 자료를 전달(bypass)시키는 MIDI-THRU단자를 가짐 11

  12. 2.6.3 하드웨어 장비 (1)  신디사이저 • 전기적인 신호를 합성하여 음을 생성하는 장치 • 소리를 발생시키는 음원부와 음원부를 이용하여 연주하는 건반부로 구성 • 음원모듈은 건반부가 없는 것을 마스터 키보드는 음원부가 없는 것을 의미 신디사이저 12

  13. 음을 합성하는 방법  • FM 방식 sine파의 합성 • sine파를 기본으로 하여 소리를 합성하는 방식 • Yamaha사의 초기의 DX 시리즈와 근래의 TG 시리즈나 MU-80 등 13

  14. PCM 방식 • 소리를 디지털로 변환하여 저장하였다가 사용하는 방식 • 음질은 좋으나 정보의 양이 많고, 소리의 변형이 자류롭지는 않으나 원음 재현이 뛰어남 • Roland사의 SC 시리즈, JV 시리즈, Yamaha사의 AWM(Advanced Wave Memory) 방식 등이 있음 14

  15. 3. AI 방식 • 여러 음에 걸쳐서 여러 번 샘플링한 결과를 음원 모듈로 사용 • 일반적인 신디사이저에서 사용하는 대표음을 녹음하는 방식은 저음부와 고음부에서 약간 차이가 있음 • 음을 합성할 경우에도 FM 방식 뿐 아니라 샘플링된 음도 사용하는 방식 • 향상된 PCM 방식과 FM 방식의 합성이라고 볼 수 있음 (2)  샘플러(Sampler) • 신디사이저가 각 악기 음의 대표적인 음을 갖고 있는데 반해 샘플러는 악기의 모든 음을 갖고 있음 • 실제 소리를 녹음하여 악기로 변환하여 쓰거나 각종 효과음으로 활용할 수 있도록 해주는 장비 • 좀더 정교한 음을 사용하고자 할 때나 음원에 없는 새로운 음을 만들고자 할 때 사용 15

  16. (3)  믹서(Mixer) • 여러 개의 오디오 출력을 섞어서 하나의 출력으로 만들어 주는 역할 • 각 출력의 균형 등을 맞추어 주는 이퀄라이저(Equalizer)가 장착되어 있어 음악의 균형을 맞추어 녹음하고 연주하는데 많이 이용 (4)  드럼 모듈 • 드럼의 소리들만을 담아둔 모듈 • 일반 음원 모듈이나 신디사이저의 드럼 소리보다 훨씬 좋은 소리를 내장 16

  17. (5)  MIDI 인터페이스 카드 • 시퀀서 프로그램이 실행되는 컴퓨터와 미디 모듈 간의 신호 체계가 다른데 이를 연결해 주는 기능을 함 • Roland사의 MPU-401은 미디 초창기에 개발되어 거의 표준으로 사용되고 있음 (6)  미디 전용 케이블 (7)  앰프와 스피커 17

  18. 2.6.4 미디의 표준 모드 • 미디에는 최소한의 규정만 있을 뿐 악기 번호에 대한 것과 이펙터(음을 연주할 때 특수한 효과를 주는 것)를 조정하는 방식 등에 관한 규정이 없음 • 예를 들어 A라는 사람은 악기번호 1번에 바이올린을 할당하여 곡을 만들었는데 그 곡을 B라는 사람이 듣는데 B라는 사람의 환경은 악기번호 1번에 피아노가 할당되어 있다면 이상한 소리가 연주 됨 18

  19. 2.6.5 미디의 소프트웨어 (1) 작곡용 프로그램(시퀀서,Sequencer) • 음원 모듈에 어떤 악기를 얼마의 강도로 얼마나 오랫동안 소리를 내라고 명령함 • 미디 신호를 입출력할 수 있고, 저장되어 있는 미디 데이터를 연주, 편집하는 기능이 있음 • 미디 신호는 미디 메시지로 표현 • 미디 장치간에 음악적인 사건 정보를 전달 • 음악적인 사건 : 악기를 연주하면서 연주자가 취하는 동작 • 건반을 누르거나 건반에서 손을 떼는 등의 행동 • 채널 별로 송수신 되는 메시지와 미디 시스템 전체를 제어하는 시스템 메시지로 구분 19

  20. CakeWalk • PC로 미디 작곡이나 편곡 등을 하는데 가장 널리 사용되고 있는 프로그램 • 마이크로소프트 ActiveMovie지원, 실시간 음향 효과 지원, DirecSound 지원 등 강력한 미디 사운드와 웨이브 사운드 편집 기능 지원 • 128 트랙의 오디오를 미디와 함께 레코딩 가능하며, 24 비트의 오디오 및 96KHz 표본화율을 지원 • 오디오 및 미디 트랙과 함께 AVI, MPEG, QuickTime 등의 동화상을 동기화시키는 기능, 믹스 기능 제공 • Cubase • Logic 20

  21. (2) 악보용 프로그램(Notation, Scoring 프로그램) • 모니터 상에 악보를 그리고(scoring), 프린터로 출력하는 출판용 프로그램 • 출판 기능 뿐 아니라 편집 기능을 제공하고 있어서 시퀀서와 더불어 많이 이용 • Coda사의 Finale , Passport Design사의 Encore 등 (3) 음색편집용 프로그램(Voice Editor, Sound Editing 프로그램) • 소리를 편집, 수정하는 프로그램으로 미디 음원 모듈이나 신디사이저에 있는 각종 음색과 효과음을 바꾸거나 새로 만들 때 사용하는 프로그램 • 오딧세이소프트(OdysseySoft)사의 Classic-B, KORG사의 X5DR등 21

  22. 음성 • 음성인식-음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이해할 수 있는 표현방법으로 변환하는 과정 • 음향학, 음운학, 언어학등의 지식 포함 • 목적: 컴푸터를 사용하여 입력된 사용자의 음성을 자동으로 인식할 수 있는 시스템 개발 및 기술개발 목적 22

  23. 분류: • 패턴정합법 - 주어진 입력패턴 비교 하여 유사성 정도 측정 - 동적 정합법 • 지식기반 방법 - 음성인식과정을 규칙 형태로 저장한 후에 입력되는 현상에 애하여 저장된 규칙을 적용 인식 - spectro gram reading Expert • 은닉 마르코프 모델 - 마르코프 체인 모델을 기반으로 음성데이타의 확률적 모델간의 유사도를 사용하여 인식 수행-SPHINX 23

  24. 음성인식기 훈련과정 표준패턴 생성 훈련과정 음성입력 전처리 분할 인식과정 인식결과 음성인식과정 24

  25. 전처리단계 • 휴지 제거 • 분할단계 • 음소단위로 분할 • 인식단계 • 후처리과정 포함하여 오류 교정 25

  26. 화자인식 • 음성에 포함되어 있는 화자정보를 추출하여 개인을 확인하는 기술 • 효과적인 보안기술의 하나 • 1962년 Kersta가 성문이라고 명명한 spectrogram에서 비롯 • 패턴 정합법, 은닉 마르코프 방법, 신경회로망, 벡터양자화 26

  27. 벡터양자화기법 • 입력패턴과 양자화코드북내에있는 코드워드표준패턴들 사이의 거리를 측정하여 가장 거리가 가까운 코드워드에 입력패턴 매칭 • (그림2-8 참조) 27

  28. 화자식별과 화자 인식 28

More Related