1 / 16

Pattern 인식을 이용한 Noise 검출

Pattern 인식을 이용한 Noise 검출. 200811459 조휘열. 목 차. 개 요. 목 적. 데이터 마이닝. 데이터 수집 Target Data Preprocessing & Transform Data Data Mining. 결 론. 개 요 . 음악 파일 분석. 음악 파일 역시 bit sequence 로 표현 bit sequence 속에 pitch, duration, key-signal, time-signal

kiora
Download Presentation

Pattern 인식을 이용한 Noise 검출

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pattern 인식을 이용한 Noise 검출 200811459 조휘열

  2. 목 차 • 개 요 • 목 적 • 데이터 마이닝 • 데이터 수집 • Target Data • Preprocessing & Transform Data • Data Mining • 결 론

  3. 개 요 • 음악 파일 분석 • 음악 파일 역시 bit sequence로 표현 • bit sequence 속에 pitch, duration, key-signal, time-signal • 정보가 모두 포함 • 음악 파일에는 일정한 패턴이 있을 것이다 • 그 패턴을 우리는 ‘멜로디’라고 할 수 있음 • 보다 계산된 음악이 가능 • 표절 검사에도 사용할 수 있음 • 제한 사항 • 음악 파일 하나에는 수많은 bit sequence가 있고, 그 크기가 방대 • 하나의 음악이 아닌 여러 음악을 보아야 한다.

  4. 목 적 • 패턴을 이용해서 잡음을 추출 +잡음 +패턴

  5. 데이터 수집 (1/2) • 출처 : http://archive.ics.uci.edu/ml/datasets/Bach+Chorales • 바흐의 화음 • 소프라노로 구성되어 있으며 • Rawdata format은 lisp 기반

  6. 데이터 수집 (2/2) • Raw Data

  7. 데이터 마이닝(1/8) • Attribute & Domain • start_time : 1/16 음표로 계산하여 수치화한 시작 시간 • {0,1,2,3, … } • pitch : 음높이. MIDI number로 표현한다 • <ex> C4 = 60, C#4 = 61, C5 = 72 • domain = {60, … , 75} • duration : 음의 지속 길이 {1,2,3, … , 16} • keysignal : flat과 sharp의 수. 양수면 sharp, 음수면 flat • {-4, … , 4} • timesignal : 한 마디의 1/16음표 개수 {12, 16} • fermata : 늘임표 등 기타 표현 {0, 1}

  8. 데이터 마이닝(2/8) • Target Data • evalattribute를 생성 • eval (1: 원본 데이터 / 0: 잡음 데이터) • Preprocessing & Transform Data • lisp파일을 excel로 옮김 • 첫 번째 화음과 두 번째 화음을 구별하기 위한 ‘no’ attribute 추가 • 각 attribute의 domain을 이용하여 임의의 값들을 잡음으로 추가

  9. 데이터 마이닝(3/8) • 전체 스트림

  10. 데이터 마이닝(4/8) • 일반 추론 부분 • 패턴을 이용하여 단순한 추론을 하는 부분 • eval만 target data

  11. 데이터 마이닝(5/8) • 일반 추론 부분 (계속)

  12. 데이터 마이닝(6/8) • 규칙 분석 부분

  13. 데이터 마이닝(7/8) • 규칙 분석 부분 (계속)

  14. 데이터 마이닝(8/8) • Knowledge • Noise 검출!

  15. 결 론(1/2) • Clementine 11.1 을 이용하여 Noise 검출 • 4477개의 data set을 기준으로 • Noise를 직접 만들고 • 패턴을 분석하여 • 오류를 검출해냄 • 문제점 • 생성한 1583개의 Noise 중에서 50개밖에 검출되지 못하는 결과? • 임의로 생성한 Noise가 Noise가 아닌 것과 패턴이 일치 • 기존 data set의 양이 충분치 못하여 확실한 pattern 검출이 안됨

  16. 결 론(2/2) • 각각의 attribute를 Modeling한 결과와 한꺼번에 동일한 Modeling 알고리즘을 돌렸을 경우 차이를 확인 • 보다 많은 data set과 많은 데이터를 처리할 resource가 충분하다면 보다 정확한 패턴을 찾아 낼 수 있을 것이며, 이는 data set의 Noise를 더욱 충분히 줄일 수 있을 것으로 기대

More Related