1 / 39

품사 태깅 시스템 개요

품사 태깅 시스템 개요. 2005. 1. 5 황명진. 차례. 품사 태깅이란 ? 품사 태깅 시 고려사항 품사 태깅에 대한 연구 접근 방법 통계 기반 접근 방법 (Statistical Approach) 규칙 기반 접근 방법 (Rule-based Approach) 통합 접근 방법 (Hybrid Approach) 품사 태깅 시스템 평가 기준 결론 참고문헌. 품사 태깅 (Part-of-speech Tagging). 품사태깅이란 ?

len-cantu
Download Presentation

품사 태깅 시스템 개요

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 품사 태깅 시스템 개요 2005. 1. 5 황명진

  2. 차례 • 품사 태깅이란? • 품사 태깅 시 고려사항 • 품사 태깅에 대한 연구 접근 방법 • 통계 기반 접근 방법(Statistical Approach) • 규칙 기반 접근 방법(Rule-based Approach) • 통합 접근 방법(Hybrid Approach) • 품사 태깅 시스템 평가 기준 • 결론 • 참고문헌

  3. 품사 태깅(Part-of-speech Tagging) • 품사태깅이란? • 단어(어절,형태소)의 형태론적 중의성을 해소하여 올바른 품사를 결정하는 작업(구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정) • 정보검색시스템 : 높은 재현율과 정확도를 갖는 색인어와 검색어 추출 • 철자검사, 기계번역, 사전구축 등 자연어 처리 제반 분야의 필수 과정

  4. 품사 태깅 시 고려 사항 • 품사 집합(Part-of-speech Tag Set) 결정 문제 • 세분화된 품사집합 - 중의성 많아짐. 태깅 후 자세한 정보 추출 가능 • 덜 세분화된 품사 집합 - 반대 효과 • 예) '큰 명진‘에서 '큰‘은 • 세분화된 품사 집합에서 • 두 가지로 분석 가능 '크+ㄴ'의 자동사+과거 시제를 나타내는 어미 '크+ㄴ'의 형용사+현재 시제를 나타내는 어미 • 중의성 문제 발생, 자세한 정보 얻음 • 덜 세분화된 품사 집합에서 • '크+ㄴ'의 용언+어미로 분석 • 중의성 문제 없음, 덜 자세한 정보

  5. 품사 태깅 시 고려 사항 - 계속 • 미등록어 처리 문제(Unknown Word) • 정의 • 태깅 시스템이나 형태소 분석기에서 사용하는 사전에 등록되지 않은 단어(형태소)를 말함 • 예 • 등록어 • 파ː랗다[―라타][파라니·파래][형용사][ㅎ 불규칙 활용] 밝고 선명하게 푸르다. (큰말)퍼렇다. • 미등록어 • 라덴 • 미등록어 발생 시 사람이 편집하여 등록하는 것도 가능하나 고비용이 듬 • 실시간 시스템에서는 미등록어 처리 기능이 내장되어있어야 함

  6. 품사 태깅 시 고려 사항 - 계속 • 자료 부족 문제(Data Sparseness) • 정의 • 사전에는 정보가 구축되어 있으나 이를 활용할 만큼 신뢰할만한 통계정보를 얻지 못하는 경우. • 원인 • 학습 말뭉치가 다양한 언어 현상을 모두 반영하지 못하기 때문 • 해결방법 • 대량의 균형있는 말뭉치(Balanced Corpus) 사용 • 자료 부족 문제를 해결할 방법(Smoothing)을 따로 구축

  7. 품사 태깅 시 고려 사항 - 계속 • 학습 방법 결정 • 태깅 시스템을 학습 시키는 방법 • 자율 학습(Unsupervised Learning) • 원시 코퍼스에서 직접 정보 추출 • 지도 학습(Supervised Learning) • 태깅된 말뭉치를 이용하여 통계 정보나 규칙 정보 추출 • 지도 학습이 비교적 높은 정확도를 가지나 학습 시 태깅된 말뭉치가 준비되어있어야 함

  8. 품사 태깅 시 고려 사항 - 계속 • 응용분야에 적합한 설계 • 이상적인 품사 태깅 시스템은 새로운 품사 집합이나 새로운 말뭉치에 대한 적응성(Adaptability)이 뛰어나야 한다. • 그러나 현실적으로 어려움 • 따라서 해당 응용분야에 적합한 설계 필요

  9. 품사 태깅 시 고려 사항 - 계속 • 한국어 품사 태깅 시 태깅 단위 결정 • 한국어는 교착어 • 어절이 '실질형태소+형식형태소'로 구성 • 영어 등은 굴절어 • 어형의 변화로 어법 관계를 타나 냄. • 어절 단위 태깅 • 동일 품사 중의성 표현 불가, 문맥 확장이 용이 • 형태소 단위 태깅 • 동일 품사 중의성 표현 가능, 문맥 확장이 어려움 • 동일 품사 중의성 예 • 물었다 => 물+었+다 or 묻+었+다

  10. 품사 태깅에 대한 연구 접근 방법 • 통계 기반 접근 방법(Statistical Approach) • 원시 또는 태깅된 말뭉치를 분석하여 자연어에 대한 정보를 추출하여 얻은 확률(또는 불확실성)을 이용 • 규칙 기반 접근 방법(Rule-based Approach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 통합 접근 방법(Hybrid Approach) • 위 두 방법의 장단점 보완

  11. 통계 기반 접근 방법(Statistical Approach) • 통계 기반 접근 방법(Statistical Approach) • 원시 또는 태깅된 말뭉치를 분석하여 자연어에 대한 정보를 추출하여 얻은 확률(또는 불확실성)을 이용 • 거의 모든 언어 현상에 적용 가능 • 실세계 언어를 충분히 대표할만한 양과 질의 말뭉치가 없다 • 통계 기반 접근 방법, 신경망과 퍼지망을 이용한 접근 방법이 있다 • 방법 • 어휘 확률만을 이용하는 방법 • HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법 • 한국어에서의 응용 • 어절 단위 한국어 품사 태깅 모델 • 형태소 단위 한국어 품사 태깅 모델

  12. [식 1] 모든 c1,N에 상관없이 동일하므로 제거 [식 2] [식 3] 품사 태깅의 확률적 모델링 • 품사 태깅 모델의 확률적 정의 • 길이가 N인 문장(단어열) 이 주어졌을 때, 가장 확률이 높은 품사열 을 구하는 것 • 조건부 확률의 정의에 의한 변형

  13. [식 4] [식 5] [식 6] 품사 태깅의 확률적 모델링 - 계속 • Chain rule에 의한 변형(1) : w를 먼저 분리시킬 경우 w1,0을 문장시작기호로 c1,0을 품사열의 시작기호로 정의 w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci

  14. [식 7] [식 8] [식 9] 품사 태깅의 확률적 모델링 - 계속 • Chain rule에 의한 변형(2) : c를 먼저 분리시킬 경우 w1,0을문장시작기호로 c1,0을 품사열의 시작기호로 정의 w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci

  15. [식 6] 현실적으로 통계 정보 획득이 불가능 [식 9] 품사 태깅의 확률적 모델링 - 계속 • C1,i는 한 문장의 처음부터 i번째까지의 품사 열을 뜻한다. 이런 품사 열이 나타나는 빈도(확률)를, 신뢰할 수준의 정확도로 구하는 것은 불가능하다. • 식 6과 식 9를 통계획득이 가능한 형태로 변형함으로써 다양한 품사 태깅 모델을 유도할 수 있다.

  16. 의존 의존 현재단어 현재단어품사 어휘 확률 기반 품사 태깅 모델 • 모델의 유도 • [식 6]에 다음과 같은 마르코프 가정을 도입 • [가정 1] : 현재 단어의 발생은 이전 단어에만 의존한다. • [가정 2] : 현재 단어의 품사는 현재 단어에만 의존한다. 이전단어

  17. wi ci w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci 어휘 확률 기반 품사 태깅 모델 - 계속 • [가정 1], [가정 2]를 [식 6]에 대입하고 그 결과를 [식 3]에 대입 • [식 10]에서 은 모든 c1,N에 대해서 상수이므로 생략 [모델1]

  18. 어휘 확률 기반 품사 태깅 모델 - 계속 • 어휘 확률기반 품사 태깅 모델의 특징 • 단어가 가장 빈번하게 사용된 품사를 그 단어의 품사로 결정 • 단어에 대한 품사 발생 정보만을 고려할 뿐 문맥 정보는 전현 고려하지 않음

  19. 의존 의존 이전단어품사 현재단어품사 현재단어 HMM 기반 품사 태깅 모델 • 모델의 유도 • [식 9]에 [가정 3], [가정 4]와 같은 마르코프 가정을 도입 • [가정 3] : 현재 품사의 발생은 이전 품사에만 의존한다. • [가정 4] : 현재 단어의 발생은 현재 품사에만 의존한다.

  20. w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci HMM 기반 품사 태깅 모델 - 계속 • [가정 3]과 [가정 4]를 [식 9]에 대입하고, 그 결과를 [식 3]에 대입 • Tri-gram으로 수정한 식 [모델2] [모델3]

  21. HMM 기반 품사 태깅 모델 - 계속 • HMM 기반 품사 태깅 예 P ( flies(N) like(V) a(ART) flower(N) ) A = P(N | )P(V|N)P(ART|V)P(N|ART) = 0.29  0.43  0.65  1.0 = 0.081 B = P(flies | N)P(like | V)P(a | ART)P(flower | N) = 0.025  0.1  0.36  0.063 = 5.4  10-5  P = A * B = 4.37  10-6

  22. HMM 기반 품사 태깅 모델 - 계속 • HMM 기반 품사 태깅 예 a like flies flies 0.025 0.1 0.360 0.063 V 0.43 0.65 1 N ART N 0.29 $ N $ V P N V

  23. HMM 기반 품사 태깅 모델 - 계속 • 은닉 마코프 모델(Hidden Markov Model) • 모델2를 사용하여 태깅되지 않은 말뭉치로부터 자율학습을 통해 매개변수 값을 획득하는 방법을 HMM이라 한다. • P(ci|ci-1)을 상태 전이 확률(State Transition Probability)라 한다 • P(wi|ci)를 관측 심볼 확률(Observation Symbol Probability)라 한다

  24. 어절 단위 한국어 품사 태깅 모델 • 정의 • 길이가 N인 어절열(문장) 이 주어졌을 때, • 가장 확률이 높은 어절 태그열 을 구하는 것 • HMM 모델 • Tri-gram에 기반한 상태 전이 확률과 형태소 단위의 어휘 발생 확률을 사용한 모델 • 어절 단위의 중의성 최소화 단계와 형태소 단위의 품사 태깅 단계로 분리한 모델도 있음

  25. 어절 단위 한국어 품사 태깅 모델 - 계속 • 일반적인 HMM모델을 이용하여 어절 단위로 태깅했을 때의 특징 • 영어 모델을 한국어에 그대로 적용한 모델 • 장점 : 중의성 해소의 중요한 단서가 되는 어절 단위의 문맥 고려 • 단점 : 어절 단위 통계 정보(어절 품사 간 제약 관계 등) 획득에서 자료 부족 문제가 심각 단순화된 품사집합을 사용하면 해결(태깅 후 자세한 정보 얻을 수 없음)어휘 발생 정보 획득(어절 수집) 시에 여전히 자료 부족 문제가 심각 a like flies flies 라면도 치웠다 먹어 V 명사+보조사 N ART N 일.동사+연.어미 보.동사+선+어말 $ $ N … … … V P N V

  26. 먹 라면 어 치우 었 다 대명사 보조사 일.동사 연.어미 선.어미 보.동사 어말 $ … … … … … … … … … … 형태소 단위 한국어 품사 태깅 모델 • 정의 • 길이가 N인 어절열(문장) 이 주어졌을 때, • 가장 확률이 높은 형태소 열 과 • 품사열 을 구하는 것 • HMM 모델 • 형태소 단위의 HMM 모델링 예

  27. 형태소 단위 한국어 품사 태깅 모델 - 계속 • 일반적인 HMM모델을 이용하여 형태소 단위로 태깅했을 때의 특징 • 장점 : 어절단위 품사 태깅 모델에 비하여 자료 부족 문제가 경미 • 단점 : 어절 단위 문맥 고려가 어려움 • 한국어는 다중 관측열(Multiple Observation)이 생겨 과부하 발생 • 공유 단어열(Shared Word Sequence)과 가상 단어열(Virtual Word)을 도입하여 해결한 예가 있음 • 이중 은닉 마코프 모델(Twoply HMM) • 어절 단위 품사 태깅 시스템과 형태소 단위 품사 태깅 시스템의 단점을 보완하기 위한 목적 • hi는 i번째 어절의 실질 형태소에 해당하는 품사(Head Category) • ti는 i번째 어절의 형식 형태소에 해당하는 품사(Tail Category) • 이중 HMM모델을 이용하여 형태소 단위로 태깅했을 때의 특징 • 어절 단위의 문맥을 관측하면서도 형태소 단위의 정보만 필요 • 자료 부족 문제가 심각하지 않음 • 품사 집합을 축소 시킬 필요 없음 • 태깅의 결과가 형태소 단위로 자세히 나옴

  28. 규칙 기반 접근법 • 규칙 기반 접근 방법(Rule-based Approach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 일관성 있는(예외가 없는) 결정적 규칙을 얻기 어렵다 • 새로운 환경에 대한 적응력이 낮음(규칙 구축에 수작업이 필요하므로) • 많은 규칙을 잘 제어하기 어렵다(규칙들이 상충될 수 있음) • 찾아진 규칙에 대해서(제한된 범위)는 높은 정확도를 보인다. • 태깅 결과에 대한 설명이 가능 • 시스템 성능 향상에 비교적 적은 노력이 듬 • 긍정(Positive)/부정(Negative) 정보를 이용한 중의성 해결 규칙 기반(Disambiguation Rule-based) 시스템,초기 태깅 후 오류를 올바른 태그로 변경하는 변형 규칙 기반(Transformation Rule-based) 시스템 등이 있다. • 구체적 예 • Klein과 Simmons 시스템 • Green과 Rubin 시스템(TAGGIT) • Hindle 시스템 • Chanod와 Tapanainen 시스템 • Voutilainen의 ENGCG • Brill 시스템

  29. Klein & Simmons • Klein과 Simmons 시스템 • 태깅 과정 • 400여개의 기능어 사전 참조 • 예외 단어 처리 • 접미어, 특수 기호 처리 • 태깅 규칙 적용 • 실험 • 30개의 품사 집합 사용, 백과사전의 표본에 적용 • 90%의 정확도 • 의의 • 규칙 기반 품사 태깅 시스템의 시효

  30. Green과 Rubin 시스템(TAGGIT) • Green과 Rubin 시스템(TAGGIT) • 품사 태깅 과정 • 예외 사전, 접미사 사전 등을 이용한 초기 태깅 • 3,000여개의 규칙 적용 • 규칙의 형태 • Negative, Positive 규칙(어떤 품사를 제거하거나 선택함) • W X ? Y Z -> not A (또는 W X ? Y Z -> A)(품사 W, X, ?, Y, Z가 차례대로 나타날 경우 ?는 not A(또는 A) • 문맥의 크기 : 좌우 각각 최대 2 • 실험 • 86개의 품사 집합 사용, Brown 100만 코퍼스에 적용 => 77% 정확도 • 좌우 하나의 문맥만 고려한 규칙은 전체 규칙의 25%이나 이들을 이용해 80%의 중의성이 해결 됨 • 의의 • 대량의 실제 코퍼스에 적용한 첫번째 시도 • CLAWS 시스템 개발 동기 부여 • Brown 말뭉치 태깅에 기여

  31. Hindle 시스템 • Hindle 시스템 • 특징 • 결정적 구문분석기와 연계하여 학습 • 구문분석기로부터 문법정보를 제공 받을 수 있음 • 품사태깅 규칙 자동학습(학습 초기 136개의 기본 규칙을 가지며 학습을 통해 세부적인 새 규칙들이 생성됨) • 규칙 • 기본 규칙(default rule) : 문맥을 보지 않고 중의성 해결 • [ADJ+N+V] -> [N] [*] [*](한 단어가 형용사, 명사, 동사 모두로 해석 가능하면 명사로 할당) • 학습된 규칙 • [PREP+TNS] -> TNS[N+V](PREP나 TNS 품사를 가지는 단어 다음에 명사나 동사가 오면, PREP나 TNS로 판단되던 단어는 TNS로 태깅)

  32. Hindle 시스템-계속 • 규칙 학습 과정 • 중의적 단어 발견 • 기존 규칙과 학습된 규칙을 적용 • if correct goto next Else 기존 규칙보다 세부적인 규칙 생성 • 실패율이 임계값을 초과하는 규칙 제거 • 실험 • 46개의 품사 집합 사용 • 100만단어 크기의 품사 태깅된 Brown 코퍼스 사용 • 5번의 반복 학습; 35,000개의 정련된 규칙 학습 • 실험 결과 • 학습 코퍼스: 전체 98%(중의적 단어에 대해서는 95%) • 실험 코퍼스: 전체 97%(중의적 단어에 대해서는 90%)

  33. Chanod & Tapanainen 시스템 • Chanod와 Tapanainen 시스템 • 개발 동기 (중의적 단어에 대한 통계) • 16개 단어 : 전체 중의적 단어 중 50%를 차지 • 97개 단어 : 전체에서 2/3이상 차지 • 빈도가 높은 중의적 단어는 말뭉치에 독립적인 단어들임. • 품사 태깅 규칙 • 신문 기사 문장 50를 이용하여 약 1개월 동안 수작업으로 추출 • 규칙 종류 • 주 규칙(Principle rule) : 가장 빈번한 중의적 단어에 대해서 구축 • Heuristic rules : Principle rule로 처리할 수 없는 경우에 적용 • Non-Contextual rules : 어휘 확률을 반영한 Heuristic rule • 규칙의 표현 • 11개의 Finite State Tranducer로 표현

  34. Chanod & Tapanainen 시스템-계속 • 실험 • 37개의 품사 집합 사용 • 5,752 단어 크기의 경제 관련 데이터에 실험 • 98.7%의 정확도를 보임 • 신문 기사 12만 어절에 실험 • 철자 오류, 고유 명사 오류를 포함하여 97.5%의 정확도를 보임 • 의의 • 품사 태깅 규칙이 예상만큼 어렵지 않음. • 규칙 기반 태거도 통계 기반 태거만큼 우수함을 보임.

  35. ENGCG • Voutilainen의 ENGCG • 시스템 구성 • Tokenizer • ENGCG 형태소 분석기 • ENGCG disambiguator • 구문 태그 할당기 • Finite state syntactic disambiguator • 중의성 해소 과정 • ENGCG 중의성 해결기(disambiguator) • 휴리스틱 규칙 • Finite-State Intersection Grammar

  36. ENGCG-계속 • ENGCG 중의성 해결기(disambiguator) • ‘패턴-처리방법’ 형태의 부정(negative) 규칙 • 규칙에 명시된 문맥과 일치하는 단어에서 부적절한 품사를 제거 • 중의성 해결이 어려운 단어는 다음 단계에서 처리할 수 있게 남겨둠 • 실험 결과 중의성 단어 전체품사수 어절당품사수 오류수 오류율 D0(형태소분석기) 39.0% 67,737 1.77 31 0.08% D1(D0+ENGCG) 6.2% 40,450 1.06 124 0.32% D2(D1+휴리스틱규칙) 3.2% 38,946 1.02 226 0.59% D3(D2+구문분석기) 0.6% 38,342 1.00 281 0.74% • 의의 • 규칙 기반 접근 방법을 사용한 시스템이 기존 통계 기반 접근 방법을 사용한 방법보다 우수할 수 있음을 증명하였다.

  37. Brill 시스템 • 변형에 기반한 오류에 의한 학습(Transformation-based Error-driven Learning) • 언어지식을 학습할 수 있는 규칙기반 학습 방법 • 구성 요소 • Preprocessor • Scoring 함수 • Rule Template • Learner Unannotated text Preprocessor Annotated text Truth Rule Learner

  38. Brill 시스템-계속 • 품사 태깅을 위한 변형 규칙 학습 과정 • 초기 태거를 이용하여 학습 말뭉치를 태깅 • 학습 말뭉치의 태깅 결과와 태깅된 말뭉치의 분석 결과를 비교하여 혼동 행렬 작성 • Scoring 함수와 규칙 틀을 이용하여 초기 태거의 오류를 가장 많이 수정할 수 있는 규칙 추출/저장 • 추출된 규칙을 학습 말뭉치에 적용하여 학습 말뭉치의 오류를 수정 • 생성된 규칙의 오류 수정 빈도가 임계값보다 작을 때까지 2.-5. 단계를 반복

  39. 차례 • 자연어 처리를 위한 품사 태깅 시스템의 고찰(고려대학교 대학원 전산과학과 자연어처리 연구실) • http://infocom.chonan.ac.kr/~limhs/(/cwb-data/data/nlp/%C7%B0%BB%E7%C5%C2%B1%EB.ppt)

More Related