360 likes | 682 Views
Part-of-Speech Tagging Markov Model Tagger 를 중심으로. 부산대학교 컴퓨터공학과 한국어정보처리 연구실 정성원. 목 차. 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가. Part-of-speech tagging ( 품사 태깅 ).
E N D
Part-of-Speech TaggingMarkov Model Tagger를 중심으로 부산대학교 컴퓨터공학과 한국어정보처리 연구실 정성원
목 차 • 일반적인 태깅 • 품사 태깅 기법 • 일반적 통계 기반 품사 태깅 • 한국어 품사 태깅 • 한국어의 형태 ◦ 통사적 특징 • 통계 기반 한국어 품사 태깅 • 형태소 n-gram 모델 보완 • 어절 확률 추정에 기반한 한국어 태깅 모델 • 어절 확률 추정 • 어절 확률 추정에 기반한 HMM 모델 • 성능 평가
Part-of-speech tagging (품사 태깅) • Part-of-speech tagging, PoS tagging: Assigning a part-of-speech category to each word-token in a text.
품사(범주) 분류 (Tagset) 일반적 품사 분류의목적 문장구조를 효율적으로 기술하고 처리하기 위함 되도록이면 자세하게 분류하는 것이 좋음 Major English tagsets: Penn (45 tags); Brown (87 tags); Lancaster: CLAWS series of tagsets, C5, and C7 (for BNC, 146 tags). 품사 분류 기준 기능(function) : 각 단어(or 형태소)가 어느 문장 성분(주어, 서술어, 목적어, 수식어, 관계어 등) 자리에 놓일 수 있는지에 따른 분류 형태(form): 각 형태소의 어형 변화나 굴절 특성에 따른 분류 의미(meaning): 각 형태소의 의미에 따른 분류 품사 태그 집합 크기의 변이 요소 적용한 품사 분류 기준 문장부호 및 조사의 세분화 정도 품사분류의 일반적 목적에 부합하여 대부분의 연구들에서 기능 기준 분류를 일차적으로 고려함 4
일반적 통계 기반 품사 태깅 1 관련연구 • 통계적 품사 태깅 • 한 문장을 이루는 어절열 w1,n이 주어졌을 때, 가장 확률이 높은 태그열 t1,n을 구함 • 일반적인 통계 기반 모델에서 tag의 확률 • 이전의 history에 대한 조건부 확률로 구함 • 현실적으로는 전체 history에 대해 조건부확률을 구하는 것이 불가능 ∴ n-gram 모델을 도입하여 국부적인 문맥(local context)을 이용
Markov Assumptions • Let X=(X1, .., Xt) be a sequence of random variables taking values in some finite set S={s1, …, sn}, the state space, the Markov properties are: • Limited Horizon: P(Xt+1=sk|X1, .., Xt)=P(X t+1 = sk |Xt) i.e., a word’s tag only depends on the previous tag. • Time Invariant: P(Xt+1=sk|X1, .., Xt)=P(X2 =sk|X1) i.e., the dependency does not change over time. • If X possesses these properties, then X is said to be a Markov Chain • Tagging에서의 Limited Horizon property
0.6 1.0 0.4 h a p 0.4 1.0 0.6 0.3 i e t 1.0 0.4 start iced tea cola lemonade 0.1 0.6 0.3 CP IP 0.3 0.7 0.5 0.5 0.1 0.2 cola lemonade 0.7 iced tea Markov Model • Visible Markov Model • Hidden Markov Model P(t,i,p) = P(t)P(i|t)P(p|i) = 1.0 x 0.3 x 0.6 = 0.18 {lemonade, ice tea} 0.7x0.3x0.7x0.1 + 0.7x0.3x0.3x0.1 + 0.3x0.3x0.5x0.7 + 0.3x0.3x0.5x0.7 = 0.084
품사 태깅에서의 HMM • HMM이 성립될 요소 {S, V, A, B, π} • S : 상태 (품사) • V : 각 상태에서 일어날 수 있는 서로 다른 관측 심볼 (단어) • A : 상태 전이 확률 • B : 관측 확률 • π : 초기 상태 확률
일반적 통계 기반 품사 태깅 2 관련연구 • n-gram 차수가 높을수록 통계 기반 모델의 정확도는 더 높지만 현실적으로 n이 큰 모델은 구축하기 힘듦 • 타입(가짓수)의 통계정보를 유지하기 위한 사전의 메모리가 많이 필요 • n-gram 차수가 높을 수록 자료부족 문제 심각 • 20,000개의 연속된 어절 타입으로 이루어진 말뭉치에서 추출할 수 있는 이전 문맥을 고려한 bi-gram 19,999개 (vs. 이론적 4억 개의 조합)
일반적 통계 기반 품사 태깅 3 관련연구 • 태그 확률 우선 전개 • 마르코프 가정 적용 • 현재 품사의 발생은 바로 이전의 품사에만 의존 (n=2, 품사 bi-gram) • 현재 어절의 발생은 현재의 품사에만 의존 (n=1, 품사에 대한 어절 uni-gram) • 태그 확률 우선 전개 HMM 품사 태깅 모델 ( n=2, bi-gram 모델 )[Charniak93]
일반적 통계 기반 품사 태깅 4 관련연구 • 어절 확률 우선 전개 • 마르코프 가정 적용 • 현재 어절의 발생은 바로 이전의 어절에만 의존 (n=2, 어절 bi-gram) • 현재 품사의 발생은 현재의 어절에만 의존 (n=1, 어절에 대한 품사 uni-gram) • 어절 확률 우선 전개 품사 태깅 모델 [Charniak93]
통계 정보 추출 ti-1 ti ti+1 wi-1 wi wi+1 P(NN|AT) = 48636/(48636+19) = 99.96
명사 명사+조사 1 1 0.2 0.2 0 1 1 타동사+어미 0.3 0.1 0.6 0.6 타동사+어미 자타동사+어미 0.5 0.5 0.5 0.5 0.4 0.2 최적 후보 열 선택 방법- Best choice • 방법 • 후보들 중 선택 확률이 가장 높은 것을 선택(전후 어절 사이에 존재하는 전이 확률을 사용하는 것도 가능) 음식을 해 가지고 갈 생각 수의존명사 명사+조사 명사 명사 명사+조사 명사 수의존명사+어미 타동사+어미 자타동사+어미 타동사+어미 보조용언+어미 보조용언+어미
Viterbi algorithm • The Viterbi Algorithm works as follows: • Initialization: δj(1) = πj, 1≤ j≤ N • Induction: δj (t+1) = max1≤ i≤Nδi(t)aijbijo_t 1≤ j≤ NStore backtrace:ψj(t+1) = argmax1≤ i≤Nδj(t)aij bijo_t 1≤ j≤ N • Termination and path readout:XT+1 = argmax1≤ i≤Nδj(T+1)Xt = ψXt+1(t+1)P(X) = max1≤ i≤Nδj(T+1)
명사 명사+조사 S S 타동사+어미 S 자타동사+어미 S 보조용언+어미 S Pia Si-1a 명사 Pia 명사 Pib Si-1b Pi-1a Pi+1a Pic Pib 타동사+어미 Pic Si-1c Pi-1b 보조용언+어미 Pi-1c 음식을 해 가지고 갈 생각 수의존명사 명사+조사 명사 명사 명사+조사 S S S S S 명사 수의존명사+어미 타동사+어미 S S S 자타동사+어미 타동사+어미 보조용언+어미 S S S 보조용언+어미 S Viterbi algorithm • 방법 • 앞 어절들과의 관계 중 가장 확률이 높은 것을 선택Si+1a = argmax(Si-1 * Pi * Pi-1a) • 계산이 끝난 후 back track하면서 선택 함 Si+1a Pi+1a S S S S S S S S S S S S
목 차 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가 18
한국어 품사 태깅 관련연구 • 통계 기반 한국어 품사 태깅 관련 연구 • 어절 n-gram 기반 HMM 모델을 그대로 응용 한국어 어절의 다양한 변화로 인한 자료부족 문제가 심각 • 형태소 n-gram 기반 모델로 수정 어절 내의 형태소결합제약에 따른 한국어의 어절 문맥정보를 효율적으로 반영하지 못함 • 형태소 n-gram 모델 보완 • 형태소 bi-gram 이상의 정보를 사용 • 어절 문맥정보를 포함하기 위한 규칙 혼합 모델 제안 • 경계 태그 사용
한국어의 형태 ◦ 통사적 특징 1 연구 대상 언어의 특징 • 형태소 구분 • 어휘형태소(실질형태소) : 명사, 수사, 동사, 형용사, 부사 등 • 문법형태소(의존형태소) : 어미류, 조사류, 접사류 • 어절 내 형태소 결합 제약 각 형태소들이 형태소 범주 간의 결합 제약 하에 어절을 형성 • 어절 간 형태소열 결합 제약 한국어에서 각 어절은 이웃하는 어절과 (국부적) 통사 제약 관계를 이룸 • 어절 내와 어절 간은 통계적인 분포가 다르므로 이중 HMM모델을 구성
Tagged Corpus • 세종 Corpus • 한국어의 통계적 언어처리를 위한 Golden Standard
실제 데이터 (일부) • 원본 • 형태소 Tag unigram • 형태소 Tag bigram • 형태소 unigram
한국어 품사 태깅 관련연구 • 어절 n-gram HMM을 한국어 품사 태깅에 그대로 응용 • [이운재92]: 태그 17개 고려 • 90%의 정확도 • 형태소 n-gram 기반 모델로 수정 • [이상호93 외] • 고려사항 : 형태소 분석경계가 일치하는 것만 transition을 설정 • 어절을 인식하지 못하고 어절간의 문맥 정보를 고려하지 못함 • 93.59%의 정확도
“관형형어미”와 “동사” 간의 전이 형태소 n-gram 모델 보완 1 관련연구 • 이중 HMM(Two-ply HMM) 모델 [김진동96] • 품사열 전이 확률: 어절 간 품사 전이 확률 + 어절 내 품사 전이 확률 • 어절 간 문맥 매개변수를 형태소 단위로 모델링 • 장점 • 어절 단위 문맥 고려 • 자료부족문제를 완화한다는 장점 • 단점 • 한국어의 언어적 특성을 반영하는 어절 간 형태소열 결합 제약조건에 비추어볼 때 직관적이지 못한 문맥 정보를 사용하는 경우 발생 hi= i번째 품사열(어절)의 머리(head)품사; ti= i번째 품사열(어절)의 꼬리(tail)품사
형태소 n-gram 모델 보완 2 관련연구 • HMM을 확장하고 어절 경계 매개 변수를 적용한 모델 [Lee00] • 새로운 매개변수 도입 장점: 어절경계 인식: 띄어쓰기 태그(어절 경계) p도입 단점: 어절 내의 구조성은 파악을 못함 tri-gram을 통한 충분한 성능 확보: 메모리 문제 ∧(C[s](2:2), M[s](2:2)) => tri-gram일 때 최고 성능(96.97%)
목 차 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가 26
Word Probability Estimation (1) • Word 는 형태소로 이루어져 있음 • Word내 HMM을 이용한 Word 추정 • 가정 1 : Word내 형태소들은 독립이다. Eq(1) Eq(2)
Word Probability Estimation (2) • 가정 2 : 단어의 출현확률은 형태소 태그 패턴과 연관이 있다. • 가정 3 : 단어의 생성은 각 형태소의 태그과 연관이 있다. Eq(3) Eq(4)
학습 과정 학습 • 형태소 태그 패턴 통계 정보 추출을 위한 학습 자료 준비 및 학습 • 세종 Corpus • 어절 내 형태소 태그 패턴통계 정보 추출 • 학습 시간의 단축을 위하여 균형적으로 표본추출 • 형태소 태그의 가중치 학습(시뮬레이티드 어닐링 알고리즘 사용)
학습 알고리즘 학습 • 형태소 태그 가중치 학습 실제 관측된 형태소 열의 출현 확률과 형태소 태그 패턴을 기반으로 추정한 형태소 열 출현 확률의 오차가 최소가 되는 방향으로 형태소 태그 가중치 학습 Tmtj= 학습에 사용한 총 형태소 태그 패턴 개수 mγ= 학습에 사용한 패턴 집합 중 형태소 태그 패턴 mtj로 어절을 형성하는 γ 형태소열 RP = 실 관측 확률 EP = 추정 확률
CAP-TM 적용 모델 적용 • “시기를”에 IntraCP와 범주 가중치를 적용
HMM using the estimated word probability • 기존 HMM과 같으나 단어의 확률을 추정 확률로 사용하는 것만 다름 Eq(5)
Smoothing • Good-Turing Estimation • 각 통계 정보마다 모두 Good-Turing Esitmation값을 구함 형태소 unigram 형태소 tag bigram 어절 tag unigram 어절 tag bigram