410 likes | 719 Views
품사 태깅 시스템 개요. 2005. 1. 5 황명진. 차례. 품사 태깅이란 ? 품사 태깅 시 고려사항 품사 태깅에 대한 연구 접근 방법 통계 기반 접근 방법 (Statistical Approach) 규칙 기반 접근 방법 (Rule-based Approach) 통합 접근 방법 (Hybrid Approach) 품사 태깅 시스템 평가 기준 결론 참고문헌. 품사 태깅 (Part-of-speech Tagging). 품사태깅이란 ?
E N D
품사 태깅 시스템 개요 2005. 1. 5 황명진
차례 • 품사 태깅이란? • 품사 태깅 시 고려사항 • 품사 태깅에 대한 연구 접근 방법 • 통계 기반 접근 방법(Statistical Approach) • 규칙 기반 접근 방법(Rule-based Approach) • 통합 접근 방법(Hybrid Approach) • 품사 태깅 시스템 평가 기준 • 결론 • 참고문헌
품사 태깅(Part-of-speech Tagging) • 품사태깅이란? • 단어(어절,형태소)의 형태론적 중의성을 해소하여 올바른 품사를 결정하는 작업(구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정) • 정보검색시스템 : 높은 재현율과 정확도를 갖는 색인어와 검색어 추출 • 철자검사, 기계번역, 사전구축 등 자연어 처리 제반 분야의 필수 과정
품사 태깅 시 고려 사항 • 품사 집합(Part-of-speech Tag Set) 결정 문제 • 세분화된 품사집합 - 중의성 많아짐. 태깅 후 자세한 정보 추출 가능 • 덜 세분화된 품사 집합 - 반대 효과 • 예) '큰 명진‘에서 '큰‘은 • 세분화된 품사 집합에서 • 두 가지로 분석 가능 '크+ㄴ'의 자동사+과거 시제를 나타내는 어미 '크+ㄴ'의 형용사+현재 시제를 나타내는 어미 • 중의성 문제 발생, 자세한 정보 얻음 • 덜 세분화된 품사 집합에서 • '크+ㄴ'의 용언+어미로 분석 • 중의성 문제 없음, 덜 자세한 정보
품사 태깅 시 고려 사항 - 계속 • 미등록어 처리 문제(Unknown Word) • 정의 • 태깅 시스템이나 형태소 분석기에서 사용하는 사전에 등록되지 않은 단어(형태소)를 말함 • 예 • 등록어 • 파ː랗다[―라타][파라니·파래][형용사][ㅎ 불규칙 활용] 밝고 선명하게 푸르다. (큰말)퍼렇다. • 미등록어 • 라덴 • 미등록어 발생 시 사람이 편집하여 등록하는 것도 가능하나 고비용이 듬 • 실시간 시스템에서는 미등록어 처리 기능이 내장되어있어야 함
품사 태깅 시 고려 사항 - 계속 • 자료 부족 문제(Data Sparseness) • 정의 • 사전에는 정보가 구축되어 있으나 이를 활용할 만큼 신뢰할만한 통계정보를 얻지 못하는 경우. • 원인 • 학습 말뭉치가 다양한 언어 현상을 모두 반영하지 못하기 때문 • 해결방법 • 대량의 균형있는 말뭉치(Balanced Corpus) 사용 • 자료 부족 문제를 해결할 방법(Smoothing)을 따로 구축
품사 태깅 시 고려 사항 - 계속 • 학습 방법 결정 • 태깅 시스템을 학습 시키는 방법 • 자율 학습(Unsupervised Learning) • 원시 코퍼스에서 직접 정보 추출 • 지도 학습(Supervised Learning) • 태깅된 말뭉치를 이용하여 통계 정보나 규칙 정보 추출 • 지도 학습이 비교적 높은 정확도를 가지나 학습 시 태깅된 말뭉치가 준비되어있어야 함
품사 태깅 시 고려 사항 - 계속 • 응용분야에 적합한 설계 • 이상적인 품사 태깅 시스템은 새로운 품사 집합이나 새로운 말뭉치에 대한 적응성(Adaptability)이 뛰어나야 한다. • 그러나 현실적으로 어려움 • 따라서 해당 응용분야에 적합한 설계 필요
품사 태깅 시 고려 사항 - 계속 • 한국어 품사 태깅 시 태깅 단위 결정 • 한국어는 교착어 • 어절이 '실질형태소+형식형태소'로 구성 • 영어 등은 굴절어 • 어형의 변화로 어법 관계를 타나 냄. • 어절 단위 태깅 • 동일 품사 중의성 표현 불가, 문맥 확장이 용이 • 형태소 단위 태깅 • 동일 품사 중의성 표현 가능, 문맥 확장이 어려움 • 동일 품사 중의성 예 • 물었다 => 물+었+다 or 묻+었+다
품사 태깅에 대한 연구 접근 방법 • 통계 기반 접근 방법(Statistical Approach) • 원시 또는 태깅된 말뭉치를 분석하여 자연어에 대한 정보를 추출하여 얻은 확률(또는 불확실성)을 이용 • 규칙 기반 접근 방법(Rule-based Approach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 통합 접근 방법(Hybrid Approach) • 위 두 방법의 장단점 보완
통계 기반 접근 방법(Statistical Approach) • 통계 기반 접근 방법(Statistical Approach) • 원시 또는 태깅된 말뭉치를 분석하여 자연어에 대한 정보를 추출하여 얻은 확률(또는 불확실성)을 이용 • 거의 모든 언어 현상에 적용 가능 • 실세계 언어를 충분히 대표할만한 양과 질의 말뭉치가 없다 • 통계 기반 접근 방법, 신경망과 퍼지망을 이용한 접근 방법이 있다 • 방법 • 어휘 확률만을 이용하는 방법 • HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법 • 한국어에서의 응용 • 어절 단위 한국어 품사 태깅 모델 • 형태소 단위 한국어 품사 태깅 모델
[식 1] 모든 c1,N에 상관없이 동일하므로 제거 [식 2] [식 3] 품사 태깅의 확률적 모델링 • 품사 태깅 모델의 확률적 정의 • 길이가 N인 문장(단어열) 이 주어졌을 때, 가장 확률이 높은 품사열 을 구하는 것 • 조건부 확률의 정의에 의한 변형
[식 4] [식 5] [식 6] 품사 태깅의 확률적 모델링 - 계속 • Chain rule에 의한 변형(1) : w를 먼저 분리시킬 경우 w1,0을 문장시작기호로 c1,0을 품사열의 시작기호로 정의 w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci
[식 7] [식 8] [식 9] 품사 태깅의 확률적 모델링 - 계속 • Chain rule에 의한 변형(2) : c를 먼저 분리시킬 경우 w1,0을문장시작기호로 c1,0을 품사열의 시작기호로 정의 w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci
[식 6] 현실적으로 통계 정보 획득이 불가능 [식 9] 품사 태깅의 확률적 모델링 - 계속 • C1,i는 한 문장의 처음부터 i번째까지의 품사 열을 뜻한다. 이런 품사 열이 나타나는 빈도(확률)를, 신뢰할 수준의 정확도로 구하는 것은 불가능하다. • 식 6과 식 9를 통계획득이 가능한 형태로 변형함으로써 다양한 품사 태깅 모델을 유도할 수 있다.
의존 의존 현재단어 현재단어품사 어휘 확률 기반 품사 태깅 모델 • 모델의 유도 • [식 6]에 다음과 같은 마르코프 가정을 도입 • [가정 1] : 현재 단어의 발생은 이전 단어에만 의존한다. • [가정 2] : 현재 단어의 품사는 현재 단어에만 의존한다. 이전단어
wi ci w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci 어휘 확률 기반 품사 태깅 모델 - 계속 • [가정 1], [가정 2]를 [식 6]에 대입하고 그 결과를 [식 3]에 대입 • [식 10]에서 은 모든 c1,N에 대해서 상수이므로 생략 [모델1]
어휘 확률 기반 품사 태깅 모델 - 계속 • 어휘 확률기반 품사 태깅 모델의 특징 • 단어가 가장 빈번하게 사용된 품사를 그 단어의 품사로 결정 • 단어에 대한 품사 발생 정보만을 고려할 뿐 문맥 정보는 전현 고려하지 않음
의존 의존 이전단어품사 현재단어품사 현재단어 HMM 기반 품사 태깅 모델 • 모델의 유도 • [식 9]에 [가정 3], [가정 4]와 같은 마르코프 가정을 도입 • [가정 3] : 현재 품사의 발생은 이전 품사에만 의존한다. • [가정 4] : 현재 단어의 발생은 현재 품사에만 의존한다.
w1 … wi-1 wi 단어열=> 품사열=> c1 … Ci-1 ci HMM 기반 품사 태깅 모델 - 계속 • [가정 3]과 [가정 4]를 [식 9]에 대입하고, 그 결과를 [식 3]에 대입 • Tri-gram으로 수정한 식 [모델2] [모델3]
HMM 기반 품사 태깅 모델 - 계속 • HMM 기반 품사 태깅 예 P ( flies(N) like(V) a(ART) flower(N) ) A = P(N | )P(V|N)P(ART|V)P(N|ART) = 0.29 0.43 0.65 1.0 = 0.081 B = P(flies | N)P(like | V)P(a | ART)P(flower | N) = 0.025 0.1 0.36 0.063 = 5.4 10-5 P = A * B = 4.37 10-6
HMM 기반 품사 태깅 모델 - 계속 • HMM 기반 품사 태깅 예 a like flies flies 0.025 0.1 0.360 0.063 V 0.43 0.65 1 N ART N 0.29 $ N $ V P N V
HMM 기반 품사 태깅 모델 - 계속 • 은닉 마코프 모델(Hidden Markov Model) • 모델2를 사용하여 태깅되지 않은 말뭉치로부터 자율학습을 통해 매개변수 값을 획득하는 방법을 HMM이라 한다. • P(ci|ci-1)을 상태 전이 확률(State Transition Probability)라 한다 • P(wi|ci)를 관측 심볼 확률(Observation Symbol Probability)라 한다
어절 단위 한국어 품사 태깅 모델 • 정의 • 길이가 N인 어절열(문장) 이 주어졌을 때, • 가장 확률이 높은 어절 태그열 을 구하는 것 • HMM 모델 • Tri-gram에 기반한 상태 전이 확률과 형태소 단위의 어휘 발생 확률을 사용한 모델 • 어절 단위의 중의성 최소화 단계와 형태소 단위의 품사 태깅 단계로 분리한 모델도 있음
어절 단위 한국어 품사 태깅 모델 - 계속 • 일반적인 HMM모델을 이용하여 어절 단위로 태깅했을 때의 특징 • 영어 모델을 한국어에 그대로 적용한 모델 • 장점 : 중의성 해소의 중요한 단서가 되는 어절 단위의 문맥 고려 • 단점 : 어절 단위 통계 정보(어절 품사 간 제약 관계 등) 획득에서 자료 부족 문제가 심각 단순화된 품사집합을 사용하면 해결(태깅 후 자세한 정보 얻을 수 없음)어휘 발생 정보 획득(어절 수집) 시에 여전히 자료 부족 문제가 심각 a like flies flies 라면도 치웠다 먹어 V 명사+보조사 N ART N 일.동사+연.어미 보.동사+선+어말 $ $ N … … … V P N V
도 먹 라면 어 치우 었 다 대명사 보조사 일.동사 연.어미 선.어미 보.동사 어말 $ … … … … … … … … … … 형태소 단위 한국어 품사 태깅 모델 • 정의 • 길이가 N인 어절열(문장) 이 주어졌을 때, • 가장 확률이 높은 형태소 열 과 • 품사열 을 구하는 것 • HMM 모델 • 형태소 단위의 HMM 모델링 예
형태소 단위 한국어 품사 태깅 모델 - 계속 • 일반적인 HMM모델을 이용하여 형태소 단위로 태깅했을 때의 특징 • 장점 : 어절단위 품사 태깅 모델에 비하여 자료 부족 문제가 경미 • 단점 : 어절 단위 문맥 고려가 어려움 • 한국어는 다중 관측열(Multiple Observation)이 생겨 과부하 발생 • 공유 단어열(Shared Word Sequence)과 가상 단어열(Virtual Word)을 도입하여 해결한 예가 있음 • 이중 은닉 마코프 모델(Twoply HMM) • 어절 단위 품사 태깅 시스템과 형태소 단위 품사 태깅 시스템의 단점을 보완하기 위한 목적 • hi는 i번째 어절의 실질 형태소에 해당하는 품사(Head Category) • ti는 i번째 어절의 형식 형태소에 해당하는 품사(Tail Category) • 이중 HMM모델을 이용하여 형태소 단위로 태깅했을 때의 특징 • 어절 단위의 문맥을 관측하면서도 형태소 단위의 정보만 필요 • 자료 부족 문제가 심각하지 않음 • 품사 집합을 축소 시킬 필요 없음 • 태깅의 결과가 형태소 단위로 자세히 나옴
규칙 기반 접근법 • 규칙 기반 접근 방법(Rule-based Approach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 일관성 있는(예외가 없는) 결정적 규칙을 얻기 어렵다 • 새로운 환경에 대한 적응력이 낮음(규칙 구축에 수작업이 필요하므로) • 많은 규칙을 잘 제어하기 어렵다(규칙들이 상충될 수 있음) • 찾아진 규칙에 대해서(제한된 범위)는 높은 정확도를 보인다. • 태깅 결과에 대한 설명이 가능 • 시스템 성능 향상에 비교적 적은 노력이 듬 • 긍정(Positive)/부정(Negative) 정보를 이용한 중의성 해결 규칙 기반(Disambiguation Rule-based) 시스템,초기 태깅 후 오류를 올바른 태그로 변경하는 변형 규칙 기반(Transformation Rule-based) 시스템 등이 있다. • 구체적 예 • Klein과 Simmons 시스템 • Green과 Rubin 시스템(TAGGIT) • Hindle 시스템 • Chanod와 Tapanainen 시스템 • Voutilainen의 ENGCG • Brill 시스템
Klein & Simmons • Klein과 Simmons 시스템 • 태깅 과정 • 400여개의 기능어 사전 참조 • 예외 단어 처리 • 접미어, 특수 기호 처리 • 태깅 규칙 적용 • 실험 • 30개의 품사 집합 사용, 백과사전의 표본에 적용 • 90%의 정확도 • 의의 • 규칙 기반 품사 태깅 시스템의 시효
Green과 Rubin 시스템(TAGGIT) • Green과 Rubin 시스템(TAGGIT) • 품사 태깅 과정 • 예외 사전, 접미사 사전 등을 이용한 초기 태깅 • 3,000여개의 규칙 적용 • 규칙의 형태 • Negative, Positive 규칙(어떤 품사를 제거하거나 선택함) • W X ? Y Z -> not A (또는 W X ? Y Z -> A)(품사 W, X, ?, Y, Z가 차례대로 나타날 경우 ?는 not A(또는 A) • 문맥의 크기 : 좌우 각각 최대 2 • 실험 • 86개의 품사 집합 사용, Brown 100만 코퍼스에 적용 => 77% 정확도 • 좌우 하나의 문맥만 고려한 규칙은 전체 규칙의 25%이나 이들을 이용해 80%의 중의성이 해결 됨 • 의의 • 대량의 실제 코퍼스에 적용한 첫번째 시도 • CLAWS 시스템 개발 동기 부여 • Brown 말뭉치 태깅에 기여
Hindle 시스템 • Hindle 시스템 • 특징 • 결정적 구문분석기와 연계하여 학습 • 구문분석기로부터 문법정보를 제공 받을 수 있음 • 품사태깅 규칙 자동학습(학습 초기 136개의 기본 규칙을 가지며 학습을 통해 세부적인 새 규칙들이 생성됨) • 규칙 • 기본 규칙(default rule) : 문맥을 보지 않고 중의성 해결 • [ADJ+N+V] -> [N] [*] [*](한 단어가 형용사, 명사, 동사 모두로 해석 가능하면 명사로 할당) • 학습된 규칙 • [PREP+TNS] -> TNS[N+V](PREP나 TNS 품사를 가지는 단어 다음에 명사나 동사가 오면, PREP나 TNS로 판단되던 단어는 TNS로 태깅)
Hindle 시스템-계속 • 규칙 학습 과정 • 중의적 단어 발견 • 기존 규칙과 학습된 규칙을 적용 • if correct goto next Else 기존 규칙보다 세부적인 규칙 생성 • 실패율이 임계값을 초과하는 규칙 제거 • 실험 • 46개의 품사 집합 사용 • 100만단어 크기의 품사 태깅된 Brown 코퍼스 사용 • 5번의 반복 학습; 35,000개의 정련된 규칙 학습 • 실험 결과 • 학습 코퍼스: 전체 98%(중의적 단어에 대해서는 95%) • 실험 코퍼스: 전체 97%(중의적 단어에 대해서는 90%)
Chanod & Tapanainen 시스템 • Chanod와 Tapanainen 시스템 • 개발 동기 (중의적 단어에 대한 통계) • 16개 단어 : 전체 중의적 단어 중 50%를 차지 • 97개 단어 : 전체에서 2/3이상 차지 • 빈도가 높은 중의적 단어는 말뭉치에 독립적인 단어들임. • 품사 태깅 규칙 • 신문 기사 문장 50를 이용하여 약 1개월 동안 수작업으로 추출 • 규칙 종류 • 주 규칙(Principle rule) : 가장 빈번한 중의적 단어에 대해서 구축 • Heuristic rules : Principle rule로 처리할 수 없는 경우에 적용 • Non-Contextual rules : 어휘 확률을 반영한 Heuristic rule • 규칙의 표현 • 11개의 Finite State Tranducer로 표현
Chanod & Tapanainen 시스템-계속 • 실험 • 37개의 품사 집합 사용 • 5,752 단어 크기의 경제 관련 데이터에 실험 • 98.7%의 정확도를 보임 • 신문 기사 12만 어절에 실험 • 철자 오류, 고유 명사 오류를 포함하여 97.5%의 정확도를 보임 • 의의 • 품사 태깅 규칙이 예상만큼 어렵지 않음. • 규칙 기반 태거도 통계 기반 태거만큼 우수함을 보임.
ENGCG • Voutilainen의 ENGCG • 시스템 구성 • Tokenizer • ENGCG 형태소 분석기 • ENGCG disambiguator • 구문 태그 할당기 • Finite state syntactic disambiguator • 중의성 해소 과정 • ENGCG 중의성 해결기(disambiguator) • 휴리스틱 규칙 • Finite-State Intersection Grammar
ENGCG-계속 • ENGCG 중의성 해결기(disambiguator) • ‘패턴-처리방법’ 형태의 부정(negative) 규칙 • 규칙에 명시된 문맥과 일치하는 단어에서 부적절한 품사를 제거 • 중의성 해결이 어려운 단어는 다음 단계에서 처리할 수 있게 남겨둠 • 실험 결과 중의성 단어 전체품사수 어절당품사수 오류수 오류율 D0(형태소분석기) 39.0% 67,737 1.77 31 0.08% D1(D0+ENGCG) 6.2% 40,450 1.06 124 0.32% D2(D1+휴리스틱규칙) 3.2% 38,946 1.02 226 0.59% D3(D2+구문분석기) 0.6% 38,342 1.00 281 0.74% • 의의 • 규칙 기반 접근 방법을 사용한 시스템이 기존 통계 기반 접근 방법을 사용한 방법보다 우수할 수 있음을 증명하였다.
Brill 시스템 • 변형에 기반한 오류에 의한 학습(Transformation-based Error-driven Learning) • 언어지식을 학습할 수 있는 규칙기반 학습 방법 • 구성 요소 • Preprocessor • Scoring 함수 • Rule Template • Learner Unannotated text Preprocessor Annotated text Truth Rule Learner
Brill 시스템-계속 • 품사 태깅을 위한 변형 규칙 학습 과정 • 초기 태거를 이용하여 학습 말뭉치를 태깅 • 학습 말뭉치의 태깅 결과와 태깅된 말뭉치의 분석 결과를 비교하여 혼동 행렬 작성 • Scoring 함수와 규칙 틀을 이용하여 초기 태거의 오류를 가장 많이 수정할 수 있는 규칙 추출/저장 • 추출된 규칙을 학습 말뭉치에 적용하여 학습 말뭉치의 오류를 수정 • 생성된 규칙의 오류 수정 빈도가 임계값보다 작을 때까지 2.-5. 단계를 반복
차례 • 자연어 처리를 위한 품사 태깅 시스템의 고찰(고려대학교 대학원 전산과학과 자연어처리 연구실) • http://infocom.chonan.ac.kr/~limhs/(/cwb-data/data/nlp/%C7%B0%BB%E7%C5%C2%B1%EB.ppt)