120 likes | 432 Views
자동요약 (Text Summarization). 관광학과 03307012 김영훈. 자동요약의 개념. (automatic) text summarization automatic abstracting information extraction ( 요약문장 생성 ) “ 특정 이용자나 특정 목적을 위해 원정보자료로부터 가장 중요한 정보 ( 문장 / 문단 ) 를 추출하여 축약된 형태의 요약문을 생산하는 과정”. 요약문의 유형 ( 용도 기준 ). 일반요약 (generic summary)
E N D
자동요약(Text Summarization) 관광학과 03307012 김영훈
자동요약의 개념 • (automatic) text summarization • automatic abstracting • information extraction ( 요약문장 생성) • “특정 이용자나 특정 목적을 위해 원정보자료로부터 가장 중요한 정보(문장/문단)를 추출하여 축약된 형태의 요약문을 생산하는 과정”
요약문의 유형 (용도 기준) • 일반요약(generic summary) • 원정보에 대한 대용물로서의 기능 • author abstract • 이용자 중심 요약(user-focused summary) • 웹검색 환경에서 유용성 증가 • 검색결과 이용자 질문에 맞춰 작성 • 검색결과 적합성 판정에 사용 • extract
요약문의 유형 (기능 기준) • 지시적(indicative) 요약 • 논문의 존재를 알리고, 원문을 읽을 것인지의 판단에 필요한 정보를 수록 • 통보적(informative) 요약 • 원문을 읽지 않아도 연구의 개요를 알 수 있도록 충분한 정보를 수록 • 비평적(critical)/평가적(evaluative) 요약 • 원문에 대한 비평을 포함
요약문의 유형 (형태 기준) • 발췌문(extract) vs. 초록(abstract) • extract : 텍스트로부터 가장 의미있는 문장들을 추출하여 구성한 요약문 => 표층적 접근 • abstract : 추출된 문장을 수정하거나 새로운 문장을 생성/추가하여 작성한 요약문 => 심층적 접근
자동요약 기법 구분 • 초기(1950-60년) 자동요약 연구 - 통계적 기법 (Luhn, Edmunson 연구) • 말뭉치기반(corpus-based) 기법 - 통계적 + 기계학습 방법 (KPC 연구) • 텍스트/담론 구조(discourse structure) 기반 기법 • 지식기반(knowledge-based) 기법
통계적 기법 (Luhn 등의 연구) • 텍스트에 출현한 단어 중 주요어 선정 - 기능어 제거, 출현빈도 이용 • 각 문장 내 주요어의 출현빈도 가중치를 합하여 문장의 대표도 산출 • 대표도 값이 일정한 기준치를 넘는 문장이나 일정한 수의 문장 선택 • 문장을 연결하여 요약문 작성
말뭉치 기반 기법 • 통계적/표층적 수준의 기법 • 다량의 학습데이터로부터 요약문에 포함되는 문장의 자질에 관한 확률정보를 학습한 후, 이를 이용하여 원문의 각 문장이 요약문에 포함될 확률을 계산하는 접근방법 • 기계학습 기반 기법 • 주요 자질 • 단서어/상용구 자질: 단서어 포함 문장 선정 - 결론적으로, 이 논문의 목적은,… • 문장 위치 자질: 단락 위치 및 단락내 문장 위치 이용 • 주제어 자질: 고빈도 단어 포함 문장 선정 • 표제어 자질: 표제어 출현 문장 선정
텍스트구조 기반 요약-1 • 의미적 응집성 기법 • cohesion (단어간 관계 기반 문장간 결속성) • 글의 미시적 구조 반영 • 텍스트 그래프(text graph) 기법: 텍스트 그래프의 노드는 문단(용어)을, 링크는 문단간 유사도(용어간 관계)를 표현. 다른 문단에 많이 연결된 문단을 요약문단으로 선정. • 어휘사슬(lexical chain) 기법: 의미적으로 관련된 단어들간의 관계를 표현하여 텍스트 내 강력한 사슬이 형성된 문장을 선정하여 요약문 생성.
텍스트구조 기반 요약-2 • 구조적 응집성 기법 • coherence (문장간 관계 기반한 전체 텍스트의 구조적 응집성) • 글의 거시적 구조 반영 • 담화구조 및 수사구조이론에 기초하여 담화트리(discourse tree)를 생성한 후 문장을 담화구조에 적절하게 순서화하여 요약문을 생성.
지식기반 요약 • 지식베이스를 이용하여 고도의 자연언어 처리과정을 적용한 요약기법 • 지식베이스 기반 텍스트 파싱 -> 개념표현 -> 문장생성 • 장단점 • 특정 분야의 지식과 문장의 문법적 구조를 기반으로 고품질의 자연스러운 요약문 생성이 가능하다 • 적용분야마다 각각 다른 영역지식이 필요하다