1 / 12

자동요약 (Text Summarization)

자동요약 (Text Summarization). 관광학과 03307012 김영훈. 자동요약의 개념. (automatic) text summarization automatic abstracting information extraction ( 요약문장 생성 ) “ 특정 이용자나 특정 목적을 위해 원정보자료로부터 가장 중요한 정보 ( 문장 / 문단 ) 를 추출하여 축약된 형태의 요약문을 생산하는 과정”. 요약문의 유형 ( 용도 기준 ). 일반요약 (generic summary)

lita
Download Presentation

자동요약 (Text Summarization)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 자동요약(Text Summarization) 관광학과 03307012 김영훈

  2. 자동요약의 개념 • (automatic) text summarization • automatic abstracting • information extraction ( 요약문장 생성) • “특정 이용자나 특정 목적을 위해 원정보자료로부터 가장 중요한 정보(문장/문단)를 추출하여 축약된 형태의 요약문을 생산하는 과정”

  3. 요약문의 유형 (용도 기준) • 일반요약(generic summary) • 원정보에 대한 대용물로서의 기능 • author abstract • 이용자 중심 요약(user-focused summary) • 웹검색 환경에서 유용성 증가 • 검색결과 이용자 질문에 맞춰 작성 • 검색결과 적합성 판정에 사용 • extract

  4. 요약문의 유형 (기능 기준) • 지시적(indicative) 요약 • 논문의 존재를 알리고, 원문을 읽을 것인지의 판단에 필요한 정보를 수록 • 통보적(informative) 요약 • 원문을 읽지 않아도 연구의 개요를 알 수 있도록 충분한 정보를 수록 • 비평적(critical)/평가적(evaluative) 요약 • 원문에 대한 비평을 포함

  5. 요약문의 유형 (형태 기준) • 발췌문(extract) vs. 초록(abstract) • extract : 텍스트로부터 가장 의미있는 문장들을 추출하여 구성한 요약문 => 표층적 접근 • abstract : 추출된 문장을 수정하거나 새로운 문장을 생성/추가하여 작성한 요약문 => 심층적 접근

  6. 자동요약 기법 구분 • 초기(1950-60년) 자동요약 연구 - 통계적 기법 (Luhn, Edmunson 연구) • 말뭉치기반(corpus-based) 기법 - 통계적 + 기계학습 방법 (KPC 연구) • 텍스트/담론 구조(discourse structure) 기반 기법 • 지식기반(knowledge-based) 기법

  7. 통계적 기법 (Luhn 등의 연구) • 텍스트에 출현한 단어 중 주요어 선정 - 기능어 제거, 출현빈도 이용 • 각 문장 내 주요어의 출현빈도 가중치를 합하여 문장의 대표도 산출 • 대표도 값이 일정한 기준치를 넘는 문장이나 일정한 수의 문장 선택 • 문장을 연결하여 요약문 작성

  8. 말뭉치 기반 기법 • 통계적/표층적 수준의 기법 • 다량의 학습데이터로부터 요약문에 포함되는 문장의 자질에 관한 확률정보를 학습한 후, 이를 이용하여 원문의 각 문장이 요약문에 포함될 확률을 계산하는 접근방법 • 기계학습 기반 기법 • 주요 자질 • 단서어/상용구 자질: 단서어 포함 문장 선정 - 결론적으로, 이 논문의 목적은,… • 문장 위치 자질: 단락 위치 및 단락내 문장 위치 이용 • 주제어 자질: 고빈도 단어 포함 문장 선정 • 표제어 자질: 표제어 출현 문장 선정

  9. 텍스트구조 기반 요약-1 • 의미적 응집성 기법 • cohesion (단어간 관계 기반 문장간 결속성) • 글의 미시적 구조 반영 • 텍스트 그래프(text graph) 기법: 텍스트 그래프의 노드는 문단(용어)을, 링크는 문단간 유사도(용어간 관계)를 표현. 다른 문단에 많이 연결된 문단을 요약문단으로 선정. • 어휘사슬(lexical chain) 기법: 의미적으로 관련된 단어들간의 관계를 표현하여 텍스트 내 강력한 사슬이 형성된 문장을 선정하여 요약문 생성.

  10. 텍스트구조 기반 요약-2 • 구조적 응집성 기법 • coherence (문장간 관계 기반한 전체 텍스트의 구조적 응집성) • 글의 거시적 구조 반영 • 담화구조 및 수사구조이론에 기초하여 담화트리(discourse tree)를 생성한 후 문장을 담화구조에 적절하게 순서화하여 요약문을 생성.

  11. 지식기반 요약 • 지식베이스를 이용하여 고도의 자연언어 처리과정을 적용한 요약기법 • 지식베이스 기반 텍스트 파싱 -> 개념표현 -> 문장생성 • 장단점 • 특정 분야의 지식과 문장의 문법적 구조를 기반으로 고품질의 자연스러운 요약문 생성이 가능하다 • 적용분야마다 각각 다른 영역지식이 필요하다

  12. 감사합니다

More Related