70 likes | 285 Views
다국어 문서에서의 코드판별시스템. 박준식 , 마유승. 검색. 인공지능. 한국어 문서. 검색. AI. 영어 문서. 다국어 정보검색. 현 정보검색 기술의 현황 사용자가 입력한 질의언어에 국한된 검색이 대부분 ( 한국어 질의 ) ( 한국어 문서 ) ( 영어 질의 ) ( 영어문서 ) … … 다국어 정보시스템에 대한 관심 증대. 한국어 문서. 영어 문서. … …. … …. 검색. 인공지능. 중국어 문서. 다국어 정보검색 (Cont’d). 다국어 정보검색
E N D
다국어 문서에서의 코드판별시스템 박준식, 마유승
검색 인공지능 한국어 문서 검색 AI 영어 문서 다국어 정보검색 • 현 정보검색 기술의 현황 • 사용자가 입력한 질의언어에 국한된 검색이 대부분 (한국어 질의) (한국어 문서) (영어 질의 ) (영어문서) … … • 다국어 정보시스템에 대한 관심 증대
한국어 문서 영어 문서 … … … … 검색 인공지능 중국어 문서 다국어 정보검색 (Cont’d) • 다국어 정보검색 • 모국어 외에 타국어로 작성된 자료 들도 검색 (한국어 질의) (한국어 문서) (영어 문서) (일어 문서) … …
KSC 인공지능 JIS 昔因走監 GB 牢傍瘤雌 BIG5 檣奢雖棘 한국어 검색엔진 한국어 출력 디스플레이 질의어 번역 영어 검색엔진 영어 출력 … … … … … … … … 검색 인공지능 중국어 검색엔진 중국어출력 다국어 문서 디스플레이 문제 • 고려사항 • 질의어 번역문제 • 검색 문서의 디스플레이 문제
프로젝트 개요 • 다국어 정보검색 결과로 받아온 외국어 문서를 인공지능 기법을 이용하여 그 나라에 맞는 언어형태로 보여주는 시스템 • 대상 언어: 영어, 한국어, 중국어, 일본어 한국어 검색엔진 한국어 출력 디스플레이 질의어 번역 영어 검색엔진 영어 출력 … … … … … … … … 검색 인공지능 중국어 검색엔진 중국어출력
프로젝트 접근방식 • 코드 출현패턴과 언어간의 관계 • 각 나라 언어문서에서의 코드출현 패턴분석 • 통계적 방법 : unigram-model • Decision Tree 이용 : 코드에 가중치 부여 • 기타 방법 적용 고려 • 조사나 종결어미 등의 분포 특성 등 휴리스틱 추가 • 대상 언어 및 코딩 시스템 • 한국어 (EUC-KR, ISO-2022-KR) • 일본어 (EUC-JIS, SJIS) • 중국어 (GB, BIG5) • 영어
접근방식의 적용예 C0CE B0F8 C1F6 B4C9(인공지능) ISO-2022-* ? YES NO language identificationmodule language identificationwith esc-seq. 추가 휴리스틱 적용 EUC-KR