160 likes | 426 Views
“ 녀와 야수 둘 ” 조 진행 상황 보고서 (4/12). 지도 교수 : 황기태 이신영 , 남민우 , 윤경수. 시스템 개요. Back End. DB (20000 단어 ). Web Crawler/ Cooker. SNS Word Dictionary Word. Front End. Word Collector. Key Arrange. Automata. DB (200 단어 ). R ecommender. SNS Word Dictionary Word User Input Word.
E N D
“녀와 야수 둘”조진행 상황 보고서(4/12) 지도 교수 : 황기태 이신영, 남민우, 윤경수
시스템 개요 Back End DB(20000 단어) Web Crawler/ Cooker SNS Word Dictionary Word Front End Word Collector Key Arrange Automata DB(200 단어) Recommender SNS Word Dictionary Word User Input Word Word Maker
이번 주 한 일 1. 단어 추천 알고리즘을 위한 샘플링 & 실험 2. 단어 사전DB를 위한 크롤링
실험 결과 120여개의정타&20여개의 오타 데이터로 실험해본 결과, 오타중 3개가 추천해 주어야 할 단어와 거리가 멀었고 17개는 추천해 주어야 할 데이터와 거리가 가까웠다.
다음 실험 방향 사용자가 많이 사용하는 단어에 가중치를 주어서 실험을 해 보면, 사용자가 원하는 단어를 좀 더 정확하게 추천해 줄 수 있을 것 같다.
어디에서 무엇을 크롤링? 네이버 사전(krdic.naver.com)에서 단어를 크롤링 해 와서 txt파일로 저장.
다음 주 크롤링 할 내용 많이 사용되는 단어를 알아보기 위해 커뮤니티 사이트에서 리플을크롤링 해옴.
단계 1. 각 음소마다 코드 정하기 초성은 십만 단위, 중성은 천 단위, 종성은 십 단위로 각각의 자음,모음에 코드를 부여.
초성, 중성, 종성 코드 표 초성 종성 중성
단계 2. 샘플 단어 코드 부여 샘플 단어를 약 120개 정도 선정. 각 단어에 코드를 여러가지 방식으로 부여함. Ex) 기술 실험 1: ㄱ(10000) +ㅣ(1000) + ㅅ(410000) + ㅜ(4000) + ㄹ(12) = 425012 실험 2: {ㄱ(10000) +ㅣ(1000)}*1 + {ㅅ(410000) + ㅜ(4000) + ㄹ(12)}*2 = 839024 실험 3: {ㄱ(10000) +ㅣ(1000)}*2 + {ㅅ(410000) + ㅜ(4000) + ㄹ(12)}*1 = 436012
단계 3. 오타 샘플 만들고 코드부여 사전을 바탕으로, 사용자가 낼만한 오타를 20여개만들고, 각 오타에 코드를 부여 Ex) 기슬 실험 1: ㄱ(10000) +ㅣ(1000) + ㅅ(410000) + ㅡ(3000) + ㄹ(12) = 514012 실험 2: {ㄱ(10000) +ㅣ(1000)}*1 + {ㅅ(410000) + ㅡ(3000) + ㄹ(12)}*2 = 837024 실험 3: {ㄱ(10000) +ㅣ(1000)}*2 + {ㅅ(410000) + ㅡ(3000) + ㄹ(12)}*1 = 435012
단계 4. 오타와 정타 사이의 거리가 가장 짧은 단어 찾기 [기슬]과 [기술]이 가장 가깝다고 판정 추천해 주어야 할 단어