470 likes | 722 Views
3. Net Search. 3.1 해외의 유명 Search Engines 3.2 Search Engine 3.3 Alta Vista 3.4 Lycos 3.5 Yahoo 3.6 DejaNews 3.7 Meta Crawler 3.8 Infoseek 3.9 한국의 Search Engine 들 출처 : “ 인터넷 검색” , 넥서스 컨설팅 ( 주 ) 교육부 , 사이버출판사 국내기업들의 Internet Resource Page. 3.1 해외의 유명 Search Engine Sites.
E N D
3. Net Search • 3.1 해외의 유명 Search Engines • 3.2 Search Engine • 3.3 Alta Vista • 3.4 Lycos • 3.5 Yahoo • 3.6 DejaNews • 3.7 Meta Crawler • 3.8 Infoseek • 3.9 한국의 Search Engine들 • 출처 : “인터넷 검색”, 넥서스 컨설팅(주) 교육부, 사이버출판사 • 국내기업들의 Internet Resource Page
3.1 해외의 유명 Search Engine Sites Lycos Yahoo Alta Vista Deja News Web Crawler Nightn Infoseek Excite Open Text
3.2 Search Engine (검색엔진) • Search Engine의 정의 • Internet내에서 검색서비스를 제공하는 데이타베이스 시스템. • Search Engine의 분류 (검색방법의 분류) • 1) 주제(Subject) 검색(=메뉴검색) • 설정되어있는 주제분류에 따라 깊이를 더해가며 최종자료에 접근하는 방법 • 국내 온라인 통신 서비스인 하이텔, 나우누리 등에서 적용하고 있는 방법 • 2) 주제어(Keyword) 검색 • 사용자에 의해 입력된 주제어를 통해 최종 자료에 접근해 가는 방법 • WWW의 규모가 커지면서 주제검색만으로는 원활한 검색이 불가능해 짐. • 주제어검색은 수작업에 의한 많은 노력이 필요함.
주제 검색엔진 주제어 검색엔진 Clearinghouse for Subject Elnet Galaxy Infoseek Guide Explore Internet Public Library Mother-of-all BBS RiceInfo Information Whole Internet Catalog WWW Virtual Library Yahoo Alta Vista Elnet Galaxy Search Excite Infoseek Guide, Professional Inktomi Lycos OpenText WebCrawler Yahoo Search 3.2 Search Engine (검색엔진) • 주제(Subject) 검색엔진과 주제어(Keyword) 검색엔진의 구분
3.2 Search Engine (검색엔진) • 로보트(Robot, Wanderer, Spider) • Homepage를 찾아다니며, 색인(Index)하여 Database화는 작업을 수행하는 프로그램. • 현존하는 Robot중에는 Alta Vista의 Super Spider가 가장 빠른 속도로 가장 많은 Homepage를 검색하는 로보트로 알려져있음. • Robot Exclusion Standard • 로보트가 자신의 컴퓨터로 접근하는 것을 허용하지 않는다. • 인터넷에 연결되어 있는 상용 DB나 전문 DB, WAIS DB, 대학 도서관에서 제공하는 자료를 보호하기 위함이다.
3.2 Search Engine (검색엔진) • 검색가능한 Internet Area • Internet의 주요 3대공간은 Http, FTP, Gopher이다. • Internet 검색의 흐름은, • 1) Archie를 이용한 FTP 영역의 검색 • 2) Gopher(Veronica)를 이용한 Gopher 영역의 검색 • 3) 90년대 중반이후 Hypertext에 Http 영역의 검색(WWW). • Gopher에서 WWW로의 전환은 학술망에서 상업망으로의 전환을 의미한다.
3.2 Search Engine (검색엔진) • 용어정리 • Subject(주제), Keyword(주제어) • 검색식 • 검색어 • 검색건수 • 논리연산자 • 인접연산자 • Thesaurus(시소러스) • 레코드 • Field(필드)
3.3 Alta Vista • 개요 • 1995년 12월부터 서비스를 제공. • DEC에서 운영하는 Search Engine. • 가장 최근에 개발되었음. • Super Spider라는 검색 로보트를 사용하고 있음. • 검색의 정밀성이 매우 뛰어난 것으로 평가되고 있음.
3.3 Alta Vista • Alta Vista • 검색엔진의 개발 배경 및 개발자에 대한 개략적인 내용 • Simple Query • 초기 화면이 Simple Query Page. • 연산자를 사용하지 않으므로, 간단한 검색에 사용한다. • Advanced Query • 논리연산자, 인접연산자를 사용할 수 있다. • 검색결과를 순위에 따라 정렬할 수 있다. (검색/출력 옵션) • Help • 검색엔진의 사용에 필요한 도움말을 제공한다.
3.3 Alta Vista • 3.3.1 Search (검색)에 관련된 용어 • 3.3.2 Simple Query • 3.3.3 Advanced Query • 3.3.4 Output
3.3.1 Alta Vista - Search • 검색을 위해서는 • 검색어를 단어와 구로 적절히 구분해야 한다. • 각종기호와 숫자의 표기방법을 알아야 한다. • 연산자의 사용방법을 알아야 한다. • 검색문(Query)의 예제 • motor* car* +KIA +Daewoo +Hyundai • +universiti* +Korea -Japan • title:”free software” • photo picture +movie -eroti*
3.3.1 Alta Vista - Search • 단어 • 특수기호를 제외한 알파벳이나 숫자로 연결되어 있는 것은 하나의 단어이다. • 단어의 예) wait4u, www, Seoul, LG, ... 등 • 단어가 아닌 예) snu.ac.kr, LG-EDS, 3.141519, ... 등 • 특수문자) ! @ # $ % ^ & - | • 구 • 두 개이상의 단어가 나란히 나열된 것을 구라고 한다. • 구는 시작 단어부터 마지막 단어까지 ““로 묶어준다. • 구의 예) • “ac.kr” ac.kr ac%kr ac&kr • “AT T” AT&T AT-T AT%T
3.3.1 Alta Vista - Search • 대소문자 • Alta Vista에서는 Simple Query, Advanced Query에서 대소문자를 구별한다. • 소문자로 쓰면, 적절한 검색이 이루어진다. • 예) king 검색범위(king, King, KING, 등) • 검색어 가운데 대문자가 사용되면 대소문자를 구별한다. • 예) Seoul, Chung, Times (대부분의 고유명사들)
3.3.1 Alta Vista - Search • 중간절단, 후방절단 • * 기호로 절단기능을 부여한다. • 어미변화가 많은 단어를 검색하는 데 유용한다. • 예를 들어, sing* 이라고 검색어를 입력하면 • singer, singing, singe, single 등의 단어를 검색한다. • 유의사항 • 1) 절단기호 앞에는 반드시 3개 이상의 문자가 입력되어야 한다. • 2) 절단부호 위치부터 놓여지는 문자수는 최대 5자까지 가능하다. • 3) 위의 5자에 포함될 수 있는 문자는 영문 소문자만이 해당된다. • (대문자나 숫자는 허용되지 않는다.)
3.3.2 Alta Vista - Simple Query • 검색공간 설정 • 검색하고자 하는 인터넷 공간을 선택할 수 있다. • Web과 Usenet의 2가지의 옵션이 있다. • 출력형태 설정 • Standard, Compact, Detailed의 3가지 옵션이 있다. • 검색식(Query) 입력 • Submit 버턴옆의 공간에 검색식을 입력한 후에 버턴을 누르면 Search가 시작된다.
3.3.2 Alta Vista - Simple Query • 연산자 (논리연산자와 비슷한 기능을 수행한다.) • 단어나열 • 일정 단어를 나열하면 OR로 연산한다. • 예) girl pretty picture • + • +기호 옆에 기술되는 단어를 반드시 포함하는 문서를 검색하라는 명령이다. • AND와 유사하다. • 예) black hole +NASA • - • -기호 옆에 기술되는 단어는 반드시 검색되는 문서에 없어야 한다. • NOT과 유사하다. • 예) girl +pretty -nude
상용 DB Alta Vista (Web) Alta Vista (Usenet) Record Field Web Page Section Usenet News Article Context 3.3.2 Alta Vista - Simple Query • 제한검색 • 특정검색어가 page의 어느부분에 존재해야 하는지를 명시할 수 있다. • Database의 Field 별 제한 검색과 유사하다. • Alta Vista에서는 HTML Document, Usenet News Article에 적용가능하다.
3.3.2 Alta Vista - Simple Query • Web Page 제한검색의 예 • anchor:click-here • hyperlink 부분의 text 내 click here라는 구가 나타나 있는 page 검색. • applet:NervousText • Java applet 가운데 ‘NervousText’ 단어를 검색 • host:nexus.com • Web Server의 호스트 가운데 nexus.com라는 구로 연결된 page를 검색. • link:upsto.gov • 적어도 한번 이상 URL내에 uspto.gov라는 주소가 연결된 page를 검색. • title:”The New York Times” • page의 TITLE Section에 “The New York Times”가 있는 page를 검색. • url:index.html • page의 URL 주소가 입력된 부분에 ‘index.html’이 나타난 page를 검색.
3.3.2 Alta Vista - Simple Query • Usenet news articles 제한검색 • from:hwasoo@nexus.com • 뉴스기사의 From Field에 위의 e-mail address가 명기된 기사로 제한. • subject:”for sale” • 뉴스기사의 제목에 ‘for sale’이 명기된 기사를 검색 • newsgroup:comp.soft-sys.sas • 뉴스 그룹 가운데 ‘comp.soft-sys.sas’이름의 SAS 통계 패키지 관련 • 뉴스그룹에 등록된 모든 기사를 검색 • summary:investment • 요약부분에 단어 ‘investment’가 있는 모든 뉴스 기사 검색 • keyword:NASA • 키워드 목록에 대문자 ‘NASA’를 지니고 있는 모든 기사 검색.
3.3.3 Alta Vista - Advanced Query • Search • 초기값은 Web이며, Usenet을 선택할 수도 있다. • Display • Standard, Compact, Detailed, Count Only의 4가지 출력방법 중 하나를 선택. • Selection Criteria • Query를 입력하는 부분이다. • Simple Query에서보다 많은 종류의 연산자가 사용될 수 있다. • Results Ranking Criteria • 검색된 Page들의 출력 우선순위를 결정하는 부분이다. • Start Date • (Alta Vista에서는 로보트가 Homepage를 방문한 시점이 Date로 저장됨.) • 본 란에 입력된 날짜 이후에 갱신된 Page를 대상으로 검색한다. • End Date • 갱신날짜 제한 중 마지막 날짜를 입력하는 란이다.
3.3.3 Alta Vista - Advanced Query • Boolean 연산자의 활용 • OR (연산자 좌우의 단어 또는 구 가운데 하나라도 나타나야 한다.) • 예) IE OR “Industrial Engineering” • AND (연산자 좌우의 단어 또는 구가 모두 나타나야 한다.) • 예) IE AND universit* • NOT (연산자 오른쪽 단어 또는 구를 배제한다.) • 예) worldcup Korea NOT Japan • NEAR (연산자 좌우 단어 사이에 최고 10개까지의 단어가 나타나는 것을 허용함.) • 예) company NEAR “financial statement” • 연산자의 우선순위 • NEAR > NOT > AND > OR
3.3.3 Alta Vista - Advanced Query • Query 연습 • 1) MRP OR ERP OR “Resource Planning” • 2) FMS AND manufact* • 3) worldcup NOT japan • 4) manufactur* NEAR computer* • 5) free NEAR software +game • 6) femme OR girl* OR wom* AND fashion +summer • 7) car or auto and “automotive parts” • 8) “technical report” OR “paper” AND postscript OR ps • 9) daily AND news* korea • 10) internet or WWW AND (guide OR material)
3.3.4 Alta Vista - Display • Standard, Compact, Detailed, Count Only의 4가지 출력형태가 제공된다. • Record별 출력가능한 항목 • Title : HTML 문서의 타이틀 • Head : 앞부분 150개의 문자(character) • URL Address • File Size : 검색된 페이지의 화일 크기 • Update : Alta Vista에 의해 검색된 페이지가 갱신된 날짜
3.4 Lycos • 개요 • 1995년 6월, CMU(Canegie Mellon University)에 소재한 • Machine Translation Center의 Dr. Michael Mdauldin이 개발함. • SCOUT Indexer라는 Robot을 활용하여, 매일 새로운 page를 갱신한다. • 현재는 Lycos Inc.가 설립되어 독립법인에서 운영하고 있다. • 주제검색, 주제어검색이 가능하다.
3.4 Lycos - Service • A2Z (A to Z) : 주제검색 서비스 (http://a2z.lycos.com) • 총 16가지의 주제가 알파벳순으로 세분화되어 있다. • Arts/Humanites, Bus/Finance, Computers, Education, • Entertainment, Government, Health/Medicine, Internet, • Just For Kids, News/Info, Science/Tech, Shopping, • Social Issues, Sports, Road Less Traveled, The World • Point : • 5% 10%라는 용어를 빌려 심의과정을 거친 우수한 Site의 정보를 수록. • Lycos Catalog • 주제어 검색이 가능한 정보검색 Site • 검색방법은 Alta Vista 처럼 단순한 기능, 상세한 기능의 2가지가 있다.
3.4 Lycos - Catalog Query : 검색어(Keyword)를 넣는다. Search Option : AND, OR, Match 2, 3, 4, 5, 6, 7 Terms Match Option : loose(0.1), fair(0.3), good(0.5), close(0.7), string(0.9) Display Option : 1) 10, 20, 30, 40 / page 2) Summary, Standard, Detailed Results
3.5 Yahoo • 개요 • 1994년 4월, 스탠포드대학 전기공학과 박사과정 학생인 David Filo, • Jerry Yang에 의해 개발되었다. • Open Text. Deja News와의 정보제공 계약이 이루어짐. • Yahoo는 사람에 의해 의해 모든 레코드를 수집, 가공, 분류하고 있음. • 양적인 면에서는 상대적으로 뒤지지만, • 질적으로는 어느 검색엔진보다도 매우 우수한 정보를 담고 있음. • 주제검색 및 주제어검색이 가능하다.
3.6 DejaNews • 개요 • Alta Vista, Infoseek 등은 일부의 Usenet Newsgroup을 검색대상에 • 포함시키고 있지만, 대부분의 검색엔진이 Web 공간으로 한정한다. • Newsgroup을 검색하는 것은, • 특정한 정보를 직접얻고자 하는 것이라기 보다는, • 정보제공의사를 지닌 사람을 찾는 데 유용하다. • Quick Search와 Power Search의 두가지 검색방법이 있다.
3.6 DejaNews - Power Search • & : AND를 의미한다. • 예) industrial & departmet & engineering • | : OR를 의미한다. • 예) (industrial | management | manufacturing | OR ) & department • &! : AND NOT을 의미한다. • 예) fiction &! real • ^ : NEAR • 순서에 상관없이 인접해 있는 두개의 단어를 기준으로 검색한다. • IBM ^50 solution (사이에 50개의 character가 오는 것을 허용한다.) • ( ) • 논리연산자의 적용순서를 사용자 임의로 결정할 수 있다. • { } • 찾고자 하는 두 Keyword의 사전적 배열을 전부 선택. • {sing single}
3.6 DejaNews - Power Search • News의 Field 검색 • Author (기사 제공자) : ~a <e-mail address> • 예) ~a (James & Tiberius & Kirk) • ~a jtkirk@enterprise.* • Subject(제목 검색) : ~s <subject> • 예) ~s (MRP & survey) • Newsgroup : ~g <newsgroup> • 예) ~g rec.*stareck* • Creation Date : ~dc <date or date range> • 예) ~dc 1996/05/18 • ~dc 1996/05/*
3.8 Infoseek • 개요 • 1994년에 Steven Kirsch가 설립하였다. • 서비스 제공이후 Alta Vista와 함께 Best Search Engines에 선정됨. • 무료 서비스와 유료 서비스가 구분되어 있음. • 무료 서비스 : Infoseek Guide • (http://guide.infoseek.com) • 유료 서비스 : Infoseek Professional • (http://professional.infoseek.com) • 20여가지의 상용 Database를 검색 할 수 있다.
3.8 Infoseek • 검색어(Query 작성) • 평이한 영어(Plain English)를 사용하면 된다. • 대소문자를 구분한다. • 단어와 구를 “ “를 이용하여 구분한다. • ,(comma)로 연결되어 진 단어는 구로서 취급한다. • 예) Microsoft, Microsoft Windows, Seoul • “ “안에 들어간 단어는 순서대로 나타나는 것만 검색된다. • 예) “color printer” • [ ] : • 입력한 두 단어사이에 100개까지의 다른 단어를 허용한다. • 단, 두 단어의 순서에는 상관이 없다. • +, _ 로 연결된 단어는 반드시 존재하여야 하거나 배제된다. • 예) +windows _dos
3.9 한국의 Search Engine들 • 국내에서 정보를 입수하는 좋은 방법은 • 1) 국내 신문사의 검색엔진, • 2) 한국에서 만들어지고 운영되는 검색엔진을 활용하는 것이다. • 국내 언론 및 방송사 • 조선일보 (http://www.chosun.com/) • 중앙일보 (http://www.joongang.co.kr/) • 서울신문 (http://www.seoul.co.kr/) • 경향신문 (http://www.khan.co.kr/welcome.htm) • 한겨레 (http://news.hani.co.kr/) • 한국일보 (http://www.korealink.co.kr/) • 한국경제신문 (http://www.ked.co.kr/) • 코리아헤럴드 (http://zec.three.co.kr/koreaherald/) • KBS (http://kbsnt.kbs.co.kr/), • MBC (http://www.mbc.co.kr/)
3.9 한국의 Search Engine들 • 한국의 Searh Engine은 외국에 비해 상대적으로 통신속도가 빠른 장점이 있으며, • 국내의 자료를 검색하고자 하는 경우에는 절대적으로 유리하다. • 대구대학교 까치네 http://biho.taegu.ac.kr/ka/ • 한글과 컴퓨터 (심마니) http://simmany.hnc.net/ • 한국통신 (인터넷 정보탐정) http://aistar.kotel.co.kr/ • 충남대 (코시크) http://kor-seek.chungnam.ac.kr/cgi-bin/korea • KAIST (미스 다찾니) http://zec.kaist.ac.kr/dachanni/index.ks.html
검색 엔진별 분석 - 심마니 • http://simmany.chollian.net • 한글과 컴퓨터 사에서 운영 - 천리안(DACOM)으로 이전 • 디렉토리형 검색과 검색어형 검색의 두 가지 특징의 겸비 • 한글의 특징을 고려한 빠르고 정확한 검색 • 한글 외래어의 영어 참조 기능 • 한글 유의어 사전의 참조 기능 (낱말#) • 발음 확장 기능 ex) 컴퓨터, 컴퓨타, 캄퓨터 • 검색 • and, &, 와, 과, 및, 그리고 • or, +, 또는, 혹은, (,) • !& 연산자 앞 단어는 나오지 않고 뒷 단어만. &! 앞 단어만 • “ ” , 구 입력
검색 엔진별 분석 - 미스 다찾니 • http://www.mochanni.com • 메타 검색형, 통합 검색형 엔진 • 독자적인 검색 엔진은 없고 다른 검색 엔진을 사용해서 검색 • 여러 검색 엔진의 사용하는 것과 같은 효과 • 정밀 검색이 어렵다. • 검색 • 국내외 web, 국내외 신문 검색