460 likes | 781 Views
Beyond Bag of Words. 2011. 6. 1. 11.1 Overview. Bag of Word : 검색 혹은 분류에 사용되는 , 텍스트의 단순 표현방법 언어학적 관점에서 , bag of word 는 매우 제한적 보다 복잡한 표현 방식들에 비해 , 검색 실험에서 더 좋은 성능을 보여줌 검색 application 은 bag of word 방식으로 충분했던 시기를 넘어섰다 .
E N D
Beyond Bag of Words 2011. 6. 1.
11.1 Overview • Bag of Word : 검색 혹은 분류에 사용되는, 텍스트의 단순 표현방법 • 언어학적 관점에서, bagof word는 매우 제한적 • 보다 복잡한 표현 방식들에 비해, 검색 실험에서 더 좋은 성능을 보여줌 • 검색 application은 bag of word 방식으로충분했던 시기를 넘어섰다. • Bag of word의 feature는 중요하지만 언어학적인, 구조적인, metadata, non-textual content feature또한 효과적으로 검색 모델에 사용될 수 있다. • 이번 장에서는 feature-based retrieval model에 대해 살펴봄 11.2 • 11. 3 Termdependency를 어떻게 파악하고 linear feature-based model에 사용할 수 있는지 • 11.4 Database system등에서 쓰이는 structured representation이 어떻게 검색엔진에서 쓰일 수 있는지
11.2 Feature-Based Retrieval Models • Linear feature-based model • Some models support non-linear functions, but linear is more common • Training data가 주어졌을 때, E값을 최대화하는 parameter를 찾는다.
11.2 Feature-Based Retrieval Models • Feature의 수가 작다면, 최적 parameter의 값은 brute force방법으로 모든 가능한 값을 실험해 구할 수 있다. • 하지만 그 feature의 수가 많다면 Ranking SVM과 같은 optimization procedure가 요구된다. • Topical relevance와 관련된 검색 모델에서는 다음feature들이 사용되어 왔다. • Term occurrence • Term frequency • Inverse document frequency • Document length • Term proximity • Galago는 query 언어에, 사용할 feature선택,weighted linear combination을 통해 문서를 scoring할 수 있는 방법을 제공한다.
11.3 Term dependence models • 단어들간의 관계를 활용하는 것은, 효과적인 검색 엔진을 만드는데 중요한 부분이다. • 단어간의 관계를 활용하는 검색모델을 Term dependence model이라 한다. • Markov Random Field model • Document node 및 각 query term으로 만들어진 query node로 Graph를 생성 • 이 각 노드들은Markov Random Field의 random variable을 대변 • Ramdom variable간의 dependency는 edge로 표현
11.3 Term dependence models • Sequential dependence assumption이 가장 좋은 성능을 보임 Full independence sequential dependence full dependence general dependence
11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. sequential dependence Full independence
11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. sequential dependence
11.3 Term dependence models • MRF graph를 생성한 뒤, graph의 clique를 통해 일련의 potential function을 정의한다. full dependence
11.3 Term dependence models • MRF model은 pseudo-relevance feedback에서도 사용 • Relevance model technique • Relevance model graph • Latent concept expansion • Latent concept expansion graph
11.3 Term dependence models • Latent concept expansion • query : “hubble telescope achievement”
11.3 Term dependence models • MRF model은 linear feature-based retrieval model로서 Term dependence에 기반한 feature를 scoring function에 적용하는 효과적인 방법
11.4 Structure Revisited • Structured 및 unstructured data 모두를 처리할 수 있는 공통된 플랫폼을 가지는 것은 1960년대 이후부터 제시되어온 목표이다 • Statistical inference 혹은 ranking같이 IR에서 관심을 가졌던 부분이 이제 DB 연구자들에게도 중요한 주제가 되었다 • 문서의 구조를 활용하는 것은 웹검색에 중요한 부분 • 양측 모두 효율적인 인덱싱, web-scale data에 대한 최적화 기법 등에 관심을 가지고 있다 • Many possibilities for integration • Database model을 확장해 보다 효과적으로 확률을 다룰 수 있도록 함 • IR model을 확장해 복잡한 구조 및 다중관계 연산을 처리 • 통합된 모델 및 시스템을 개발
11.4 Structure Revisited • 7장의 내용처럼,Galago query language는 문서 구조를 처리할 수 있다. • 기존 데이터베이스 측면에서 볼 때, Galago를 이용해 구조화된 data를 표현 및 질의 하는데 어려움이 있다. • 데이터에 스키마가 없다 • Schema : 데이터베이스의 논리 구조를 의미 • 테이블의 이름 및 각 relation의 attribute • Attribute의 data type을 정의하거나 relation간의 join을 정의하는 방법이 없다 • 문서는 tag 쌍에 의한 context의 집합으로 표현된다. • 각 문서는 document identifier를 primary key로 하는 simple database에 저장됨 • 이것은 Fullrelational database system의 functionality와는 매우 다르다 • 3장의 BigTable storage system이 이와 유사
11.4 Structure Revisited • BigTable storage system • 매우 큰 document collection을 저장하기 위한 storage system • 각 데이터베이스들은 하나의 테이블 만을 가진다. • 이 table은 작은 tablet이라 불리는 작은 조각으로 나뉘어 수천대의 기계에서 동작 • Logically organized into rows • A row stores data for a single web page
11.4 Structure Revisited • BigTable storage system의 경우 data type혹은 join연산을 지원하지 않음 • Tuple및 attribute name에 대한 매우 단순한 명세만을 가진다. • BigTable과 같은 시스템은 • data persistence 및 안정적인 access를 필요로 하는 경우 • 분산 컴퓨팅을 이용한 성능의 확장이 필요한 경우 에 집중한다 • Data에 대한 access는 Client application의 read, write, delete기능을 지원하는 simple API를 이용해 제공됨 • Web search 혹은 e-commerce에서 사용 • Index는 database system이 아닌 검색 엔진에 저장됨
11.4.1 XML Retrieval • XML은 Application간 데이터를 교환할 때나 문서를 encoding할 때 중요한 표준 • Database community에서는 • XML Schema : XML data의 구조를 표현하는 언어 • SQL과 유사 • XML data의 hierarchical structure를 다룰 수 있도록 고안됨 • XQuery, Xpath: querying 및 manipulation에 사용되는 언어 를 정의 • INEX Project • XML 문서 데이터베이스를 이용 • TREC과 유사하게, XML search task를 제시하고, 평가를 위해 각 task별로 test collection을 제공
11.4.1 XML Retrieval • INEX project에 사용된 query type중 하나로 CAS (Content-and-Structure) query 가 있음 • Topic 및 XML구조에 대한 표현을 query로 사용
11.4.1 XML Retrieval • 이런 쿼리들이 합리적으로 보이지만, INEX project 및 다른 연구들에 의하면 사용자들은 대개 구조화된 정보를 사용하지 않는다 • User query에 반영된 structure가 검색 효과성을 향상시킨다는 증거는 없다 • 이런 이유로 INEX project에서는 갈수록 content-only query에 집중 • 혹은 XML element를 ranking하는 방향
11.4.1 XML Retrieval • 문서 구조는 효과적인 ranking을 위해 중요한 부분이지만, user query 에 직접사용하기보다 단순한 user query를 문서 구조에 기반한 feature로 변환해 적용하는 것이 효과적 • Galago의 경우 user query를 Galago query로 변환해 적용 • DB system은 많은 검색 application에서 사용되지만, 사용 용도는 일반적인 DB application과는 다르다 • 이것은 단순하지만 효율적이고, 신뢰성이 있으며 확장 가능한 storage system의 개발로 이어졌다.
Beyond Bag of Words 2011. 6. 8.
11.4.2 Entity Search • Entity search에서는 query에 대하여, 문서 대신 entity의 랭크된 리스트를 출력 • 각 entity의 표현(representation)은 Entity 주변 단어들에서 생성됨 • Pseudo-documents를 생성 • ex> 일정한 크기(20 words) window내에 위치하는 모든 단어 • Query가 주어지면 위 representation에 기초해 entity의 ranked list를 출력 • ex> Conrad’s work
11.4.2 Entity Search • Target word 주변 단어들을 이용하는 representation 방법은 query expansion에 사용할 thesaurus를 만드는 데에도 사용 • 인지 과학자들에 의해 semantic memory모델에서도 사용 • Entity search에 연관된 최근 연구 중, 특정 분야의 전문가를 검색하는 task인 expert search가 있다. • Balog등은 language modeling기법에 기반해 entity(expert) 검색을 위한 확률검색모델을 개발 • Entity와 query term간의 joint distribution에 따라 entity를 rank
11.4.2 Entity Search • P ( q | e, d ), P ( e | d ) 각각을 어떻게 평가하는 가에 따라 서로 다른 entityranking algorithm이 생성됨 • 한 방법으로, query term과 entity간의 proximity를 이용해 평가할 수 있다 • P ( q | e, d ) = (1 / Z ) * i=1->N∑ δd ( i , q ) * k ( q , e ) • N : 문서의 길이 • δd ( i , q ): indicator function • 1 : 문서 d의 i번째 위치의 term이 q일 때 • 0 : otherwise • k ( q , e ) : Proximity kernel function • Petkove and Croft(2007)의 연구에 의하면 Gaussian kernel이 가장 효과적 exp - || q - e ||2 / 2σ2 • Z = i=1->N∑ k ( q , e ) : normalizing constant
11.4.2 Entity Search Ex> • query term : Chicago • entity : Obama • …Two years after graduating, Obama was hired in Chicago as director of the Developing Communities Project (DCP) …. departed Chicago when… • (1/Z) * {exp - || 4 ||2 / 2σ2 + exp - || 30 ||2 / 2σ2 } • Query term이 여러 개 일때, P ( e, q ) = qi∈ q ∏ { P ( qi | e , d ) P ( e | d ) }
11.5 Longer questions, Better answers • Space Odyssey나 Star Trek등의 영화에서는 컴퓨터가 human-like assistant로 등장해 복잡한 질문에 답변을 수행 • 웹 검색엔진이 많은 정보를 제공해주지만 위와 같이 Intelligent assistant의 역할을 수행하기에는 먼 길이 남아 있다 • Community based QA system에서는 information need를 더 상세히 표현할수록 좋은 대답을 얻을 수 있다 • 하지만 웹 검색엔진에서 query를 위와 같은 길이로 할 때 좋지 못한 결과를 얻는다. • 사람들은 자신의 질문을하나 혹은 적당한 개수의 keyword로 변환해 적용하도록 강요받는다 • IR연구의 장기 목표 중 하나는 longer, more specific query에 대하여 정확한 결과를 도출하는 것이다
11.5 Longer questions, Better answers • Question answering은 사용자 query에 대하여 문서의 ranked list가 아닌 구체적인 답을 제공하는 것 • 이런 시스템에서 처리되는 질문들은 대부분 fact-based question • Who, Where, and When • Who invented the paper clip? • Where is the Valley of the Kings?
11.5 Longer questions, Better answers • Question에서 생성된 query를 이용해 passage retrieval component에서 검색을 수행 -> Candidate text passage (대개 문장 단위) • “Where is the valley of the kings” • 문장 가운데 location에 관련된 것으로 tagging되고 “valley”, “kings” 단어가 등장하는 문장을 가져옴
11.5 Longer questions, Better answers • Answer selection component에서는 이것을 이용해 정답을 선택 • Predefined rule을 사용 • “Where is the valley of the kings” • <question-location> in <location> • Wordnet을 이용 • “Who manufactures magic chef appliances” • “fabricates”, “constructs”, “makes” -> “related to manufacture” • Text passage에서 최종적으로 정답을 선택하는 과정에는 보다 많은 언어적 분석 및 추론이 필요하다.
11.5 Longer questions, Better answers • QA system을 사용하는 사람은 context of answer를 보고자 할 것이다 • ex> “Where is the valley of the kings” • “Ezypt” • “The Valley of the Kings is located on the West Bank of the Nile near Luxor in Ezypt” • QA system에서 사용되는 기법들은, 보다 정확한 검색결과를 얻기 위해 문법적, 의미론적 feature가 어떻게 쓰일 수 있는지 보여준다. • 하지만 IR에는 보다 어려운 challenge들이 남아있다. • “Where have dams been removed and what has been the environmental impact?” • Fact-based question처럼 보이지만, 답변은 location의 리스트를 리턴하는 것보다 더 포괄적(comprehensive)이어야 한다 • “What is being done to increase mass transit use?” • Fact-based question은 아님 • 대중교통 이용에 대한 discussion들을 recognize할 수 있는기법을 적용하면 도움이 될 것 -> 실제 검색실험에서 실증된 바 없다 • 아직 많은 technical issue들이 있다.
11.6 Words, Pictures, and Music • Information Retrieval은 전통적으로 텍스트에 집중해 옴 • 하지만 웹에서 사용자들이 찾는 많은 정보들은 Image, video, 또는 audio의 형태로 있다. • 이들에 대한 검색은 대부분 text-based로 이루어짐 • Title, caption, user-supplied tag에 기반 • 구현이 간편하지만, 표현하고자 하는 대상의 중요한 측면을 정확히 담지 못함 • Content-based retrieval technique • 정보 전달의 도구로 단어를 사용하지만,non-text media에 저장된 경우 • Optical character recognition • Speech recognition
11.6 Words, Pictures, and Music • OCR 예시
11.6 Words, Pictures, and Music • Speech recognition
11.6 Words, Pictures, and Music • TREC의 실험 결과들에 의하면 검색 효과성은 이러한 error에 큰 영향을 받지 않는다 • 대부분 query term이 redundant하게 등장 • 매우 짧은 문서의 경우 영향을 받음
11.6 Words, Pictures, and Music • 이미지를 대상으로 한 content-based retrieval은 보다 어려운 문제 • 이미지에서 사용되는 feature인 Color, texture, shape등은 word에 비해 Semantic content를 가지고 있지 않다. • Image검색에서 자주 사용되는 feature로 color histogram이 있다. • 가령 RGB model을 이용하는 경우 한 pixel의 색깔Red, blue, green를 각각 8개 level로 quantize하는 경우 8x8x8 = 512개의 bin으로표현됨 • 이미지의 각 pixel별 색깔에 해당하는 bin의 값을 하나씩 증가시킴
11.6 Words, Pictures, and Music • Color feature는 비슷한 색상의 이미지를 찾는데 유용 • 제한점: 전혀 다른 semantic content를 가지는 이미지가 색상이 같다는 이유로 선택될 수 있음 • Color feature에 texture, shape feature등을 같이 결합해 사용 • Texture : spatial arrangement of gray levels in the image • Shape : form of object boundaries and edges
11.6 Words, Pictures, and Music • 과거 검색 실험들에 의하면, 여러 image feature를 결합하는 가장 효과적인 방법은 확률검색모델 이다 • 이미지가 text caption 혹은 user tag를 가지고 있는 경우 이런 정보를 ranking 쉽게 통합될 수 있다 • Video 검색은 이미지 검색과 유사하며, 몇 가지 추가정보를 제공 • Closed caption text • Speech recognition을 통해 얻을 수 있는 text정보 • Video의 image component는 일련의 key frame 이미지로 표현 • Frame간의 Visual discontinuity가 있을 때를 기준으로 segmentation
11.6 Words, Pictures, and Music • 이미지검색에서 지금까지 살펴본 검색 쿼리는 이미지 형식 사용자들은 text형식으로도 질의하고 싶어할 것이다 • 텍스트 쿼리 단어는 이미지에서 추출한 feature와 직접적으로 비교될 수 없다 • Training data가 주어질 때, 확률모델을 이용해 Image-based feature와 단어 간 연관관계를 학습할 수 있다 • 가령, 5000개 이미지 corpus가 주어질 때, 500개 image term을 이용해 각 이미지를 표현 • 한 이미지 마다 1-10개의 image term을 사용
11.6 Words, Pictures, and Music • Text query가 입력되면, pseudo-relevance feedback과 유사한 방법으로 이미지를 검색 • 1. Text query를 이용해 text-annotation된 이미지를 대상으로 ranking • 2. top-ranked image에서 등장하는 image term의 joint probability를 평가 • 3. 선택된 image-term으로 query를 확장해 text-annotation이 없는 이미지를 대상으로 재검색 • 이런 방법은 text annotation이 없는 이미지에 keyword를 할당하는 방법으로도 사용될 수 있다 -> Automatic text annotation
11.6 Words, Pictures, and Music • 음악은 단어와 연관시키기 더 어려운 media이다 • 제목, 작곡가, 가사 등을 제외할 때, 음악을 단어로 표현하기는 매우 어렵다 ex> Bach’s Fugue#10 • Audio signal • MIDI • 전송 표준 • Digital specification of Events in the music e.g. pitch, intensity, duration • Conventional music notation
11.6 Words, Pictures, and Music • 이러한 basic representation으로부터 index term을 추출하는방법 • Audio의 spectrogram의 time slice별 peak에 hashing기법을 적용해 signature를 생성 • 휴대폰으로 녹음한 소리를 이용해 음악을 검색하는 서비스 • Query-by humming • 사용자가 노래를 부르거나 humming하면, 비슷한 melody의 음악을 music collection에서 검색 • query를 melody 형식의 representation으로 변환 • Sequence of notes, Relative pitches, interval between notes • Collection의 music또한 같은 방식으로 변환 • Query는찾고자 하는 melody의 noisy representation이라 할 수 있다 • N-gram matching, language model등을 이용
11.7 One Search Fits All? • 검색은 지난 40여 년 간 발전해 왔음에도 불구하고 검색에 대한 지식, 이해도, 효과성 등은 계속 발전하고 있다 • 보다 많은 capability를 갖춘 single search engine보다 다양한 검색 서비스가 만들어졌다 • 검색 엔진의 홈페이지를 가면 web, image, blog, map, academic paper, patent, news, books, photographs 등 다양한 링크들을 볼 수 있다 • 이들은 각각 다른 feature 및 ranking algorithm 및 interface를 활용하고 있다 • Customized search engine이 번창할 것이라는 측면과 반대로 그 기반이 되는 원리(principle)에 있어서는 consensus가 증가할 것이다 (Despite the proliferation of customized search engines, there is also a growing consensus on the principles that underlie them)
11.7 One Search Fits All? • IR, machine learning, NLP 등 관련 분야 연구자들은 text representation 및 검색 과정을 모델링 하는데 유사한 방법론을 개발해 사용하고 있다 • 이러한 방법들은 structured data 및 non-text media영역으로 확장 • 새로운 영역에서 이루어진 최근 연구들은 확률모델 및 linear feature-based model이 검색을 이해하는데 효과적인 tool이라는 견해를 재확인시켜준다 • 검색의 기본 이론 부분의 agreement가 증가할수록 검색 tool은 서로 더 유사해 질 것이다 • 현재 여러 검색 엔진들은 서로 다른 term weighting기법, 서로 다른 feature 및 ranking algorithm을 사용 -> 이것은 right way to do these things에 대한 consensus가 없기 때문
11.7 One Search Fits All? • 이 책에서 다루지 않은 검색의 또 한가지 측면은 사용자와 검색 엔진간의 interaction, 사용자의 검색 task가 이 interaction 과정에 미치는 영향이다 • Information scientist들은 이런 이슈들에 대해 연구 • 사람들이 relevant information을 어떻게 찾는지에 대한 통찰력있는 이해를 제공하는데 기여 • Social search 및 social networking이 발전함에 따라 user와 검색엔진 간 뿐 아니라,user와 user간의 interaction또한 연구 대상으로 확대 • 장래에는 사용자와의 interaction에 대해 현재보다 더 명시적(explicitly)으로 표현한 모델 및 이론들을 볼 수 있을 것이다
11.7 One Search Fits All? • 검색엔진 개발자 및 연구자들은 interaction을 향상시킬 수 있는 방법들을 연구 • 다양한 type의 검색 결과를 검색결과 display에 출력 • ex> Query가 주소인 경우 지도를 보여줌 Query단어가 논문 제목과 일치하는 경우 academic paper 링크를 제시 • 미래의 검색 인터페이스는 사용자의 지식을 더욱 active하게 검색 과정에 포함시킬 수 있도록 진화할 것이다 • 마지막으로 검색은 여러 소프트웨어에 필수적으로 중요한 부분이 될 것이다 • 사람들을 검색의 이론, 모델, 평가 기법 등을 이해할 수 있도록 training하는 것은 효과성 및 효율성을 향상시키는 데 중요한 부분이다.