1 / 134

Busca de Informação Multilingue

Busca de Informação Multilingue. Bibliotecas Digitais Engenharia Biomédica Universidade do Minho. Sumário. Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções. O problema.

xenia
Download Presentation

Busca de Informação Multilingue

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Busca de Informação Multilingue Bibliotecas Digitais Engenharia Biomédica Universidade do Minho

  2. Sumário • Introdução • Processamento de Texto multilingue • Busca de texto multilingue • Busca de voz em várias línguas • Avaliação de Sistemas • Algumas aplicações • Futuras direcções

  3. O problema • Pressão crescente para aceder à informação sem as barreiras tradicionais da cultura e da língua, implica a necessidade de ser capaz de : • Encontrar informação em língua estrangeira • Ler e interpretar essa informação • Juntá-la com informação noutras línguas • É necessário o Acesso a Informação Multilingue

  4. Acesso a Informação Multilingue • Ocupa-se da investigação para o armazenamento, acesso, busca e apresentação de informação em qualquer língua falada no mundo. • Duas áreas de interesse principais: • Acesso, navegação, visualização • Busca e descoberta de informação em várias línguas

  5. Processamento de texto em várias línguas A tecnologia de base • Codificação de caracteres • Requisitos específicos de cada língua • Localização e apresentação

  6. Busca de Informação Multilingue Cruzar a fronteira da língua … • Interrogar uma colecção multilingue numa língua e buscar documentos relevantes noutras línguas • Filtrar seleccionar e pontuar os documentos devolvidos

  7. BIM é multidisciplinar Envolve investigadores das seguintes áreas: • Recuperação de Informação (IR), Processamento de Linguagem Natural, Tradução automática, Sumarização, Processamento de Voz, interpretação de imagens, Interacção H/M • Recursos de língua como dicionánrios, thesauri, corpora e colecções de teste.

  8. Porquê que o BIM é importante? • Internacionalização • Países multilingues(Suiça, Canadá) • Áreas de Cooperação Económica (EU, EFTA, NAFTA) • Globalização da economia • multinacionais • Empregados falam línguas diferentes • Clientes falam línguas diferentes • Documentos precisam de ser acedidos em várias línguas

  9. Sociedade de Informação Global Larga gama de aplicações em que a informação tem que estar disponível aos utilizadores indepentemente da língua: • Comércio electrónico • Entretimento • Educação

  10. Sociedade de Informação Global • WWW como plataforma para disseminação do conhecimento • Ensino à distância • Bibliotecas Digitais….. • Fornecedores e consumidores de informação devem ter igualdade de oportunidade • Preservação das línguas nacionais…

  11. WWW e Internet • A Internet ja não está só em Inglês e • O perfil dos utilizadores está mudar drasticamente • Usada inicialmente só por académicos, agora está ser para publicidade, divertimento, educação, etc....

  12. WWWe Internet • Internacionalização da Internet • O grupo das pessoas que não falam inglês é o que regista maior crescimento como novos utilizadores da Internet • Em1997, 8.1 milhões utilizadores de língua espanhola • Em 2000, 37 milhões……..

  13. Português 2.2% Japonês 17.4% Italiano 4% Coreano 4.4% Sueco 4.3% Espanhol 17.1% Holandês 5.3% Chinês 7.7% Alemão 16.8% Francês 10% 83M Utilizadores da Internet de língua não inglesa

  14. Mudanças na Internet • Em 2005, 68% dos utilizadores falarão uma língua diferente do inglês • Total dos utilizadores passará de 171 milhões para 345 milhões em 2005 • Portanto … 270 milhões não falantes de inglês (dos 83M actuais)

  15. 12% 40% 6% Inglês 4% 8% 2% 5% 5% 68% não falantes de inglês em 2005 8% 2% 2% 6% Espanhol Japonês Alemão Francês Chinês Escandinavo Italiano Holandês Coreano Português Outros Inglês

  16. 800 600 Nº de Pessoas (Milhões) 400 200 0 Espanhol Árabe Bengali Chinês Inglês Russo Japanês Hindi-Urdu Português Línguas Mais Faladas Fonte: http://www.g11n.com/ faq .html

  17. Tamanho do Web: Crescimento Exponensial Fonte: Extrapolado de Grefenstette e Nioche, RIAO 2000 Inglês Outras Europeias 10.000 1.000 100 Bilhões de palavras 10 1 0 Out-96 Out-98 Out-99 Out-01 Out-02 Out-04 Out-97 Out-00 Out-03 Out-05

  18. História: objectivos • 1978: ISO Standard 5964 thesauri multilingue disponível. Versão revista em 1985 • 1991: Publicada a norma Unicode, Versão 1.0 • 1993: ISO/IEC 10646 publicado como "Universal Multiple-Octet Coded Character Set” (UCS).

  19. História: objectivos • 1995: TANGO um web browser multilingue • Netscape/Explorer suportam UNICODE e fontes para outras línguas

  20. História: primeiras abordagens • 1970: thesaurus (Salton) • 1991-94: Projecto EMIR –1º projecto BIM na CE - busca de texto em inglês, francês, alemão • 1994: 1ª tese de doutoramento em BIM por Khaled Radwan (França)

  21. História: primeiras abordagens • 1996 Busca baseada em dicionário (Umass & XEROX Grenoble) • 1996 Abordagem baseada em Corpus (ETH Zurich) • 1997 Modelo do Espaço Vectorial Generalizado (CMU)

  22. História: Objectivos da Comunidade de I&D • 1996: 1st Workshop on “Cross-Lingual Information Retrieval” no SIGIR ’96. A comunidade começa a ser identificada à volta desta área. • 1997: AAAI Spring Symposium on Cross-Language Text and Speech Retrieval

  23. AAAI – O grande desafio • Dada uma interrogação em qualquer media e língua, selecionar itens relevantes duma colecção multimedia e multilingue, e apresentá-los ao utilizador da forma mais adequada, com os objectos idênticos ou bastante parecidos nos diferentes média ou língua identificados convenientemente. [AAAI Stanford Symposium 1997]

  24. História: Objectivos da Comunidade de I&D • 1997: EU-NSF Working Group em Acesso a Informação Multilingue (Multilingual Information Access). • 1999: Disponível Relatório NSF/EC/DARPA em Gestão de Informação Multilingue. • Cursos/Workshops em MLIA/CLIR comuns em Conferências de Information Retrieval, Computational Linguistics e Digital Libraries em vários pontos do mundo.

  25. História: Objectivos de Avaliação • 1997: 1st Cross-Language IR track no TREC (Text REtrieval Conferences) • 1998-99: Amaryllis inclui avaliação multilingue em inglês e francês • 1999: 1º Workshop Japonês em IR inclui linha em CLIR (BIM)

  26. História: Objectivos de Avaliação • 1999: começa nos EUA o projecto TIDES (Translingual Information Detection, Extraction, and Summarization). • 2000: é iniciado CLEF – Cross-Language Evaluation Forum for European Languages

  27. Desafios • Suportar o acesso à informação multilingue em vários média (texto, voz e video) • Indexar informação em língua estrangeira • Buscar informação em várias línguas com uma única interrogação • Permitir a navegação na informação devolvida na língua do utilizador

  28. Processamento de texto multilingue • Codificação de caracteres • Detecção da língua • Extracção de palavras • Remoção de palavras muito frequentes • Radicalização (Stemming) • Etiquetagem POS • Identificação de frases

  29. Processamento de texto multilingue A representação do texto implica: • Conversão de caracteres • Extracção de palavras (tokenization) • Remoção de palavras comuns • Radicalização de palavras Necessidade de conhecimento específico da língua

  30. Codificação de caracteres • Representação binária do alfabeto da língua • Texto normalmente codificado numa forma dependente da língua • Codificação em um ou dois bytes • Norma UNICODE standard para representação de todas as línguas • Suportar os códigos nativos ou transformar em UNICODE para processamento ou busca?

  31. Codificação de caracteres • Codificação específica da língua (alfabeto) : • Chinês GB, Big5, • Europa Ocidental ISO-8859-1 (Latin1) • Russo KOI-8, ISO-8859-5, CP-1251 • UNICODE (ISO/IEC 10646) • UTF-8 comprimento variável em bytes • UTF-16, UCS-2 comprimento fixo de 2 bytes

  32. UNICODE / ISO 10646 • Codificação de 16-bit (2-byte) concebida para contemplar todas línguas escritas • 16 bits permitem à volta de 65,000 characteres • UNICODE especifica actualmente 38,887 characters • Cobre línguas das Americas, Europa, Médio Oriente, Africa, India, Asia • Há espaco para novos caracteres ou caracteres específicos para aplicações

  33. O WorldWide Web multilingue • Codificação dos caracteres especificado no campo do cabeçalho HTTP Content-Type • “Content-type: text/html; charset=iso-2022-JP” • Atributo HTML “Lang” pode ser incluído na maioria dos elementos HTML • <TEXT Lang=es>

  34. O WorldWide Web multilingue • Outros aspectos • Texto Bidirectional – onde se mistura texto lido da direita para esquerda e lido da esquerda para a direita • Formatos e unidades usados para mostar tempos, datas, pesos, etc.

  35. O WorldWide Web multilingue Visualização de material em língua estrangeira… • Utilização de um browser multilingue como TANGO… • Instalar as fontes localmente na máquina usada… • Download fontes para o Browser WWW… • Os browsers estão a tentar suportar de forma nativa fontes para todas as línguas (Explorer) • Problemas na composição de texto noutras línguas…

  36. Identificação de língua • Definição do problema I: Dado um documento monolingue duma colecção multilingue identificar a língua em que está escrito • Definição do Problema II: Dado um documento multilingue identificar a língua de cada parágrafo ou frase

  37. Identificação de língua • Baseado na codificação específica da língua • Usa modelos estatísticos de N-Gramas ou palavras • Reconhece caracteres específicos da língua • Usa listas de stopwords • Usar a língua do último parágrafo ou uma por defeito

  38. Extracção de palavras • Pontuação separada das palavras. • “The train stopped.”  “The”, “train”, “stopped”, “.” • Palavras separadas em unidades léxicas - incl. Segmentação(Chinese) e separação de formas compostas (Alemão)

  39. Segmentação do Chinês

  40. Estratégias de Segmentação • Escolher um modelo • Strings únicas , strings plausíveis , interpretações palusíveis • Combinar evidências • Lexicons, corpora, algoritmos, conhecimento do utilizador • Escolher um critério de preferência • String mais longa, detecção de nomes próprios, etc.

  41. Segmentação do Alemão • Palavras compostas sem restrição • Abendnachrichtensendungsblock • Usar análise de composição conjuntamente com o dicionário alemão CELEX (360,000 palavras) • Treuhandanstalt  { treuhand, anstalt } • Washington  { * was, hing, ton } • É crucial a manutenção do dicionário

  42. Remoção de Stop Words • stop words frequentes (ex.. “o”, “um”, …) • não-stop words frequentes (ex. “medicina” em informação médica) • stop words não frequentes (ex. “todavia”) • stop Words dependentes e não dependentes do domínio (ex. “computer science” na colecção do ACM)

  43. Normalização dos índices • Radicalização baseada em regras (e.g. Porter) • Análise morfológica (e.g. InXight)

  44. Algoritmo de Stemming de Porter • Remoção de sufixos baseada em regras • 65 regras aplicadas em 5 iterações • Correcção linguística dos radicais não é necessária • 36% redução do índices (Inglês) • Versões escritas para muitas línguas

  45. Exemplo Regra sensitivities sensitiviti sensitive sensit (True)IES  I (m > 0)IVITI  IVE (m > 1)IVE   Porter Stemming

  46. Grupo sufixo Regra Exemplo er(s), ère(s) teur(s), trice(s) (*)ère  er (*)trice  teur dernière  dernier éducatrice  éducateur Stemming Francês (ETH) • 84 regras de sufixo em 8 grupos

  47. Regra Stemming Exemplo (*c)e  ia (*l)cissim[aeio]  ce (*e)sse  re province  provincia dolcissima  dolce volesse  volere Stemming Italiano (ETH) • 220 regras (plural  singular, género, tempos e formas verbais)

  48. Análise Morfológica • Analisador Inxight LinguistX produz lemas em vez de stems (ao contrário do algoritmo de Porter) • Morfologia: flexionar (concordância sem diferença semântica) versus Derivar (pode haver modificação semântica) • As decisões para análise morfológica ou stemming é dependente da língua

  49. Part-of-Speech Tagging (Etiquetagem da Fala) • Atribuir etiquetas POS de um conjunto normalizado • comprimisso entre # de etiquetas e complexidade • Inglês – conjunto de etiquetas típica 50 • Francês – conjunto grande 264 pequeno 56 • AFS adjectivo feminino singular • NFS nome feminino singular • V1SPI verbo 1ª pessoa singular presente indicativo • Reduzir o conjunto por truncagem da direita para a esquerda

  50. Etiquetagem da Fala • Estatísticas - Church 1988 • Baseadas em Regras • Manuais (Voutilainen 1993) • Aprendizagem (Brill 1992) • Combinações - Bell Labs, Xerox- Grenoble • Para acesso a informação multilingue, etiquetagem robusta reduz ambiguidade

More Related