1 / 14

Gestão e Tratamento de Informação

Gestão e Tratamento de Informação. Helena Galhardas DEI IST. Programa. Gestão de dados XML DTD XSLT XQuery Extracção de Informação Dados da Web Extracção de conhecimento Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers

Download Presentation

Gestão e Tratamento de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão e Tratamento de Informação Helena Galhardas DEI IST

  2. Programa • Gestão de dados XML • DTD • XSLT • XQuery • Extracção de Informação • Dados da Web • Extracção de conhecimento • Integração de dados e esquema • Global-as-view vs local-as-view • Mediadores e wrappers • Transformação e limpeza de dados • Discrepâncias de esquemas e dados • Detecção e eliminação de duplicados • Fusão de informação

  3. Motivação – Extracção de dados da Web • Número grande de fontes de dados • Alguns desafios: • Páginas Web devem ser transformadas em dados estruturados • Falta de controlo sobre os dados • Fontes têm restrições de entrada e saída • Natureza distribuída da Web pode tornar a integração de dados mto lenta

  4. Motivação – Gestão de dados XML • XML é vastamente utilizada como linguagem de troca de dados na Internet • DTD, XMLSchema, XPath, XSLT são provavelmente assuntos já conhecidos • A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui • ...

  5. Motivação – Extracção de Informação • Como descobrir estrutura em dados não estruturados • Exemplo (http://www.imdb.com) Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ... • Algumas técnicas de IA (p. Ex. Linguagem Natural) podem ser usadas

  6. Motivação – Integração de dados e esquema • Integrar dados oriundos de fontes de dados heterógeneas • Desafios: • Acesso aos dados • Resolver as diferenças existentes ao nível de esquema e dados • Executar a integração de forma eficiente

  7. Motivação – Transformação e limpeza de dados • Durante e após a integração, alguns problemas com os dados precisam de ser resolvidos • Exemplo: Filmes (id, título, realizador, ano, ano_ult_remake) (1|Casablanca|Weir|1942|1940) (2|Dead Poets Society|Curtiz|1989|-) (3|Rman Holiday|Wylder|1953|-) • Detecção e eliminação de duplicados é um dos aspectos que vamos estudar

  8. Avaliação • Exame (52%) • 3/1/2008 (17H) • 17/1/2008 (17H) • 4 MiniProjectos (48%), cada um 12% • Enunciado é distribuído na aula teórica • Alunos têm cerca de 2/3 semanas para resolver • Entrega dos alunos feita na aula teórica • Solução e correcções mostradas na aula teórica • Conteúdo: uma parte teórica/prática e outra de SW

  9. Calendário Mini-Projectos • MP1 • Entrega enunciado: 21/9 • Entrega alunos: 12/10 • MP2 • Entrega enunciado: 12/10 • Entrega alunos: 2/11 • MP3 • Entrega enunciado: 2/11 • Entrega alunos: 23/11 • MP4 • Entrega enunciado: 23/11 • Entrega alunos: 7/12

  10. Organização das aulas • Aulas teóricas • Aulas de laboratório • Grupos de três elementos – inscrições na página da cadeira no Fénix • Apoio no software a ser utilizado • Apoio na resolução dos mini-projectos

  11. Corpo docente • Helena Galhardas (responsável) • Bruno Martins • Pável Calado

  12. Bibliografia • Não há um livro único • Algumas partes da matéria cobertas por artigos • Alguma bibliografia: • S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 2000 • C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006

  13. Assuntos pendentes • Aulas de laboratório • Mais um turno tem que ser aberto • O turno de 5ªf, 11H tem que ser trocado • Aulas de dúvidas

  14. Referências • C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006 • Craig Knockblock, Course: “Information Integration on the Web”, 2006, http://www.isi.edu/integration/courses/csci548_2006/

More Related