AQUAINT Mid-Year Workshop:

AQUAINT Mid-Year Workshop: Jimmy Lin (jimmylin@ai.mit.edu)MIT Artificial Intelligence Laboratory Observations and Comments

QA and IR • Question Answering as an extension of Information Retrieval. Document Retrieval Passage Retrieval + NLP Technology Factoid Question Answering

QA and Databases • Question Answering as an extension of Database Systems. • Question Answering as knowledge brokering. • Why? • Databases often provide better answers. • Lots of valuable structured/semi-structured resources available on the Web. • Rich body of literature to capitalize on.

Cross Fertilization • Early “classic” works: • BASEBALL [Green et al., 61] • LIFER [Hendrix et al., 77] • LUNAR [Woods et al., 72] • Plenty of research on integration of semistructured data: • ARANEUS [Atzeni et al., 1997] • ARIADNE [Knoblock et al., 1999] • Information Maniford [Kirk et al., 1995] • TSIMMIS [Hammer et al., 1997]

Advantages for Analysts • Multimedia access. • Knowledge Discovery. • Better control of source quality and verification. • Uniform coverage of a domain.

START • A natural language interface to heterogeneous data sources on the Web. [Katz 97; Katz 02]

START and Ominbase • Omnibase is a “virtual” database system that integrates heterogeneous, semistructured data. • START: natural language queries  structured Omnibase queries. • Omnibase executes these queries by • Fetching the relevant pages. • Extracting the relevant fragments. • START performs additional generation.

Current Focus • Streamline knowledge integration: • Better authoring tools. • Smarter parsers. “Conceptual Segmentation.” • Wrapper Induction via Machine Learning. • Semantic Web: • RDF is a rich source of metadata.

Combining the Approaches • Complementary Approaches: • QA as DB: suitable to handling database-like queries. • QA as IR: general purpose solution. • More Info: • Boris Katz and Jimmy Lin. START, Omnibase, and Beyond. AQUAINT Mid-Year Workshop. • Jimmy Lin. The Web as a Resource for Question Answering: Perspectives and Challenges. LREC’2002. • Boris Katz et. al. Omnibase: Uniform Access to Heterogenous Data for Question Answering.

AQUAINT Mid-Year Workshop: