Relax and Adapt: Computing Top -k Matches to XPath Queries

Relax and Adapt: Computing Top-k Matches to XPath Queries Amélie Marian (Columbia University) Joint work with: Sihem Amer-Yahia (AT&T Research) Nick Koudas (University of Toronto) Divesh Srivastava (AT&T Research)

book info edition (paperback) author (Dickens) title (Great Expectations) book info edition (paperback) author (Dickens) title (Great Expectations) Example book book • Heterogeneous XML Data about books • Query: book[./info/title=“Great Expectations”] and [./info/author=“Dickens”] and [./edition=“paperback”] info info author (Dickens) title (Great Expectations) edition (paperback) title (Great Expectations) author (Dickens) Query root node: Distinguished node Amélie Marian - Columbia University

book book info edition (paperback) info edition (paperback) author (Dickens) author (Dickens) title (Great Expectations) title (Great Expectations) XML Query Relaxation Query [Amer-Yahia et al. EDBT’02] • Tree pattern relaxations: • Leaf node deletion • Edge generalization • Subtree promotion book book Data edition? info info author (Dickens) title (Great Expectations) edition (paperback) title (Great Expectations) author (Dickens) Amélie Marian - Columbia University

Top-k Queries over XML Data:Motivations and Challenges • Structure heterogeneity • Efficient identification of approximate matches • Top-k • Ranking of approximate matches based on similarity to query • Early pruning • Query processing cost • Cost increases with number of matches evaluated • Data explosion • Many approximate matches • XML path queries akin to joins • Prioritization to increase pruning Amélie Marian - Columbia University

Contributions • Whirlpool: adaptive architecture and top-k query processing strategy for XPath queries • Goal: early pruning of non-top-k partial matches • Approach: partial matches may follow different plans, and may be at different stages of query execution • Real prototype implementation of Whirlpool • Instantiation of Whirlpool for various “routing strategies” and “prioritization” alternatives Amélie Marian - Columbia University

Closely Related Work • Adaptive query processing • Eddies: • Dynamic query join plans to adapt to processing environment • No pruning • Adaptive top-k query processing • Upper: • Prioritization of partial matches based on maximum possible scores • Adaptive routing based on scores • No joins [Avnur and Hellerstein. SIGMOD’00] [Bruno et al. ICDE’01] Amélie Marian - Columbia University

Outline • Whirlpool Architecture • Query Processing • Strategy • Alternatives • Evaluation Settings • Evaluation Results Amélie Marian - Columbia University

Whirlpool Architecture book info edition (paperback) Router author (Dickens) title (Great Expectations) book server edition server title server info server author server Top-k Set Amélie Marian - Columbia University

Whirlpool Architecture:Components • Top-k Set • Only one match with a given root node • Used for pruning • Complete matches are not processed further, incomplete matches are sent to the router • Router • Router Queue is based on partial matches maximum possible final scores • Dynamically choose which server to send partial match based on routing strategy Amélie Marian - Columbia University

Whirlpool Architecture:Components • Root server: • Generates candidate matches • Node servers: • Maintain priority queue of partial matches • For each partial match that is processed: • Compute a set of extended partial (or complete) matches • Compute scores of new matches • Checks partial matches against current top-k set Amélie Marian - Columbia University

Query Processing Alternatives • Prioritization Strategies (at each server) • FIFO • Current Score • Maximum Possible Next Score • Maximum Possible Final Score • Routing Decisions (at the router) • Static • Score-based • Likely to increase score the most • Likely to increase score the least • Size-based • Likely to produce the fewest matches Amélie Marian - Columbia University

Evaluation Strategies • Lockstep (Static) • Partial matches follow same execution plan • Partial matches have gone through exactly the same number of operations • Whirlpool Single-threaded (Adaptive) • Partial matches adaptively routed • Process the partial match with the highest maximum final score (Query processing similar to Upper) • Only one partial match processed at a time • Whirlpool Multi-threaded (Adaptive) • Prioritization strategy at server decides which partial match to process next at server • System determines which server to process next Amélie Marian - Columbia University

Evaluation Metrics • Parameters: • Query size • Document size • k • Parallelism • Scoring function (tf.idf proposed in paper) • Measures: • Query execution time • Number of server operations • Number of partial matches created Amélie Marian - Columbia University

Evaluation Setting • C++ implementation, with POSIX threads • Default machine: • Red Hat 7.1 Linux • 1.4GHz dual processor • 2Gb RAM • XML Documents generated using XMark generating tool • XPath Queries chosen from XMark to illustrate different relaxations • XML nodes stored using Dewey encoding Amélie Marian - Columbia University

Comparison of Adaptive Routing Strategies Whirlpool-S and Whirlpool-M perform approximately the same number of server operations Amélie Marian - Columbia University

Static Routing Strategies vs. Best Adaptive Amélie Marian - Columbia University

Effect of Parallelism Amélie Marian - Columbia University

Varying Query Size and k (log scale) 60% 48% 20% For large queries and high values of k, Whirlpool-M performs less server operations that Whirlpool-S (and is faster even on a one-processor machine)! (27% less server operations for q3 k=75) Amélie Marian - Columbia University

Varying Query Size and Document Size Almost twice as fast Amélie Marian - Columbia University

Scalability Percentage of partial matches created by Whirlpool-M as a function of the maximum possible number of partial matches Amélie Marian - Columbia University

Conclusions • Efficient adaptive top-k query processing strategy • Minimize number of partial matches evaluated • Benefit from parallelism with little threading overhead • Adapt to different environments • Score distribution • Selectivity distribution • Extensive experimental evaluation • Good scalability Amélie Marian - Columbia University

Relax and Adapt: Computing Top -k Matches to XPath Queries

Relax and Adapt: Computing Top -k Matches to XPath Queries

Presentation Transcript

XML, XPath, and XSLT

RELAX NG

XPath et XSLT

CSE 636 Data Integration

XPath

XML Data Management XPath 1.0 Principles

XPATH

Bottom-up Evaluation of XPath Queries

XPath Query Evaluation - A Top Down Approach

Spatial Queries

Introduction to XML Path Language (XPath20)

Web Data Management

Information Management XML and Databases

Conditional XPath, the first order complete XPath dialect

The Complexity of XPath Evaluation

XSL, XSLT and XPath

XPath

CIS 375—Web App Dev II