Project Argus Massive Data NIMD PI Meeting December 2, 2004

Project ArgusMassive DataNIMD PI MeetingDecember 2, 2004

Massive Structured Data • Static data • Focus on 1010 to 1012 records • Typical record size 100 to 1,000 bytes • Typical collection size between terabyte and petabyte • Smaller than large collections including unstructured data because field size is much smaller • Streaming data • 1,000 to 5,000 records per second • Approx 100M to 400M records per day • Static data corresponds to a few years of stream

Approximate Structured Matching Near Match No Match Distance Near Match Range or Point Query Distance Distance Exact Match No Match

Data Matching and Retrieval • Matcher finds data that matches query exactly or is close to it • Different versions for different data volumes

100 Approximatequeries Availablememory n0.5 Rangequeries Retrieval Time (msec) 10 n0.15 lg n Exact queries lg n 1 103 105 106 102 104 Number of Records Disk-Matcher Experiments

Monitoring Streaming Data Data Tables Stream Anomaly Monitoring Intermediate Tables Data Streams Query Table Do_queries Analyst Rete Network Generator Query Scheduler Rete Networks Identified Threats

Monitoring Streaming Data • Monitoring structured data streams for anomalies, hazards or alerts posted by analysts. • Alert profiles = continuous persistent queries (105) • Daily stream volumes target 108+ records. • System is optimized for very high selectivity queries • “Needle in a field of haystacks” challenge • Alert profiles can be anything (relational, aggregation, …) • Functions atop DBMS (now), or full DYNAMiX matcher (coming soon) • Based on modified Rete algorithm

Old Results New Incremental Results Adapted Rete Algorithm • (n+Δn) (m+Δm) = n m + Δn m + n Δm + Δn Δm • When Δn and Δm are very small compared to n and m, rete time complexity of incremental join is worse case O(n+m), and using b-trees it goes to O(logn+logm+Δn+Δm)

Finding Novel Patterns in Data • Primary topic of Hypothesis Generation and Tracking paper • Scales well for massive data because algorithms are near linear in number of records, rather than n2

Need for Suitable Data • Most suitable data is classified or proprietary • Fabricated data does not have “right” distribution • Risk of tailoring solution to fabricated characteristics • Ideal is real data processed to be unclassified, but still retaining relevant characteristics of original

Project Argus Massive Data NIMD PI Meeting December 2, 2004

Project Argus Massive Data NIMD PI Meeting December 2, 2004

Presentation Transcript

Clinical Restructuring Plan December 2, 2004

DR K-12 PI Meeting - December 2, 2010 K-12 Engineering

APR PI Financial Data Project

PI-RIFIC PROJECT !!!

December 2004

BCSIA Library December 2, 2004

December 2 nd Member Meeting

Meeting Minutes November 2, 2004

OSS Reconciliation Billing December 2004 Project

Academic Achievement Gap December 2, 2004

Kappa Pi Meeting

UIUC, December 2-3, 2004

Quarterly Meeting December 2, 2011

ALNAP 2 December 2004

Spectrum Project Overview Roy Yates (~Chris Rose) NSF PI Meeting January 13, 2004

December 2, 2004

The project plan. December 16, 2004

Concurrent Programming December 2, 2004