240 likes | 391 Views
Nagy adatok – mindenkinek. Benczúr András MTA SZTAKI Informatika Kutató Laboratórium. IVSZ – Jövő Internet Workshop 2011. November 4. Nagy adatok. Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek. E xtrém méretű adatok , „big data”.
E N D
Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop 2011. November 4.
Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek
Extrém méretű adatok, „big data” • Web (100G oldal, 1-10 KB, Internet Achívum 200TB/2hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden • Emberi gének (3 milliárd bázispár) • ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet • Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags • Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság
Extrém adatméretek: korlátok • Hardware képessége 18 havonta duplázódik • Adatmennyiség még gyorsabban növekszik • Külső tár elérési sebessége sokkal lassabban nő • Elosztott környezet architekturálisan még nehéz maradt
Extrém adatméretek: korlátok Pl. 1997 és 2003 között megharmincszorozódott a teljesítmény … Folytatás már sokkal nehezebb: many-core
Extrém adatméretek: korlátok Google AllTheWeb Inktomi AltaVista Teoma de 1997 és 2003 között megharmincszorozódott az adatmennyiség is legtöbb feladat jelentősen lassult
Az alapkutatás feladatai 2000/Sec 1600/Sec Sub-linear speed-up 1000/Sec 16 CPUs 10 CPUs 5 CPUs • 1 MB szekvenciális olvasás… • RAM 250,000 ns • hálózat 10,000,000 ns • diszk 30,000,000 ns MEMORY CPU M CPU CPU CPU CPU M M M M CPU CPU CPU CPU CPU Linear speed-up (ideal) CPU • Cost • Security • Integrity control more difficult • Lack of standards • Lack of experience • Complexity of management and control • Increased storage requirements • Increased training cost Number of transactions/second Number of CPUs Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005
Hardver ára: esettanulmányok • Hanzo Archives (UK): Amazon EC2 cloud + S3 • Internet Memory Foundation: 50 low-end szerver • SZTAKI: 25TByte weboldal indexelés • Sok fejlesztés – open source eszközök még nem kiforrottak • 50, ma már asztali kategóriájú gépen 1 hét • Teljes hardver ár kb $15,000; Amazon ár $1000
Eloszott adattárházak NoSQL BigTable MapReduce
Adattárház igény: IT-log Hagyományos megoldások:kudarc Aggregált adatok:adattárház ? Tapasztalat: 30-115 GB/nap3-60 millió esemény teljesítményprobléma,folyamat-optimalizálás rosszindulatú támadás,visszaélés-felderítés
Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics- „significant changes to existing operational and business intelligence infrastructure”
Média Közösségi Multi- Személyre szabott
Web 2.0, …? • Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás • Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) • Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) • Elmozdulás szövegtől a multimédia felé • Glokalizáció (nyelv, geo helyszín) • Felhő, „big data” • Spam; rosszindulatú, önző résztvevők
Egy tipikus szolgáltatás RSS Web 2.0 Ajánló motor client software • Kis képernyő • Gépelés nélkül, profil alapú ajánlás • Blog, hírek, média, …
További alkalmazások Intelligens város, környezet Energiahatékonyság http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
Nagy adatok: Összefoglalás • Több diszciplína: • Adatméretek: architektúrák, algoritmusok • Adatbázis-kezelés: korlátok, új kihívások • Statisztika, intelligencia hálózati környezetben • Az adatbányászat célkitűzései 15 éve • Széles körben, felhő alapon elérhető • Adatok • Elemzési infrastruktúrák
Adatbányászat és Keresés Kutatócsoport Benczúr András Informatika Labor vezető Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál Sidló Csaba Elosztott adattárházak, üzleti intelligencia
Adatbányászat és Keresés Kutatócsoport • Egyedi technológiák extrém adatméretekre • (web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés • viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás • lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok • ajánló rendszerek KDD Cup első helyezés
Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/ benczur@sztaki.hu