1 / 24

Nagy adatok – mindenkinek

Nagy adatok – mindenkinek. Benczúr András MTA SZTAKI Informatika Kutató Laboratórium. IVSZ – Jövő Internet Workshop 2011. November 4. Nagy adatok. Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek. E xtrém méretű adatok , „big data”.

lanza
Download Presentation

Nagy adatok – mindenkinek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop 2011. November 4.

  2. Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek

  3. Extrém méretű adatok, „big data” • Web (100G oldal, 1-10 KB, Internet Achívum 200TB/2hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden • Emberi gének (3 milliárd bázispár) • ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet • Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags • Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság

  4. Extrém adatméretek: korlátok • Hardware képessége 18 havonta duplázódik • Adatmennyiség még gyorsabban növekszik • Külső tár elérési sebessége sokkal lassabban nő • Elosztott környezet architekturálisan még nehéz maradt

  5. Extrém adatméretek: korlátok Pl. 1997 és 2003 között megharmincszorozódott a teljesítmény … Folytatás már sokkal nehezebb: many-core

  6. Extrém adatméretek: korlátok Google AllTheWeb Inktomi AltaVista Teoma de 1997 és 2003 között megharmincszorozódott az adatmennyiség is  legtöbb feladat jelentősen lassult 

  7. Az alapkutatás feladatai 2000/Sec 1600/Sec Sub-linear speed-up 1000/Sec 16 CPUs 10 CPUs 5 CPUs • 1 MB szekvenciális olvasás… • RAM 250,000 ns • hálózat 10,000,000 ns • diszk 30,000,000 ns MEMORY CPU M CPU CPU CPU CPU M M M M CPU CPU CPU CPU CPU Linear speed-up (ideal) CPU • Cost • Security • Integrity control more difficult • Lack of standards • Lack of experience • Complexity of management and control • Increased storage requirements • Increased training cost Number of transactions/second Number of CPUs Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005

  8. Hardver ára: esettanulmányok • Hanzo Archives (UK): Amazon EC2 cloud + S3 • Internet Memory Foundation: 50 low-end szerver • SZTAKI: 25TByte weboldal indexelés • Sok fejlesztés – open source eszközök még nem kiforrottak • 50, ma már asztali kategóriájú gépen 1 hét • Teljes hardver ár kb $15,000; Amazon ár $1000

  9. Eloszott adattárházak NoSQL BigTable MapReduce

  10. Adattárház igény: IT-log Hagyományos megoldások:kudarc Aggregált adatok:adattárház ? Tapasztalat: 30-115 GB/nap3-60 millió esemény teljesítményprobléma,folyamat-optimalizálás rosszindulatú támadás,visszaélés-felderítés

  11. Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics- „significant changes to existing operational and business intelligence infrastructure”

  12. Média Közösségi Multi- Személyre szabott

  13. Web 2.0, …? • Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás • Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) • Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) • Elmozdulás szövegtől a multimédia felé • Glokalizáció (nyelv, geo helyszín) • Felhő, „big data” • Spam; rosszindulatú, önző résztvevők

  14. Egy tipikus szolgáltatás RSS Web 2.0 Ajánló motor client software • Kis képernyő • Gépelés nélkül, profil alapú ajánlás • Blog, hírek, média, …

  15. Tartalom, kapcsolatok, vírusmarketing

  16. További alkalmazások Intelligens város, környezet Energiahatékonyság http://www.smartsantander.eu/images/IoT_Comic_Book.pdf

  17. Szenzorok városokban, épületekben

  18. Szenzorok a mezőgazdaságban

  19. GPS trajektória, fizikai & virtuális valóság

  20. Nagy adatok: Összefoglalás • Több diszciplína: • Adatméretek: architektúrák, algoritmusok • Adatbázis-kezelés: korlátok, új kihívások • Statisztika, intelligencia hálózati környezetben • Az adatbányászat célkitűzései 15 éve • Széles körben, felhő alapon elérhető • Adatok • Elemzési infrastruktúrák

  21. Adatbányászat és Keresés Kutatócsoport Benczúr András Informatika Labor vezető Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál Sidló Csaba Elosztott adattárházak, üzleti intelligencia

  22. Adatbányászat és Keresés Kutatócsoport • Egyedi technológiák extrém adatméretekre • (web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés • viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás • lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok • ajánló rendszerek KDD Cup első helyezés

  23. Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/ benczur@sztaki.hu

More Related