210 likes | 367 Views
Big data a hivatalos statisztikában kihívások és lehetőségek. Mag Kornélia 2014. február 25. Mi az a big data?. A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le:
E N D
Big data a hivatalos statisztikábankihívások és lehetőségek Mag Kornélia 2014. február 25.
Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it-glossary/big-data/) Más definíciók: • „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” • „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapúformokból, PDF-ekből, e-mailekből és egyéb formátumú dokumentumokból származik” (IBM)
Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: • Adminisztratív(forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) • Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. • Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. • Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. • Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) • Vélemény, pl. hozzászólások a közösségi médiában, stb.
Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek 1900. E-Mail Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya
Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika • Csökkenő válaszadási készség • Csökkenő erőforrások • Új adatigények • Gyorsabb adatközlési elvárások • Jó minőségű adatok VERSENY!
Miért foglalkozik a hivatalos statisztika big datával? – mi a válasz? Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika • Az infokommunikációs technológiák legújabb fejlesztései a gazdasági és a társadalomi folyamatok egyre növekvőbb mértékű digitalizálódását eredményezte mely új lehetőségeket nyit meg a statisztikák előállításában. • A big data hatékony statisztikai célú felhasználása számos kihívás elé állítja az Európai statisztikai Rendszert. • Egyre növekszik az igény a jó minőségű, költséghatékony módon előállított, időszerű statisztikák iránt, ugyanakkor az egyre csökkenő válaszadási hajlandóságra új megoldásokat kell kidolgozni. • A hivatalos statisztikák tervezésekor a különböző lehetséges adatforrásokat, így a Big Data-t is, a lehető legnagyobb mértékben be kell vonni. • A big data egyik legfőbb jellegzetessége, hogy nem kötődik országhatárokhoz, így egyedülálló lehetőséget biztosít mind európai mind pedig globális szinten az együttműködésre. Számos európai kezdeményezés kapcsolódik a big data-hoz, beleértve az európai Bizottság Európai adat értéklánc stratégiájának kidolgozására vonatkozó törekvését, az EU adatvédelmének megújítását és a Horizon 2020 programot. • A 2013-2017-es Európai Statisztikai Munkaprogram egyik célkitűzése az európai statisztikák új előállítási módjainak a megvalósítása, valamint célul tűzte ki a hatékonyság és minőség növelését, az időszerűség javítását.
Hogyan használhatjuk a big data-t a hivatalos statisztikában? • Elsődleges adatforrást helyettesítő adatforrásként • Adatforrások kiegészítésére • Modell alapú becslések magyarázó változóiként • Adatok validálására
Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. • Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) • Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) • Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) • Menedzsment kérdések • Módszertani megoldások • Technológiai megoldások
Módszertani kihívások • Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) • Hogyan tudjuk feldolgozni az adatokat? • Adat-összekapcsolási problémák (~n2összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) • Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) • Adathiányok, outlierek kezlése
IT kihívások • Adatok fogadása? • Adatok tárolása: kell tárolni a beérkezett adatokat? • Feldolgozás sebessége? • Feldolgozás módja?
Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) • Hagyományos tárolási megoldások nem működnek • A mikro adatokat tárolunk vagy aggregátumot? • A minőség napról napra változhat • Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat • A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni • Nem statisztikusokra hanem adattudósokra van szükség • Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk
Hollandia 1. – Közösségi oldalak felhasználhatósága • Twitter, Facebook, YouTube, LinkedIn, blogok, stb. • közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata • Statisztikai célú felhasználási lehetőségek: • Adminisztratív terhek mérése: ilyen tartalmú szövegek keresése
Hollandia 1. - folytatás 2. Érzelmek mérése: • 2010. június- 2012. augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) • A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal
Hollandia 2.: Nemzeti adattárház a forgalmi adatokról • 24 különböző útfenntartó hatóság adatait használja Road authorities • Több mint 6000 km hosszú úthálózatra vonatkozóan gyűjt adatokat Percenként több, mint 24ezer adatot gyűjtenek be és dolgoznak fel az utak forgalmára vonatkozóan és 75 másodpercen belül közzéteszik. Fő céljuk: dugók elkerülése, utak biztonságosabbá tétele • Autósávonkénti forgalmi adatok • Autósávonkénti utazási idő • Gépjármű kategóriánkénti utazási idő
Hollandia 2. folytatás A sebességre, autók számára, és utazási időre percenként átlagosan 460 ezer adatot gyűjtenek be és dolgoznak fel, valamint a hozzájuk tartozó meta adatokat (hely, idő, gépjármú hossza, stb.) Szállítás statisztikai adatok becslése CBS tapasztalatai: 1 napnyi adatmennyiség feldolgozása alapján – 3 hónapig tartott
Észtország: Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: • napi ingázási adatok • napközbeni népesség meghatározása • Turizmus adatok becslése
MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból http://bpp.mit.edu/usa/ http://www.pricestats.com/us-series
Hogyan tovább…? • UNECE: projekt indult a big data statisztikai alkalmazására (KSH tag) • Módszertani megalapozás • Konkrét adatkörön tesztelés • Szabad-forráskódú IT megoldás kidolgozása, tesztelése • Eurostat: Task Force jött létre • Árstatisztika és IKT felhasználás területén konkrét tesztelések • KSH: Big data koncepció: projektek indítása (2014-) • Alapfogalmak lefektetése • Helyzetfemérés (költség-haszon elemzés)
Legfontosabb referenciák a hivatalos statisztika területén • UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170622) • UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data) • UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#) • DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/) • ISI conference 2013: Session IPS106: Big data • Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014) • UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project) • …….