1 / 20

Big data a hivatalos statisztikában kihívások és lehetőségek

Big data a hivatalos statisztikában kihívások és lehetőségek. Mag Kornélia 2014. február 25. Mi az a big data?. A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le:

nancy
Download Presentation

Big data a hivatalos statisztikában kihívások és lehetőségek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Big data a hivatalos statisztikábankihívások és lehetőségek Mag Kornélia 2014. február 25.

  2. Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it-glossary/big-data/) Más definíciók: • „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” • „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapúformokból, PDF-ekből, e-mailekből és egyéb formátumú dokumentumokból származik” (IBM)

  3. Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: • Adminisztratív(forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) • Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. • Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. • Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. • Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) • Vélemény, pl. hozzászólások a közösségi médiában, stb.

  4. Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ)  – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek 1900. E-Mail Hagyományos üzleti rendszerek (folyamat által közvetített adatok)  – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya

  5. Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika • Csökkenő válaszadási készség • Csökkenő erőforrások • Új adatigények • Gyorsabb adatközlési elvárások • Jó minőségű adatok VERSENY!

  6. Miért foglalkozik a hivatalos statisztika big datával? – mi a válasz? Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika • Az infokommunikációs technológiák legújabb fejlesztései a gazdasági és a társadalomi folyamatok egyre növekvőbb mértékű digitalizálódását eredményezte mely új lehetőségeket nyit meg a statisztikák előállításában. • A big data hatékony statisztikai célú felhasználása számos kihívás elé állítja az Európai statisztikai Rendszert. • Egyre növekszik az igény a jó minőségű, költséghatékony módon előállított, időszerű statisztikák iránt, ugyanakkor az egyre csökkenő válaszadási hajlandóságra új megoldásokat kell kidolgozni. • A hivatalos statisztikák tervezésekor a különböző lehetséges adatforrásokat, így a Big Data-t is, a lehető legnagyobb mértékben be kell vonni. • A big data egyik legfőbb jellegzetessége, hogy nem kötődik országhatárokhoz, így egyedülálló lehetőséget biztosít mind európai mind pedig globális szinten az együttműködésre. Számos európai kezdeményezés kapcsolódik a big data-hoz, beleértve az európai Bizottság Európai adat értéklánc stratégiájának kidolgozására vonatkozó törekvését, az EU adatvédelmének megújítását és a Horizon 2020 programot. • A 2013-2017-es Európai Statisztikai Munkaprogram egyik célkitűzése az európai statisztikák új előállítási módjainak a megvalósítása, valamint célul tűzte ki a hatékonyság és minőség növelését, az időszerűség javítását.

  7. Hogyan használhatjuk a big data-t a hivatalos statisztikában? • Elsődleges adatforrást helyettesítő adatforrásként • Adatforrások kiegészítésére • Modell alapú becslések magyarázó változóiként • Adatok validálására

  8. Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. • Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) • Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) • Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) • Menedzsment kérdések • Módszertani megoldások • Technológiai megoldások

  9. Módszertani kihívások • Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) • Hogyan tudjuk feldolgozni az adatokat? • Adat-összekapcsolási problémák (~n2összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) • Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) • Adathiányok, outlierek kezlése

  10. IT kihívások • Adatok fogadása? • Adatok tárolása: kell tárolni a beérkezett adatokat? • Feldolgozás sebessége? • Feldolgozás módja?

  11. Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) • Hagyományos tárolási megoldások nem működnek • A mikro adatokat tárolunk vagy aggregátumot? • A minőség napról napra változhat • Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat • A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni • Nem statisztikusokra hanem adattudósokra van szükség • Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk

  12. Hollandia 1. – Közösségi oldalak felhasználhatósága • Twitter, Facebook, YouTube, LinkedIn, blogok, stb. • közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata • Statisztikai célú felhasználási lehetőségek: • Adminisztratív terhek mérése: ilyen tartalmú szövegek keresése

  13. Hollandia 1. - folytatás 2. Érzelmek mérése: • 2010. június- 2012. augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) • A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal

  14. Hollandia 2.: Nemzeti adattárház a forgalmi adatokról • 24 különböző útfenntartó hatóság adatait használja Road authorities • Több mint 6000 km hosszú úthálózatra vonatkozóan gyűjt adatokat Percenként több, mint 24ezer adatot gyűjtenek be és dolgoznak fel az utak forgalmára vonatkozóan és 75 másodpercen belül közzéteszik. Fő céljuk: dugók elkerülése, utak biztonságosabbá tétele • Autósávonkénti forgalmi adatok • Autósávonkénti utazási idő • Gépjármű kategóriánkénti utazási idő

  15. Hollandia 2. folytatás A sebességre, autók számára, és utazási időre percenként átlagosan 460 ezer adatot gyűjtenek be és dolgoznak fel, valamint a hozzájuk tartozó meta adatokat (hely, idő, gépjármú hossza, stb.) Szállítás statisztikai adatok becslése CBS tapasztalatai: 1 napnyi adatmennyiség feldolgozása alapján – 3 hónapig tartott

  16. Észtország: Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: • napi ingázási adatok • napközbeni népesség meghatározása • Turizmus adatok becslése

  17. További példák…

  18. MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból http://bpp.mit.edu/usa/ http://www.pricestats.com/us-series

  19. Hogyan tovább…? • UNECE: projekt indult a big data statisztikai alkalmazására (KSH tag) • Módszertani megalapozás • Konkrét adatkörön tesztelés • Szabad-forráskódú IT megoldás kidolgozása, tesztelése • Eurostat: Task Force jött létre • Árstatisztika és IKT felhasználás területén konkrét tesztelések • KSH: Big data koncepció: projektek indítása (2014-) • Alapfogalmak lefektetése • Helyzetfemérés (költség-haszon elemzés)

  20. Legfontosabb referenciák a hivatalos statisztika területén • UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170622) • UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data) • UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#) • DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/) • ISI conference 2013: Session IPS106: Big data • Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014) • UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project) • …….

More Related