330 likes | 409 Views
Data mining az üzleti életben. Üzleti Intelligencia napjainkban. Készítette: Kovács Gyula. Budapest, 2012.02.25. Tartalom. Mi is az adatbányászat? Történeti áttekintés Adatbányászat napjainkban Az algoritmusokról röviden Irányított algoritmusok Irányítatlan algoritmusok
E N D
Data mining az üzleti életben Üzleti Intelligencia napjainkban Készítette: Kovács Gyula Budapest, 2012.02.25
Tartalom • Mi is az adatbányászat? • Történeti áttekintés • Adatbányászat napjainkban • Az algoritmusokról röviden • Irányított algoritmusok • Irányítatlan algoritmusok • Üzleti alkalmazásokról • Churn – egy esettanulmány • Új technológiák
Mi is az adatbányászat? Bár általában adatok elemzésével kapcsolatban használják a fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan egy „esernyő” fogalom, és eltérő jelentéseivel találkozhatunk különböző kontextusokban. Általában üzleti vagy valamilyen más szervezeti trend(ek) azonosításának igényével kapcsolják össze. • „Az implicit, korábban ismeretlen és hasznos információk kinyerése különféle adatokból” (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.) • „Hasznos információk hatalmas adatsorokból vagy adatbázisokból való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X) • Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit. • Az adatbányászat nagy mennyiségű adatok kutatása és elemzése rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques; By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)
Data Mining- MI kutatásoknak célzott hasznosítása Database Technology Statistics MI Data Mining Visualization Information Science Other Disciplines
Adatbányászat napjainkban • A 90-es évek közepén startolt új technológiák – Adattárház, OLAP, Data Mining – piaci elrendeződése lezárult, azonban különböző életciklusba jutottak: • Adattárház – beépült a cégek informatikai rendszerébe, korszerű vállalat szinte elképzelhetetlen megfelelően működő adattárház nélkül • OLAP – túljutott a csúcson – elsősorban a retail szektor alkalmazza, de sok helyen a „sarokban pihen” státuszban található. MOLAP, ROLAP, stb. klónok – be nem váltott remények. • Data Mining – termékek szintjén jelentős konszolidáció történt (Clementine, Enterprise Miner), de az utóbbi években rohamosan nő az Open Source termékek aránya (RapidMiner, Weka, R) • 2005 után az adatbányászat egyre több területet fed le: szövegbányászat, hangbányászat illetve hálózatkutatás a nem strukturált adatok elemzésével foglalkozik. • Egyre több célszoftver jelenik meg. Ezek közül az egyik legsikeresebb terület az ajánló rendszerek (Gravity) megjelenése. • Az interneten keletkező gigantikus adatok új kihívások elé állították a szakembereket (Big Data probléma), illetve a szociális hálózatok megjelenése is új lendületet adott az elemzéseknek (content analyses)
Adatbányászati algoritmusok két nagy csoportba oszthatók – irányított és irányítatlan algoritmusok • Irányítatlan algoritmusok (szegmentáció) • Klaszterező eljárások • Asszociációs szabályok • Idősor elemzések • Irányított algoritmusok (előrejelzés) • Döntési fák • Neurális hálók • Logisztikus regressziók • Genetikai algoritmusok
A B A C B C B Adatbányászati algoritmusok Adatbányászati algoritmusok • Irányított • Arra tesz kísérletet, hogy bizonyos célváltozókat (pl. bevétel, reakciók) megmagyarázzon és kategorizáljon • Algoritmusok: döntési fák, neurális hálók, regresszió, stb. • Irányítatlan • Rekordok csoportjai között keres hasonlóságokat, rejtett mintákat ill. összefüggéseket, előre meghatározott célváltozók nélkül. • Algoritmusok: klaszterezés, asszociációs szabályok keresése, stb.
Irányított algoritmusok • Döntési fa: „Egy struktúra, mely nagy mennyiségű rekordok felosztására alkalmas kisebb részhalmazokra, egyszerű szabályok sorozatos alkalmazásával. A modell olyan szabályokat tartalmaz, melyek segítségével az eredetileg heterogén halmaz kisebb homogén halmazokra bomlik a célváltozó tekintetében.” • Neurális hálók: „Az agykutatás és a mesterséges intelligencia területek egymást inspiráló, és rohamosan fejlődő ágainak közös eredményeként határozható meg a neurális hálók kifejlesztése.” • Regresszió: „A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi.”
Irányítatlan algoritmusok • Klaszterező eljárások: „Olyan eljárások gyűjteménye, melyek lépések megtalálni a hasonló tulajdonsággal rendelkező egyedeket. Az eredmény a kiindulási állapothoz képest egy jóval homogénebb felosztása a teljes sokaságnak.” • Asszociációs szabályok: „Mely termékeket vásárolnak együttesen?” • Idősor elemzések
Operatív megoldások szállítása – nem elemzések DM az üzleti szektorban Rendszerszerű/prediktív alkalmazások Ad-hoc/leíró alkalmazások • Analitikus CRM/kampány menedzsmentet támogató modellek (25%) • Churn előrejelzés – forced és unforced modellek • Termék-affinitás modellek • Ügyfélérték • Szegmentáció (NBS) • (Credit) scoring • Cross-sell modellek • Menedzsment döntések támogatása (64%) • Folyamatok optimalizálása (gyártás/logisztika, ügyfél-kapcsolat, behajtás) • Forecasting • (Szegmentáció, klaszterezés) • Pilot prediktív projektek • Árrugalmasság
Ügyfélérték számítás • Ügyfélérték számítás elsősorban pénzügyi kalkuláció – DE az ügyfélérték alapú szegmensek képzésénél hasznos az adatbányászat • Bizonyos komponensek becslésénél ugyancsak az adatbányászat nyújt segítséget (pl. költségek szétosztása) • Felhasználási terület: • Végső szegmentálás kialakítása • Publikus szabályok kialakítása – minél közelebb a valósághoz
Szükséglet alapú szegmensek • A klaszterező eljárások egy speciális alkalmazása – olyan szegmensek képzése, ahol a hasonló „attitűddel” rendelkező ügyfelek azonos szegmensbe kerülnek • Kétféle megközelítés: adatbányászat és piackutatás • Felhasználási terület: • CRM stratégiák kidolgozása (szegmensekhez kommunikációs stratégiák illetve termékek rendelése) • Kampány menedzselésnél a targetálásnál
Termék-affinitás mérés • Cross-selling helyett – mekkora a valószínűsége, hogy egy ügyfél nyitott egy termék irányába • CRM „gyermeke” – különböző direkt megkereséseknél hatékony mutatószám • Létezik „önkéntes” illetve „irányított” affinitás mutatószám • Felhasználási terület: • Tudatos termékstratégia elkészítése • Direkt kampányok targetálása
Outbound kampányok – használhatóbb modellek CustomerSurvey kutatása alapján 2009-ben az ügyfélmegtartást/ 350 CRM vezető 57%-a sorolta a TOP5 prioritás közé (Forrester) DE … … veszélytelen egy kampány? A Telenor az ügyfélmegtartási kampánya 5%-al csökkentette a churn rátát a célcsoporton belül – de akik visszautasították az ajánlatot, azok körében nőtt a churn ráta a kampány után („sleeping dogs”).
Uplift modellek - tetteink következményét is nézzük! Ne csak az elvándorlási valószínűséget jelezzük előre, hanem a kampány várható reakcióját – milyen mértékben csökkenti az elvándorlási hajlandóságot az ajánlat? A Telenor ún. UPLIFT modell segítségével ki tudta szűrni az ügyfeleknek egy olyan 40%-át, akiknél a kampány nem csökkenti az elvándorlási valószínűséget (sőt!). A kisebb méretű kampány további 1,8%-al csökkentette churn rátát!
MI lesz egy projekt végén? • Elemzések dokumentációja • Prezentáció • Vezetői összefoglaló • Javaslattétel • Hogyan lehet az elemzések eredményeit hasznosítani • Stratégia alkotás • Különböző forgatókönyvek tesztelése – ezek alapján az optimális kiválasztása
Churn előrejelzés mobil szektorban • Egy klasszikus data mining alkalmazás • Korábban postpaid ügyfelekre készítették – napjainkban vannak prepaid megoldások is • Általában rendszerek készülnek belőle – melyek folyamatosan frissítik az elvándorlási valószínűséget • Felhasználási területek: • Proaktív tevékenység támogatása • Különböző folyamatok monitorozása • Előrejelzés
Mi is a churn? Churn valószínűség Várható élettartam Churn előrejelzés Mekkora annak a valószínűsége, hogy egy ügyfél elvándorol a közel jövőben? Egy adott ügyfél várhatólag még hány hónapig lesz ügyfél az adott vállalatnál. Az elkövetkező időszakban hány ügyfél fogja elhagyni az adott szolgáltatót? Klasszikus data mining feladat. Hagyományosan irányított algoritmusok segítségével történik a modellezés Igazából nem data mining feladat – komoly statisztikai módszertanok készültek erre. Az ügyfélérték számításhoz kell. Statisztikai (regressziós) eljárások segítségével viszonylag pontos becslések adhatók. Pénzügyi tervezésnél fontos.
Hasonló – de mégsem ugyanaz ÜGYFÉLELÉGEDETTSÉG – LOJALITÁS – ELVÁNDORLÁSI VALÓSZÍNŰSÉG Kutatás: Adatbányászat: Lojalitás magas Elvándorlók% Elégedettség magas alacsony Teljes sokaság% alacsony
Egy gyakorlati példa 1. Üzleti probléma: megnőtt az churn ráta – csökkenteni kellene • 2. Több megoldás is felmerült: • tarifa elemek megváltoztatása • kérdőíves kutatás az okol felderítésére • proaktív hatékonyság növelése Szükség lenne egy churn előrejelző rendszerre a következő paraméterekkel: … (adatbányászati projekt) • 3. Hogyan növelhető a hatékonyság? • több operátor alkalmazása • operátorok képzése • jobb targetálás
Mit is akarunk a projekttől? Általános (piackutatás) Ügyfélszintű (data mining) A szolgáltatók között hogyan vándorolnak az ügyfelek? XXX Miért mennek el az adott szolgáltatótól az ügyfelek? XX X Hogyan lehet csökkenteni az adott szolgáltatótól az ügyfélelvándorlást? XX X Interakciók (ezen belül proaktív csoport) ügyfélmegtartó erejének növelése XX X Churn modellek kifejlesztése, implementálása XX
Strukturált adatok – a jéghegy csúcsa Újfajta adatforrások jelennek meg – nem strukturált adatok integrálása az adattárházakba (szöveg, hang, hálózat)
Nem strukturált adatok kinyerése már nem álom Az elmúlt években számos magyar innováció fejeződött be text, illetve voice mining témában – az eredmények Mindroom (Digital Natives) Voice Miner (Nextent Zrt. ) Text mining (SPSS Magyarország Kft.) Hangbányászat I: spontán beszédre, telefonos közegben (zajos háttér), tartalom független -> kulcsszó és érzelem detektálás Szövegbányászat: egy szöveg értelmezése, pozitív vagy negatív véleményt tükröz az adott szöveg -> szöveg érttelmezése Hangbányászat I: csak jó minőségű videó anyagokon, beszélőre való adaptálással (tanítással), és tartalom függő -> szövegfelismerés Leírás Szöveg értelmezése (poz/neg) Szöveg Kulcsszó Érzelem Teljesítmény
Szövegbányászat A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt (bővebben: http://www.vazsonyi.hu/szovegbanyaszat/) Célja: jelentéstartalmak felismerése Attribútuma: öntanuló (lásd AI) és képes információ strukturálásra kategorizál tömörít releváns keresés újdonság detekció
Inbound kampányok – új kihívások 124 marketing vezető közül közel 60% válaszolta, hogy már van tudatos inbound kampánya legalább egy csatornán, további 27% tervezte egy éven belül (Forrester, 2008). DE … A válaszadók 28%-a szerint cége látókörébe kerülhet a real-time alkalmazás. Az inbound kampány targetálásánál a real-time scoret csak 5% tervezi használni Forrás: SPSS N = 50 Forrás: Forrester N = 43
Real-Time Decision: az interakció alatt keletkező adatok is értékesek (sőt!) -> azonnal építsük be döntéseinkbe Inbound megkeresés Real-time decision • Termékeket ajánl real-time az üzleti szabályok és prediktív modellek alapján az adott kontextus függvényében • Az ajánlat eredménye alapján a modellek automatikusan frissülnek (self-learning) • Megtartás és keresztértékesítés együtt • Ügyfél felveszi a kapcsolatot a szolgáltatójával (pl. betelefonál) • Közli az okot, ami miatt a szolgáltatóhoz fordult (pl. panasz, új termék vásárlás, stb.) • Az ügyintéző kiszolgálja, és rögzíti az alaprendeszerben
CHURN – www.churn.hu Voice Mining – www.voiceminer.hu Text Mining – www.spss.hu Gráf Mining – www.sixtep.hu linkek