200 likes | 338 Views
SVM alkalmazása churn előrejelzésre. Churn előrejelzés 2007. Előadók: Kovács Gyula – Data Research Kft. Tartalom. Churn előrejelzés – feladat ismertetése Történeti áttekintés 1997-2007 Ami a churn modellekről tudni kell Churn modellek 2007-ben Hogyan javítható a churn előrejelzés
E N D
SVM alkalmazása churn előrejelzésre Churn előrejelzés 2007 Előadók: Kovács Gyula – Data Research Kft.
Tartalom • Churn előrejelzés – feladat ismertetése • Történeti áttekintés 1997-2007 • Ami a churn modellekről tudni kell • Churn modellek 2007-ben • Hogyan javítható a churn előrejelzés • Adatok • Megtarthatóság vizsgálata • Új algoritmus alkalmazása • Teszt eredmények ismertetése – KTM és a többi
Churn előrejelzés - PREDIKCIÓ Feladat: egy olyan modell előállítása, mely az ügyfelekről rendelkezésre álló adatok alapján megmondja annak a valószínűségét, hogy az adott ügyfél szerződése megszűnik a közeljövőben • Megválaszolandó kérdések: • milyen elvándorlást jelzünk előre („forced” vagy „unforced”) • milyen időintervallumra jelzünk előre • mit is jelzünk előre pontosan – elvándorlás és megtarthatóság kapcsolata • milyen rendszerességgel kell kiszámolni a churn valószínűségeket - milyen adatokat építhetünk be a modellbe • hogyan értékeljük ki a modelleket • az elvándorlási valószínűség alapján legyen ügyfél szegmentáció és az milyen alapelvek alapján
Churn előrejelzés – 1997-2007 Speciális mintán érdekes összefüggések feltárása, DM algoritmusokkal való ismerkedés – churn modellek fiókban 1997-1999 „Tanulás” Első churn modellek illetve rendszerek kifejlesztése. Viszonylag kevés adat és egyéb okok miatt a modellek nem tudtak stabil teljesítményt adni. 2000-2002 „Úttörők” Korábbi projektek tapasztalatainak felhasználásával illetve az új adatok beépítésével egyre stabilabb modellek kerültek előállításra (szerződés+viselkedés adat). CRM rendszerekkel való integráció elkezdődik „Stabil rendszerek” 2003-2005 Szinte minden bank és telekommunikációs vállalatnak van saját churn rendszere – többségük CRM rendszerrel integrálva. Új CRM adatok a modellekbe. 2006- „CRM”
Churn előrejelzés napjainkban ELTERJEDTSÉG: legtöbb telekommunikációs cégnek és banknak van saját churn előrejelző rendszere MINŐSÉG: a modellek minősége között jelentős eltérések tapasztalható. Vannak 6-7 éve fejlesztett viszonylag elavult modellek, frissen fejlesztett egyszerű modellek és vannak igen stabil, professzionális churn rendszerek. A modellek többsége statikus – azaz egy projekt eredményeként előállt modell nem változik időben. TECHNOLÓGIA: A technológia szint nem változott – továbbra is modellek többsége logisztikus regresszióval kerül kiszámolásra. Az sem ritka, hogy a churn modellek „kézzel”, adatbányászati elemzések nélkül készülnek. ADATOK: az adattárházban tárolt adatok elérhetők a modellek számára, így a modellek minőségét befolyásolja az adattárház feltöltöttsége is. Általában szerződéssel kapcsolatos adatok és ügyfél viselkedésével kapcsolatos adatok rendelkezésre állnak, de ügyfélszolgálattal való interkaciók nem SCOPE: Churn valósszínűségek havonta frissülnek, az előrejelzések mindig a következő hónapokra vonatkoznak. ALKALMAZÁS: (a) proaktív csoport ez alapján válogat le, (b) kampány targetálásnál ezen információ felhasználása, (c) CRM folyamtokba integrálása. Legtöbb esetben a churn modellek alklamazása nincs átgondolva – „üresen dolgozik”.
GYAKORLATBAN Átlagos churn ráta: 1,5% Churn ráta az első 1%-ban: 17,3% (LIFT: 11,5) Churn ráta az első 10%-ban: 9,5% (LIFT: 6,3) Churn modellek teljesítményének mérései Az ügyfelek sorbarendezése churn valószínűség szerint – majd kiszámolható ez alapján elkészíthető a churn modell teljesítmény görbéje. A görbe megmutatja, hogy a sorbarendezés után az első 1, 2, 3 %-ba az összes elvándorló hány százaléka esik.
Modellek teljesítménye (első 1% LIFT értéke) CHURN MODELL Nincs hűség szerződés Van hűség szerződés LIFT: 4-6 LIFT: 8-15 Vezetékes cégek és bankok Mobil cégek
Hogyan lehet javítani az ügyfél megtartást? Ügyfél elvándorlás komplex kezelése: egy téves szemléletmód változtatása, azaz az elvándorlás előrejelzése önmagában nem csökkenti az elvándorlás -> elvándorlási folyamat komplex kezelése részprobléma • Előrejelzés pontossága hogyan javítható: • Új adatok integrálása a modellbe (CRM adatok, Voice Mining, stb.) • Szűrés a megkeresés közben – GUIDE • MODELLEZÉS ÚJ ALGORITMUSSAL
1000-ből mennyi vándorol el megkeresés után 1000 megkeresésből hányat tartunk meg 7 45 = 18 7 = Elvándorlás vs. megtarthatóság A churn modellek általában kiszámolják, hogy mekkora annak a valószínűsége, hogy az adott ügyfél elmegy 22-es csapdája Probléma: a churn modell a múltbeli adatok alapján kalkulál – nem tudja kalkulálni a jövőben történő eseményeket: pl. proaktív megkeresést. 1000-ből mennyire vándorol el A szegmens 52 25 B szegmens
Churn előrejelzés javítása – új adatok (CRM) Az elmúlt években komoly CRM fejlesztések történtek a telekommunikációs és banki szektorban – ennek eredményeként rendelkezésre állnak ügyfél-ügyfélszolgálati interakciók is. Az interakciók után közvetlenül az ügyfelek 10-15%-nál azonnal érdemes átírni a churn valószínűséget (pl. magas elvándorlási valószínűség ügyfél egy új szolgáltatásra regisztrál vagy alacsony churn valószínűségű panaszkodik) interakció A tapasztalatok azt mutatják, hogy ezek az események önmagukban jelentősen felülírják az ügyfél elvándorlási valószínűségét -> azonnali frissítés indokolt
Churn előrejelzés javítása – új adatok (Voice Mining) Voice Mining rendszerek az összes hanganyagot feldolgozzák, az ebből kinyert információk ugyancsak felhasználható a churn valószínűség számításánál. LEHETSÉGES ALKALMAZÁS: 1. FRAUD RENDSZER - (magas churn valószínűségre állítás), amennyiben az ügyfél ingerülten fejezte be a telefonálást 2. CHURN MODELL – az ügyfélről rendelkezésre áll egy „history” rekord az elmúlt időszak interakcióiról (pozitív és negatív élmények külön tárolva) – ezen információk beépíthetők a churn modellbe. interakció Hanganyag Az adott ügyfélnek hány interakciója volt, ebből hány pozitív illetve negatív érzelmi skálájú
Churn előrejelzés javítása – GUIDE A churn valószínűség tovább finomítható az interakció közben – útmutató az ügyfélszolgálatosoknak! LEVÁLOGATÁS CHURN MODELL ALAPJÁN MEGOLDÁS – megtartási ajánlat előtt tegyünk fel 2-3 olyan kérdést, ami alapján tovább szűrhető a minta. Alapsokasági churn ráta: 2% A churn modell segítségével leváloghatható 2.000 ügyfél úgy, hogy körükben a churn ráta 20%. Mennyire elégedet az X szolgáltatással 450 1.550 Ön szerint mennyire drága a szolgáltatója? Nagyon elégedett: 2% 650 900 1.600olyan ügyfél is bekerült a leválogatásba, aki nem akar elmenni!!! 548 ügyfél kap „fölöslegesen” ajánlatot Nem drága/olcsó: 6%
Churn előrejelzés javítása – új algoritmus JELEN JÖVŐ • A churn modellek többsége logisztikus regresszióval készül. • Előnyei: • Általában a legjobb teljesítményt adja • Nem fekete doboz – az eredmény modellek jól értelmezhetők (mik a kulcs változók előrejelzés szempontjából) • Nem kell külön adatbányászati szoftver Nemzetközi benchmarkok azt mutatják, a korábban szinte kizárólag logisztikus regressziót fokozatosan felváltják az SVM algoritmusok. Ennek oka: hogy egyre jobb SVM algoritmusok kerülnek kifejlesztésre, a futási idő fokozatosan javul, a modellek nem annyira robosztusak és a „fekete doboz” stáusz is egyre kevésbé jellemző rá.
Teszt környezet leírása I. 3 teszt adatbázis Mobil (prepaid) Vonalas ISP Üzletág 87.334 34.775 310.134 Rekordszám Változók száma 89 146 44 4,2% 1,2% 1,8% Churn ráta Nem Igen Nem Hűségszerződés
+14% Teszt eredmény – prepaid mobil KTM 14%-al több churn-ölőt talált TOP1%-on, mint a második (NH) helyezett a (+21-el több churnölő) Churn% Rekord: Változó 310.000 44 1,8% TOP1% TOP10% LIFT teszt teszt
+30% Teszt eredmény – vonalas KTM 30%-al több churn-ölőt talált TOP1%-on, mint a második (LR) helyezett a (+27-el több churnölő) Churn% Rekord: Változó 87.000 89 4,2% TOP1% TOP10% LIFT teszt teszt
+23% +43% Teszt eredmény – ISP KTM 23%-al több churn-ölőt talált TOP1%-on, mint a második (NH) helyezett a (+24-el több churnölő) Churn% Rekord: Változó 34.000 146 1,2% TOP1% TOP10% LIFT teszt teszt
Konkúzió • KTM algoritmus átlagosan 14-30%-al ad jobb teljsítményt a TOP1%-on, mint a többbi algoritmus. Volt olyan tanító adatbázis, ahol a logisztikus regressziós modellnél 43%-al több churn-ölőt talált a TOP1%-on. • A teszt adatbázisokon hasonló fölény tapasztalható, mint a tanító adatbázison, itt 11-20%-al ad jobb modellt. Ez azt jelenti, hogy a KTM „hajlamosabb” egy kicsit a túltanulásra – de ez általában az SVM algoritmusoknak is sajátja. • Minél több a változók illetve rekordok száma, annál nagyobb a különbség a KTM és a többi modell teljesítménye között.