430 likes | 554 Views
MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL. Petr Jedlička. Obsah prezentace. Úvod do problematiky nepojištěných vozidel v ČR role ČKP, GF, zákony apod. Odhad počtu provozovaných nepojištěných vozidel Charakteristiky nepojištěných škůdců
E N D
MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL Petr Jedlička
Obsah prezentace • Úvod do problematiky nepojištěných vozidel v ČR • role ČKP, GF, zákony apod. • Odhad počtu provozovaných nepojištěných vozidel • Charakteristiky nepojištěných škůdců • Mnohorozměrné statistické metody • Logistická regrese, diskriminační analýza, • Shluková analýza • Numerické ilustrace výsledků analýz ČKP
Česká kancelář pojistitelů • Zřízena zákonem 168/1999 Sb. • Hlavní úkoly ČKP • Spravuje Garanční fond (GF) • Informační středisko • Korespondenční dohody v systému zelené karty • Databáze pojistných smluv • Elektronické relace o dopravních nehodách • Databáze škod („Registr špatných řidičů“) • Od roku 2007 ostrý pilotní provoz • Více viz www.ckp.cz
Vozidla bez sjednaného pojištění • Nehody zaviněné nepojištěnými řidiči • Vznik škody třetí osobě • Odpovědnost nepojištěného škůdce • Poškozenému škodu kompenzuje ČKP z GF • ČKP hradí veškeré škody nad 5 000 Kč • Právo postihu • Uplatňuje ČKP proti nepojištěnému škůdci
Statistiky nepojištěných škod • Významný meziroční nárůst • Celkových závazků z nepojištěných škod • Objemu vyplaceného plnění • Počet evidovaných škod se stabilizuje • Od roku 2004 ČKP tvoří technické rezervy • Standardní pravidla jako pro pojišťovny • Do roku 2004 pouze v podrozvahové evidenci • Problém odhadu velikosti „kmene“ nepojištěných
Pojištěná vozidla – databáze ČKP • Předávání dat pojistitelé vs. ČKP • Cca. 5,7 mil. pojištěných vozidel k 31.12.2006 • Předávané údaje: • Smlouva: pojistitel, počátek pojištění konec, pojistné… • Vozidlo • SPZ, VIN, číslo TP • Tarifní skupina, výkon, objem motoru, hmotnost, značka… • Provozovatel, vlastník • Liší se např. u vozidel pořízených na leasing
Nepojištěná vozidla • Cíl: minimalizovat počet nepojištěných v ČR • Detekce na základě srovnání dat CRV a ČKP • Pravidla ztotožňování vozidel ČKP a CRV • Shoda alespoň ve 2 identifikátorech • SPZ, VIN, číslo TP • V případě zániku pojištění a jeho neobnovení ve stanovené lhůtě: • ČKP informuje orgány místní samosprávy • Ty mohou uložit pokutu do výše 20 tis. Kč
Odhad uvedený často v médiích • Rozdíl počtu registrovaných a pojištěných vozidel • Vychází 13% nepojištěných vozidel v ČR • Nejedná se o adekvátní odhad • Data pojistitelů a CRV nejsou vždy konzistentní • Velké množství nepoužívaných vozidel v datech CRV
Porovnání s počtem nepojištěných škod • Nelze použít univerzálně • Všechny nepojištěné škody nemusí být hlášeny • Problematický odhad škodní frekvence: o kolik je nižší než u pojištěných vozidel?
Výsledné porovnání vozidel ČKP a CRV • Odhadovaný počet nepojištěných provoz.vozidel 180 až 380 tis. • Odpovídá podíl 3,2% až 6,4% všech provozovaných vozidel
Přehled analýz fenoménu nepojištěných • Rok 2004: nepojištěné škody • Srovnání charakteristik s pojištěnými vozidly • Aktualizace v roce 2005 • Rok 2006: Analýza počtu skutečně provozovaných nepojištěných vozidel • Výsledek v předchozím diagramu • Počet skutečně provozovaných nepojištěných vozidel v rozmezí 180 až 380 tis. • Ztotožňování vozidel + statistické srovnání
Mnohorozměrné statistické metody • Aplikace při analýze nepojištěných škod • Sledování rizikových znaků nepojištěných • Regionalita • Věk • Charakteristiky vozidla • Použité metody • Logistická regrese • Diskriminační analýza • Shluková analýza
Logistická regrese • Speciální případ GLM (viz SAV LS 2005/2006) • Binární vysvětlovaná proměnná • 1 = výskyt rizikového znaku (např. nepojištěný) • 0 = ostatní data • Klasická regrese: • Logistická regrese: • Poměr šancí: • Definice:
Logistická regrese – odhady parametrů • Klasická regrese • odhad MNČ • V modelu odpovídá MLE odhadu • odhad nárůstu při jednotkové změně • Logistická regrese • Logitová funkce • Interpretace index nárůstu poměru šance při jednotkové změně
Logistická regrese - ML odhady • Odvození věrohodnostní funkce • Logaritmická věrohodnostní funkce • Soustava věrohodnostních rovnic speciálně
Logistická regrese – testování hypotéz • Řešením soustavy získáme ML odhady • Asymptotická normalita odhadu • Fisherova informační matice • Testování významnosti parametrů Test poměrem věrohodnosti
Logistická regrese – použití • Ohodnocení • Počet správně zatříděných dat • Porovnání a • (čtyřpolní tabulka) • Problém při rozdílné velikosti skupin 0 a 1 • Predikce téměř všech hodnot do početnější skupiny není užitečná • Řešení:Určit váhy tak, aby # 0 a # 1 byl srovnatelný
Logistická regrese - diagnostika • Distribuční funkce hodnocení „dobrých klientů“ • Distribuční funkce hodnocení „špatných klientů“ • Kvalitní model: Velký rozdíl mezi • Integrální kritérium • Supremální kritérium • Lorentzova křivka • Giniho koeficient
Logistická regrese – test dobré shody • Hosmer – Lemeshow test • Zvolíme • Data rozdělíme do skupin • Hranice pro zatřídění do skupiny . Platí • Na určené skupiny se aplikuje test dobré shody • Lze definovat „Lift Chart“ nebo
Lift Chart • Srovnání distribuce dobrých a špatných klientů • Křivka podílového kritéria • pro • STATISTICA definuje převrácenou hodnotou:
Výpočty odhadů parametrů • Použit software STATISTICA • (GLZ, Non linear estimation) • Numerické metody na řešení soustavyvěr. rovnic • Quasi Newtonova metoda • Hooke-Jeeves • Simplex • Rosenbrock… • Možno zvolit počáteční odhady, kritérium konvergence • Čas výpočtu v řádu hodin pro desítky tisíc dat
Diskriminační analýza • Predikce zatřídění objektu do některé z předem daných skupin • Neomezuje se pouze na binární klasifikaci • Předpoklady • Normalita vysvětlujících veličin • Apriorní pravděpodobnosti • Výpočet diskriminačního skóru
Diskriminační analýza - odhady • dáme do třídy s maximální hodnotou • Standardní odhady parametrů na základě souboru dat • Apriorní pravděpodobnosti • Vektor středních hodnot • Rozptylové matice • Často se předpokládá lineární skór Odhad
Diskriminační analýza - implementace • Sw. STATISTICA zahrnuje moduly • Klasická diskriminační analýza • Zobecněná diskriminační analýza GDA • GDA • Zeslabuje předpoklad mnohorozměrné normality podkladových dat • Umožňuje pracovat s kategorickými vysvětlujícími proměnnými
Příklady výstupu modelu • Příklad srovnání klasifikací logistické regrese a binární zobecněné diskriminační analýzy
Shluková analýza • Cíl: sloučit „podobné objekty“ do stejných skupin • Počet skupin nemusí být dán • rozměrný zdroj dat • Různé míry nepodobnosti splňující • Např. Mahalanobisova zobecněná vzdálenost • Použitelná, jestliže • Pro 2 objekty • Pro 2 shluky
Shluková analýza - výpočet Např. algoritmus metody nejbližšího souseda • „Single Linkage“ • Definují se jednoprvkové shluky • Najdeme „shluky“ takové, že a sloučíme je do jednoho shluku • Postup opakujeme na zbylých shlucích. Najdeme splňující získají se buď 2 dvouprvkové nebo 1 tříprvkový shluk • Konec, jestliže prahová hodnota • Viz dendrogram na analýze nepojištěných vozidel
Výsledky modelu – regiony • Nejrizikovější oblastí S a SZ Čech
Výsledky modelu – věk a počet obyvatel • Nejrizikovější mladí řidiči z velkých měst
Výsledky modelu – značka vozidel • Nejrizikovější značka VAZ, s odstupem následuje VW, Ford…
Výsledky modelu – tarifní skupina • Významně nejrizikovější největší osobní automobily
Celková diagnostika modelu • Správně klasifikováno (do skupin 0, 1) přes 70% dat • Hosmer – Lemeshow test zamítl celkovou shodu pozorovaných a očekávaných hodnot • Sledované faktory nevysvětlí rizikovost celého souboru dat • Nicméně informace o nejrizikovějších a nejméně rizikových je použitelná • Oddělení min. prvních 4 decilů je významné