1 / 43

MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL. Petr Jedlička. Obsah prezentace. Úvod do problematiky nepojištěných vozidel v ČR role ČKP, GF, zákony apod. Odhad počtu provozovaných nepojištěných vozidel Charakteristiky nepojištěných škůdců

ghalib
Download Presentation

MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MNOHOROZMĚRNÉ STATISTICKÉ METODY A ANALÝZA NEPOJIŠTĚNÝCH ŠKOD A VOZIDEL Petr Jedlička

  2. Obsah prezentace • Úvod do problematiky nepojištěných vozidel v ČR • role ČKP, GF, zákony apod. • Odhad počtu provozovaných nepojištěných vozidel • Charakteristiky nepojištěných škůdců • Mnohorozměrné statistické metody • Logistická regrese, diskriminační analýza, • Shluková analýza • Numerické ilustrace výsledků analýz ČKP

  3. Česká kancelář pojistitelů • Zřízena zákonem 168/1999 Sb. • Hlavní úkoly ČKP • Spravuje Garanční fond (GF) • Informační středisko • Korespondenční dohody v systému zelené karty • Databáze pojistných smluv • Elektronické relace o dopravních nehodách • Databáze škod („Registr špatných řidičů“) • Od roku 2007 ostrý pilotní provoz • Více viz www.ckp.cz

  4. Vozidla bez sjednaného pojištění • Nehody zaviněné nepojištěnými řidiči • Vznik škody třetí osobě • Odpovědnost nepojištěného škůdce • Poškozenému škodu kompenzuje ČKP z GF • ČKP hradí veškeré škody nad 5 000 Kč • Právo postihu • Uplatňuje ČKP proti nepojištěnému škůdci

  5. Statistiky nepojištěných škod • Významný meziroční nárůst • Celkových závazků z nepojištěných škod • Objemu vyplaceného plnění • Počet evidovaných škod se stabilizuje • Od roku 2004 ČKP tvoří technické rezervy • Standardní pravidla jako pro pojišťovny • Do roku 2004 pouze v podrozvahové evidenci • Problém odhadu velikosti „kmene“ nepojištěných

  6. Statistiky nepojištěných škod

  7. Statistiky nepojištěných škod

  8. Pojištěná vozidla – databáze ČKP • Předávání dat pojistitelé vs. ČKP • Cca. 5,7 mil. pojištěných vozidel k 31.12.2006 • Předávané údaje: • Smlouva: pojistitel, počátek pojištění konec, pojistné… • Vozidlo • SPZ, VIN, číslo TP • Tarifní skupina, výkon, objem motoru, hmotnost, značka… • Provozovatel, vlastník • Liší se např. u vozidel pořízených na leasing

  9. Počty pojištěných vozidel do 31.12.2006

  10. Pojištěná vozidla

  11. Vozidla evidovaná CRV

  12. Nepojištěná vozidla • Cíl: minimalizovat počet nepojištěných v ČR • Detekce na základě srovnání dat CRV a ČKP • Pravidla ztotožňování vozidel ČKP a CRV • Shoda alespoň ve 2 identifikátorech • SPZ, VIN, číslo TP • V případě zániku pojištění a jeho neobnovení ve stanovené lhůtě: • ČKP informuje orgány místní samosprávy • Ty mohou uložit pokutu do výše 20 tis. Kč

  13. Nepojištěná vozidla – mezinárodní srovnání

  14. Nepojištěná vozidla – mezinárodní srovnání

  15. Odhad uvedený často v médiích • Rozdíl počtu registrovaných a pojištěných vozidel • Vychází 13% nepojištěných vozidel v ČR • Nejedná se o adekvátní odhad • Data pojistitelů a CRV nejsou vždy konzistentní • Velké množství nepoužívaných vozidel v datech CRV

  16. Porovnání s počtem nepojištěných škod • Nelze použít univerzálně • Všechny nepojištěné škody nemusí být hlášeny • Problematický odhad škodní frekvence: o kolik je nižší než u pojištěných vozidel?

  17. Výsledné porovnání vozidel ČKP a CRV • Odhadovaný počet nepojištěných provoz.vozidel 180 až 380 tis. • Odpovídá podíl 3,2% až 6,4% všech provozovaných vozidel

  18. Přehled analýz fenoménu nepojištěných • Rok 2004: nepojištěné škody • Srovnání charakteristik s pojištěnými vozidly • Aktualizace v roce 2005 • Rok 2006: Analýza počtu skutečně provozovaných nepojištěných vozidel • Výsledek v předchozím diagramu • Počet skutečně provozovaných nepojištěných vozidel v rozmezí 180 až 380 tis. • Ztotožňování vozidel + statistické srovnání

  19. Mnohorozměrné statistické metody • Aplikace při analýze nepojištěných škod • Sledování rizikových znaků nepojištěných • Regionalita • Věk • Charakteristiky vozidla • Použité metody • Logistická regrese • Diskriminační analýza • Shluková analýza

  20. Logistická regrese • Speciální případ GLM (viz SAV LS 2005/2006) • Binární vysvětlovaná proměnná • 1 = výskyt rizikového znaku (např. nepojištěný) • 0 = ostatní data • Klasická regrese: • Logistická regrese: • Poměr šancí: • Definice:

  21. Logistická regrese – odhady parametrů • Klasická regrese • odhad MNČ • V modelu odpovídá MLE odhadu • odhad nárůstu při jednotkové změně • Logistická regrese • Logitová funkce • Interpretace index nárůstu poměru šance při jednotkové změně

  22. Logistická regrese - ML odhady • Odvození věrohodnostní funkce • Logaritmická věrohodnostní funkce • Soustava věrohodnostních rovnic speciálně

  23. Logistická regrese – testování hypotéz • Řešením soustavy získáme ML odhady • Asymptotická normalita odhadu • Fisherova informační matice • Testování významnosti parametrů Test poměrem věrohodnosti

  24. Logistická regrese – použití • Ohodnocení • Počet správně zatříděných dat • Porovnání a • (čtyřpolní tabulka) • Problém při rozdílné velikosti skupin 0 a 1 • Predikce téměř všech hodnot do početnější skupiny není užitečná • Řešení:Určit váhy tak, aby # 0 a # 1 byl srovnatelný

  25. Logistická regrese - diagnostika • Distribuční funkce hodnocení „dobrých klientů“ • Distribuční funkce hodnocení „špatných klientů“ • Kvalitní model: Velký rozdíl mezi • Integrální kritérium • Supremální kritérium • Lorentzova křivka • Giniho koeficient

  26. Logistická regrese – test dobré shody • Hosmer – Lemeshow test • Zvolíme • Data rozdělíme do skupin • Hranice pro zatřídění do skupiny . Platí • Na určené skupiny se aplikuje test dobré shody • Lze definovat „Lift Chart“ nebo

  27. Lift Chart • Srovnání distribuce dobrých a špatných klientů • Křivka podílového kritéria • pro • STATISTICA definuje převrácenou hodnotou:

  28. Výpočty odhadů parametrů • Použit software STATISTICA • (GLZ, Non linear estimation) • Numerické metody na řešení soustavyvěr. rovnic • Quasi Newtonova metoda • Hooke-Jeeves • Simplex • Rosenbrock… • Možno zvolit počáteční odhady, kritérium konvergence • Čas výpočtu v řádu hodin pro desítky tisíc dat

  29. Diskriminační analýza • Predikce zatřídění objektu do některé z předem daných skupin • Neomezuje se pouze na binární klasifikaci • Předpoklady • Normalita vysvětlujících veličin • Apriorní pravděpodobnosti • Výpočet diskriminačního skóru

  30. Diskriminační analýza - odhady • dáme do třídy s maximální hodnotou • Standardní odhady parametrů na základě souboru dat • Apriorní pravděpodobnosti • Vektor středních hodnot • Rozptylové matice • Často se předpokládá lineární skór Odhad

  31. Diskriminační analýza - implementace • Sw. STATISTICA zahrnuje moduly • Klasická diskriminační analýza • Zobecněná diskriminační analýza GDA • GDA • Zeslabuje předpoklad mnohorozměrné normality podkladových dat • Umožňuje pracovat s kategorickými vysvětlujícími proměnnými

  32. Příklady výstupu modelu • Příklad srovnání klasifikací logistické regrese a binární zobecněné diskriminační analýzy

  33. Shluková analýza • Cíl: sloučit „podobné objekty“ do stejných skupin • Počet skupin nemusí být dán • rozměrný zdroj dat • Různé míry nepodobnosti splňující • Např. Mahalanobisova zobecněná vzdálenost • Použitelná, jestliže • Pro 2 objekty • Pro 2 shluky

  34. Shluková analýza - výpočet Např. algoritmus metody nejbližšího souseda • „Single Linkage“ • Definují se jednoprvkové shluky • Najdeme „shluky“ takové, že a sloučíme je do jednoho shluku • Postup opakujeme na zbylých shlucích. Najdeme splňující získají se buď 2 dvouprvkové nebo 1 tříprvkový shluk • Konec, jestliže prahová hodnota • Viz dendrogram na analýze nepojištěných vozidel

  35. Přestávka

  36. Výsledky modelu – regiony • Nejrizikovější oblastí S a SZ Čech

  37. Odhady parametrů pro nepojištěné škody

  38. Výsledky modelu – věk a počet obyvatel • Nejrizikovější mladí řidiči z velkých měst

  39. Výsledky modelu – značka vozidel • Nejrizikovější značka VAZ, s odstupem následuje VW, Ford…

  40. Výsledky modelu – tarifní skupina • Významně nejrizikovější největší osobní automobily

  41. Celková diagnostika modelu • Správně klasifikováno (do skupin 0, 1) přes 70% dat • Hosmer – Lemeshow test zamítl celkovou shodu pozorovaných a očekávaných hodnot  • Sledované faktory nevysvětlí rizikovost celého souboru dat • Nicméně informace o nejrizikovějších a nejméně rizikových je použitelná • Oddělení min. prvních 4 decilů je významné

  42. Lift Chart

  43. Distribuční funkce hodnocení

More Related