290 likes | 460 Views
Jištění kvality technologických procesů. 12. Statistická analýza dat Richard Březina. Statistická analýza dat. Základní pojmy. Průzkumová analýza dat. Vyhodnocování trendů. Statistická analýza dat. Základní pojmy. Statistické šetření. Charakteristiky polohy a variability.
E N D
Jištění kvality technologických procesů 12. Statistická analýza dat Richard Březina
Statistická analýza dat • Základní pojmy • Průzkumová analýza dat • Vyhodnocování trendů
Statistická analýza dat • Základní pojmy • Statistické šetření • Charakteristiky polohy a variability • Grafické metody • Průzkumová analýza dat • Vyhodnocování trendů
Statistická analýza dat • Základní pojmy • Průzkumová analýza dat • Výpočet popisných a intervalových charakteristik • Grafické metody • Vyhodnocování trendů
Statistická analýza dat • Základní pojmy • Průzkumová analýza dat • Vyhodnocování trendů • Tvorba a použití regulačních diagramů
Základní pojmy • Statistické zkoumání • Ve statistickém zkoumání se sledují hromadné jevy, tj. jevy vyskytující se u velkého množství prvků. Z hlediska účelu zkoumání hromadných jevů se předpokládá definování vymezené množiny objektů, prvků zkoumání neboli statistického souboru (soubor podniků, soubor obyvatelstva, soubor událostí apod.). Počet objektů, prvků, jednotek statistického souboru se nazývá rozsah souboru. • Základní soubor • Statistické soubory, které jsou předmětem statistického zkoumání, jsou označovány jako základní soubor. • Výběrový soubor • Z důvodu ekonomické náročnosti, praktické složitosti a velkých rozsahů se v praxi zpravidla nepracuje s celým rozsahem statistického souboru, ale jen se vzorkem statistických jednotek neboli s výběrovým souborem. Výběrové soubory se používají ke zkoumání zejména proto, že zobecnění provedené z dat výběrového souboru je považováno pro daný účel zkoumání za dostatečně přesné a z hlediska poznání za reprezentativní a že zkoumání celého statistického souboru by bylo nákladné, časově zdlouhavé nebo z jiných praktických ohledů neuskutečnitelné. • Zkoumané vlastnosti statistického souboru sleduje statistika prostřednictvím měřitelných vlastností statistických jednotek. tzv. statistických znaků. Pracuje-li se u každé statistické jednotky jen s jedním znakem (s jednou proměnnou), jedná se o jednorozměrný soubor. Zjišťuje-li se současně více znaků a jejich vzájemné vztahy, jde o dvou-, tří-, resp. obecně vícerozměrný soubor.
Základní pojmy • Kvalitativní a kvantitativní znaky • Základním tříděním statistických znaků je rozlišování znaků číselných (kvantitativních, numerických) a znaků slovních (kvalitativních, alfabetických, kategoriálních). • Číselné (kvantitativní, numerické) statistické znaky vyjadřují sledované vlastnosti statistických jednotek čísly. Číselné znaky se dělí na spojité (kontinuální), které mohou teoreticky nabývat libovolných reálných číselných hodnot v určitém intervalu (průtok vody, hmotnost výrobku, výška, peněžní obrat apod.) a znaky nespojité (diskrétní), které mohou v oboru reálných čísel nabývat pouze určitých číselných hodnot • Cíle statistického zjišťování • Cílem statistického šetření je získávání statistických dat o hodnotách statistických znaků u prvků, které tvoří statistický soubor. Každé statistické zjišťování má určitý, předem vymezený a konkrétní cíl. Z definice cílů šetření vyplývá, • jak vymezíme statistický soubor • jaké proměnné statistické znaky budeme zjišťovat. • Zpracování rutinních dat • Pro účely této přednášky se omezíme se na zpracování jednorozměrného souboru dat, u něhož sledujeme jednu vlastnost, měřením jednoho spojitého znaku
Základní pojmy • Postup průzkumové analýzy dat • Při statistickém vyhodnocení rutinních dat se předpokládá, že • jde o nezávislé veličiny • stejně rozdělené veličiny • pocházející z normálního rozdělení • Test nezávislosti prvků výběru • Závislost měření je obvykle způsobena nestabilitou měřicího zařízení, nekonstantností podmínek, zanedbáním faktorů, které významně ovlivňují výsledek měření • Test homogenity výběru • K nehomogenitě naměřených dat dochází všude tam, kde se vyskytuje výrazná nestejnoměrnost měřených vlastností vzorků, mění se náhle podmínky experimentu a data obsahují vybočující měření • Test normality dat • Určení výběrového rozdělení a jeho konstrukce • Stanovení parametrů polohy a rozptýlení • Průzkumová analýza dat pomocí grafických metod
Základní pojmy • Rozdělení pravděpodobnosti • Normální rozdělení • Rozdělení je charakterizováno parametrem polohy a rozptýlení funkcí hustoty pravd. • Střední hodnotou m • Rozptylem s2 • Studentovo rozdělení • Pro výběry pocházející z normálního rozdělení platí, • že náhodná veličina t má Studentovo rozdělení s(n-1) stupni volnosti • C2 - rozdělení • Pro výběry pocházející z normálního rozdělení platí, náhodná veličina C2 má C2 – rozdělení s (n-1) stupni volnosti
Základní pojmy • Výběrové charakteristiky polohy • Výběrový průměr • Je maximálně věrohodným odhadem střední hodnoty m • Je velmi citlivý na odlehlé hodnoty • Kvantily • Kvantily jsou přirozenou mírou polohy. Daný výběr se nejdříve seřadí od nejmenší hodnoty po největší a poté určíme pro daný p% kvantil pořadové číslo jednotky np , pro které platí: • Medián robustní • padesátiprocentní kvantil, který charakterizuje z hlediska velikosti prostřední hodnotu souboru. Ve statistickém souboru odděluje polovinu hodnot menších od poloviny hodnot větších. • Kvartily robustní • 25% a 75% kvantil • Modus robustní • Modus je hodnota , která se vyskytuje nejčastěji.
Základní pojmy • Výběrové charakteristiky rozptýlení • Výběrový rozptyl a směrodatná odchylka • je nevychýleným odhadem rozptylu s2 pro normální rozdělení. Je definován jako aritmetický průměr ze čtverců odchylek jednotlivých hodnot od průměru, tj. , s – směrodatná odchylka • Varianční rozpětí robustní • Variační rozpětí R je rychlou, jednoduchou, ale jen orientační charakteristikou variability založenou na informaci o maximální a minimální hodnotě v souboru, tj. • Interkvartilové rozpětí robustní • Kvantilový odhad směrodatné odchylky
Základní pojmy • Charakteristika tvaru rozdělení • Šikmost • slouží k zjištění míry symetrie (souměrnosti) rozdělení • Jednoduchou charakteristikou šikmosti je Pearsonův koeficient α. K hodnocení stupně šikmosti využívá vztah mezi velikostí aritmetického průměru a mediánu daný ve tvaru • Jiný přístup k měření šikmosti je založen na aplikaci tzv. momentových charakteristik. Při práci s daty uspořádanými do rozdělení četností je vhodná tzv. momentová míra šikmosti • Špičatost • Míry špičatosti jsou založeny na srovnání stupně nahuštěnosti hodnot prostřední velikosti se stupněm nahuštěnosti ostatních
Základní pojmy • Intervalové odhady statistických parametrů • Koeficient spolehlivosti, hladina významnosti • Ze statistického hlediska mají bodové odhady malý význam, protože neříkají nic o tom, kde leží skutečné hodnoty parametrů. Více informací poskytuje intervalový odhad, který určuje interval, v němž se bude se zadanou pravděpodobností ( 1- a )nacházet skutečná hodnota daného parametru. • Pravděpodobnost nazýváme koeficient spolehlivosti( 1- a ), volíme nejčastěji 95% nebo 99% a parametr ase nazývá hladina významnosti. • Intervalový odhad střední hodnoty • Intervalový odhad rozptylu • Intervalový odhad mediánu
Základní pojmy Grafické metody Diagram rozptýlení a krabicový graf
Základní pojmy Grafické metody Histogram Q-Q graf Odhad hustoty pravděpodobnosti Graf rozptýlení s kvantily
Průzkumová analýza dat Příklad: Homogenita tabletoviny • Obsahová stejnoměrnost • Obsah účinné látky v tabletovině • Naměřené hodnoty • Výsledky analýzy obsahu účinné látky ve vzorcích odebraných z homogenizačního kontejneru při prospektivní validaci na 3 validačních šaržích • Limity pro obsahovou stejnoměrnost v tabletovině : • Interval 93-107 % pro jednotlivé naměřené hodnoty • Interval 18,6 – 21,4 mg/tbl • RSD ≤ 3,2%
Průzkumová analýza dat Naměřené hodnoty
Průzkumová analýza dat Grafické metody s1 s2 s3
Vyhodnocování trendů Vyhodnocování trendů • Vyhodnocování trendů zahrnuje metody a postupy sledování a vyhodnocování vybraných veličin procesu. Všechny tyto činnosti mají za cíl odhalit v získaných datech signály, že existují podmínky, které mohou způsobit odchylku od ustáleného stavu procesu a pomoci tak identifikovat nepříznivé vlivy, které mohou mít negativní dopad na produkt. • Prakticky to znamená, že předpokládáme nějaké statistické vlastnosti procesu (obecně dat) a vyhodnocování trendů slouží (přinejmenším) k testování, zda se tyto statistické vlastnosti nemění. • Postupy: • Sledování středních hodnot a rozptylů • Grafické zobrazení dat • Regulační diagramy
Vyhodnocování trendů Regulační diagramy • Diagram x-průměr • Použití tohoto grafu se doporučuje pokud je možné vytvořit tzv. podskupiny (dvě nebo více hodnot pro jeden časový okamžik). • Diagram x-individual • Používá se tam, kde z nějakého důvodu není možné vytvořit podskupiny, do grafu se vynáší přímo naměřené hodnoty • Diagram c • Je vhodný pro sledování počtu jednotlivých vad na definovaném množství výrobku, který má Poissonovo rozdělení
Vyhodnocování trendů Pravidla regulačních diagramů • 1.Jedna hodnota mimo kontrolní meze, • 2.Devět hodnot na téže straně centrální linie, • 3.Šest hodnot za sebou roste nebo klesá, • 4.Čtrnáct hodnot má střídavé znaménko svých diferencí, • 5.Dvě ze tří hodnot jsou od základní linie dále než 2s, • 6.Čtyři z pěti hodnot jsou na téže straně základní linie dále než 1s, • 7.Patnáct hodnot je uvnitř intervalu ±s od základní linie, • 8.Osm hodnot po sobě je mimo interval ±s od základní linie.
Vyhodnocování trendů Příklad: Sledování výtěžnosti • Výtěžek • Množství přijaté na sklad z výrobní zakázky • Naměřené hodnoty • Množství přijaté na sklad z výrobních zakázek 9 sledovaných přípravků za období 2003 -2004 byly získány ze systému SAP
Vyhodnocení trendů • Sledování středních hodnot a rozptylů • Z tabulky je patrné, že Přípravek5 vykazuje za rok 2004 pokles výtěžnosti a změnu rozptylu. Proto provedeme analýzu pomocí regulačního diagramu X-individual. Nejdříve vytvoříme regulační diagram pro data za rok 2003.
Vyhodnocení trendů • Regulační diagram • Z grafu je patrné, že došlo zhruba po 100 šaržích ke změně ve výrobním postupu, proto je potřeba pro výpočet parametrů ustáleného stavu procesu vzít data pro šarže s pořadovým číslem větším než 100.
Vyhodnocení trendů • Při tvorbě regulačního diagramu byly vypočteny následující hodnoty parametrů: • ZL = 280,318 (výběrový průměr) • s = 2,675 (výběrová směrodatná odchylka) • LCL = 271,937 • UCL = 288,700 • Tyto vypočtené parametry byly použity pro regulační diagram z dat naměřených v roce 2004
Vyhodnocení trendů • Červeně označené body indikují porušení jednoho nebo více z 8 pravidel regulačních diagramů. Kromě bodů mimo meze (kde se jednalo o výrobu na výjimku), se také jedná o šarže kolem pořadového čísla 300, kde je pro více než dvacet bodů porušeno pravidlo • č.7 Patnáct hodnot je uvnitř intervalu ±s od základní linie • Tento jev byl odůvodněn výrobou pod dohledem technologa z důvodů testování nového dodavatele suroviny.