290 likes | 454 Views
Teorie dat a reprezentační teorie měření s příklady problémů ve výzkumu. Petr Blahuš. X Y a 4 453 83 880 315 b 4 396 57 316 519 c 5 743 3 010 429 d 9 341 357 359
E N D
Teorie dat a reprezentační teorie měřenís příklady problémů ve výzkumu Petr Blahuš
X Y a 4 453 83 880 315 b 4 396 57 316 519 c 5 743 3 010 429 d 9 341 357 359 rXY= - 0,80
X Y SPZ Telefon a - Blahuš AKL-4453 83880315b - strýc ABU-4396 57316519 c - zeť ACS-5743 3010429 d - syn JH-9341 357359 rXY= - 0,80
Základní problém je „slepá víra“ v čísla: 1. data jsou čísla 2. jakákoli čísla jsou ta pravá na číselné ose jak ji známe ze střední školy 3. můžeme s nimi dělat všechny číselné operace a vždycky to bude mít smysl 4. proto stačí je vložit do počítače a spustit jakoukoli proceduru, výsledek je zaručen
Anti-příklady: - aritmetický průměr telefonních čísel plavců je vyšší než u neplavců - korelace mezi telefonními čísly a čísly SPZ u fotbalistů je statisticky významná - průměr maturitního vysvědčení gymnázia A je o 0,5 horší než na učňovce B - krasobluslař zlepšil výkon na OH o 10 % oproti MS před rokem, totiž z 5 na 5,5 Klasický vzor ve statistice: čísla na dresu hráčů fotbalu
To není problém tzv. „kvantitativního“ výzkumu proti tzv. „kvalitativnímu“ výzkumu to je problém, zda jde především vůbec o vědecký výzkum Pozor na význam slova „research“: průzkum trhu, lustrace FBI, dokumentační rešerše,...
Co jsou výzkumná data ? • jiné nesprávné popularizační ztotožnění: „informace = data“ (ne každá informace=data) • pozorovaná vlastnost má kategorie - alternativy, které mohou nastat, alespoň dvě ! Druh sportu: gymnastika, plavání, basketbal, … • výzkumná data jsou kódy kategorií, koncipované tak, aby • vlastnost byla uznána za výzkumnou proměnnoune nutně kvantitativní veličinu, kupř. fyzikální
Co je výzkumná proměnná ? Vědecké nároky: a) sémantické - významový obsah, konceptuální k předmětu zkoumání b) standardizační - diagnostická kvalita (přesnost, validita, ...) c)syntaktické - formálně logické d) reprezentační podmínky teorie měření
Syntaktické = formálně-logické podmínky • 1.alespoň dvě různé kategorie • 2. disjunktivnost, vzájemná neslučitelnost • nepřekrývání kategorií - jen jedna může nastat • 2. exhaustivnost, vyčerpání všech možností, • jedna kategorie musí nastat • Informačně bezvýznamné jsou vlastnosti s neexistujícím nebo nulovým rozptylem: • - žádná kategorie, tj. proměnná je k souboru irrelevantní • ( např. „osobní rekord na 100 m znak“ - u neplavců) • - anebo jde o konstantu, tj. nikoli „proměnnou“ • (např. snadný test - „kotoul pro dívky - gymnastky“)
Anti-příklad - Otázka v dotazníku: • „Jak provozujete rekreační sport ?“ • a - sám a denně ... kódujte 1 • b - jen o víkendech s rodinou ... kódujte 2 • c - v přírodním prostředí ... kódujte 3 • Anti-příklad - Test laterality: • L - levostrannost ruky i nohy ... kódujte 1 • P - pravostrannost ruky i nohy ... kódujte 2 • L/P - zkřížená: ruka L a noha P ... kódujte 3 • P/L - “ ruka L a noha P ... kódujte 4 • Když odpověď chybí ... zakóduje se jako 0 ??? • ... a vloží se do počítače k výpočtu průměru !
Kvalitativní vs. kvantitativní povaha kódování dat • • Kódování dat NEmusí být číselné: • - použití symbolů * , + ... ASCII znaků ap. • - grafického vyjádření ap. • Na počítači jako znakové proměnné • • Jsou-li kódy čísla, • pak reprezentační teorie měření se ptá: • - „jak dobře může být povaha kategorií • reprezentována čísly ? “ • - „které číselné relace a operace mají pro • daná data smysl ?“
Podmínky reprezentační teorie měření: jak smysluplně číselné relace a operace reprezentují vztahy mezi kategoriemi ? Typy škál = typy dat: Smysluplnost: 1. kvalitativní, nominální: = x=y 2. semikvantitativní, ordinální: xy 3. kvantitativní intervalová: -1 , +1 x-y 4. „ poměrová, tj. s „absolutní“ nulou: podíl x/y
Ordinální data • Např. školní známka z dějepisu: • 4 3 reprezentuje “větší úroveň vědomostí“ ale o kolik? • - Jakou velikost věcného obsahu rozdílu, by snad mohlo číslo 1= 4-3 mohlo reprezentovat ? • - Jak velký interval mezi “3” a “4” nakreslit ? • - Je stejně velký rozdíl mezi známkami • “5” a “4” i známkami “2” a “1” ? • Rozdíl, součet,intervalnereprezentují • realitu, nemají smysl
Statistické problémy ordinální stupnice neznáme délku jejích intervalů, je „gumová“, a to navíc nerovnoměrně - nelze určit tvar rozdělení (pro inferenční statistiku) - nelze předpokládat lineární ani jiný tvar závislosti (ani pro deskriptivní statistiku), jen monotónnost - rostoucí anebo klesající
Smysluplné číselné operace např. statistické nominální - modus - rozpětí četností ordinální - medián - rozpětí, kvartilová odchylka intervalová - průměr - rozptyl, směrodatná odchylka poměrová -- ´´ -- ! ! - variační koeficient V = s / x
Dělení, podíl, poměr dvou hodnot x1/ x2 na téže intervalové stupnici má smysl jen, když má přirozenou absolutní 0 data - škála poměrová Test - hloubka předklonu v cm ve stoji na lavičce: - Sýkora 1966 - měřítko s 0 v úrovni lavičky - Měkota 1983 - měřítko s 0 ve výši 50 cm nad ní Žák se zlepšil o 10 cm: - např. dle Sýkory z 10 na 20 cm pod úrovní lavičky - tomu odpovídá ze 60 na 70 podle Měkoty dle Sýkory zlepšení 20 / 10 = 2 ... dvakrát dle Měkoty 70 / 60 = 1,17 ... jen 1,17 krát
Absolutní nula: formální / obsahová formální 0 (syntakticky konzistentní)) - nulová porodní délka či hmotnost ? - nulový čas v běhu na 100 m ? Někdy 0 úroveň vlastnosti = neexistence jejího nositele , proto otázka, kdy je empiricky smysluplná (sémanticky relevantní) - skutečná porodní délka jako 0 postnatálniho růstu - průměná výkonnost populace jako nulová norma Sémantická smysluplnost srovnání formálních nul: - hypotetický nulový čas na 100 m vs. v maratonu - nulový výkon ve skoku vysokém vs. skok o tyči
Absolutní nula: manifestní / latentní - nula pozorovatelného-empirického indikátoru - specifického skóre jednoho testu - manifestní matematické proměnné - nula teoreticko-konceptuální proměnné (nulová úroveň indikovaného „konstruktu“) - generické skóre baterie testů - latentní matematické proměnné Např.- nula shybů neznamená nulovou úroveň silové shopnosti - nula cm v Sýkorově testu neznamená absolutní neexistenci flexibility atp.
Srovnávání „nesrovnatelného“, tj. proměnných s různými jednotkami - pomocí normy - např. průměr a z-body atd. = bezrozměrná čísla - procenta = „falešně bezrozměrná“, i základ pro procenta = „norma“ Problém procent: - je škála poměrová ? - má zvolenou nulu obsahově smysluplnou ? - jde o proměnnou manifestní anebo latentní ? - jak je zdůvodněna volba tzv. „základu“ % ?
Za falší srovnání procent je zdánlivá srovnatelnost jejich formálních nul Běh 100 m i maraton mají formální 0 stejnou ale jejich smysluplné 0 jsou různé, snad (?) : 100 m...asi 9 sekund - maraton ...120 min Proto zlepšení o 1 % je srovnatelné jen zdánlivě: z 10,0 na 9,9 sek. z 5 hodin na 4:57 tj. ze 300 min. na 297 o 0,1 sekundy o 3 min. 1 % 1 %
Teorie dat (Coombs 1953, 1964, 1971) typologie sémantického významu relace dominance ... „lepší než“, „výkonnější“ ap. proximita ... „podobnější“, „bližší“ ap. mezi kategoriemi téhož druhu mezi kategoriemi různého druhu Význam pro způsob zpracování dat
Dominance mezi kategoriemi různého druhu např. - výkon sportovce vzhledem k limitu - většina fyzikálních veličin: měření délky pomocí standardního metru V behaviorálních vědách tzv. „metoda jednoho podnětu“ v psychofyzice: - potěžkáním odhadnout hmotnost tzv. absolutnítyp dat Jsou-li na alespoň intervalové stupnici, pak jde o kvantitativní data v pravém smyslu Zpracování: kvantitativními matematickými metodami, např. ve statistice parametrickými
Proximita ke kategorii jiného druhu Např. - test pohybové paměti, reprodukování dané polohy, měří se odchylky pod (-) a nad (+) - výběr položky ze seznamu - rekreační aktivity která je nejbližší Vašemu ideálu V behaviorálních vědách jedna ze tří tzv. „metod více podnětů“ a mezi nimi jedna ze dvou tzv. „metod výběru“, a to tzv. preferenčnídata Zpracování: pozor na směr odchylek !! - Intervalová: např. místo obyčejného průměru střední kvadratickou odchylku od zadané hodnoty - Ordinální: MDS škálování pro prefernční data, např. metoda optimálního škálování (Nishisato) aj.
Proximita kategorií téhož druhu Např.: - které dvě z následujíciho seznamu rekreačních aktivit jsou si nejpodobnější? - popř. i ohodnoťte míru jejich podobnosti V behaviorálních vědách druhá ze tří tzv. „metod více podnětů“ a poslední ze dvou tzv. „metod výběru“, a to tzv. podobnostnídata Zpracování, např.: - medián subjektivní míry podobnosti - metody MDS škálování pro podobnostní data, např. proximitní nemetrického škálování (Shepard)
Dominance mezi kategoriemi téhož druhu Např. - porovnejte vzájemně dva sporty - fotbal / gymnastika - který má v ČR větší popularitu? - párovým porovnáním zhodnoťte výčet kategorií = typů osobnosti trenéra (autoritativní, kamarádský, ...) z hlediska pedagogické úspěšnosti - popř. navíc: odhadněte stupeň převahy V behaviorálních vědách třetí z „metod více podnětů“, a to tzv. komparativní data Zpracování, např.: - medián stupně převahy - škálován metodou párového srovnávání (Thurstone)
Coombs et al. 1970 Mathematical psychology: an elementary introduction Str. 35: „... každý člen tenisového klubu napíše seznam těch členů, s nimiž rád hraje tenis. Jeden může uvést ty členy, které dokáže porazit, jiný může uvést ty, s nimiž se mu příjemně hraje. V prvním případě je dané chování vyjádřeno relací dominance, a v druhém relací proximity. „
Dotazník - vyberte a seřaďte ze seznamu první 3 sporty, které byste nejraději rekreačně provozovala: -volejbal -turistika -aerobic -basketbal -cyklistika -posilovna Nejasnosti s relacemi v datech: - seřadit podle jejich vzájemné dominance, a vzniknou komparativní data ? - seřadit podle proximity ke svému ideálu, a vzniknou preferenční data ? - v 1. fázi vybrat skupinu 3 sportů ke svému ideálu a ve 2. fáze je porovnat mezi sebou ?
Nejasnost koncepční: homogenita - dimenzionalita položky Je „nejradějnost“ jediný = jednorozměrnýkoncept-konstrukt ? - je vůbec možné tyto sporty seřadit na jediné, společné škále ? Anebo „oblíbenost“ pokrývá 3 „dimenze“ ? 1. sociální kontakt ve hře (volejbal, basketbal) 2. pobyt v přírodě (turistika, cyklistika) 3. módnost (aerobic, posilovna) Je jedno podle kterého aspektu respondent stanoví pořadí ?
Nejasnosti zpracování dat - neví se typ dat neví se metoda zpracování A navíc: jak se budou rozlišovat případy se stejným pořadím, ale v rámci různých sportů ? Např. dívky A, B vyberou a určí pořadí: A : 1. volejbal, 2. aerobic, 3. cyklistika B : 1. turistika, 2. aerobic, 3. posilovna „aerobic“ je 2., je jedno mezi kterými, zcela různými sporty ?