450 likes | 1.02k Views
FAQ Гиги & Гого. Вариационен анализ. Хайде да започваме. Кликни върху бутона. Какво постижение в 30 м. гл. б. имат 12 г. футболисти?. Трудно е да се отговори с една дума, защото: Отделните футболисти имат различни постижения;
E N D
FAQ Гиги & Гого Вариационен анализ Хайде да започваме... Кликни върху бутона
Какво постижение в 30 м. гл. б. имат 12 г. футболисти? • Трудно е да се отговори с една дума, защото: • Отделните футболисти имат различни постижения; • Все пак има някакво общо, типично състояние, характеризиращо цялата група.
Постиженията в 30 м. гл. б. се формират под влияние наредица: • Закономерни фактори • и • Случайни фактори • Действието на закономерните фактори формира типичното състояние на признака; • Действието на случайните фактори води до разсейване на признака
Вариационният анализ дава възможност да се опише детайлно разпределението на количествени променливи. Той включва 3 групи показатели: • За средно равнище • За разсейване • За нормалност на разпределението Какво ли значи това?
Показатели за средно равнище • Мода – стойността, която се среща най-много пъти • Медиана – стойността, която се намира в средата на вариационния ред • Средна аритметична величина Те описват типичното, характерното състояние на признака. Това е лесно... Mo = 7 Me = 8 X = 8.4
Ако имаме следните данни: Две съседни стойности се повтарят еднакъв, максимален брой пъти, модата е полусумата на тези стойности, т.е. Mo=8.5 Средата на вариационния ред е между 3-тата и 4-тата стойност, т.е. Me = 8.5 Две несъседни стойности се повтарят еднакъв брой пъти - разпределението има две моди: Mo=7 и Мо=9 Няма стойност, която се повтаря повече от останалите - разпределението няма мода
Четирима приятели решихме да упражним наученото, като определим средно с колко пари разполагаме в момента. След щателно търсене в джобовете ни се оказа, че разполагаме с: 1лв., 1лв., 11 лв., 111 лв. Значи ... Мо=1 лв., Ме=6 лв., Х=31 лв., нали... • Технически погледнато – да. Логически, обаче са уместни въпросите: • Може ли да се търси типичното, характерното за стойности, които се различават твърде много? Очевидно не. • Кой от показателите е най-информативен, т.е. кой от тях дава най-вярна представа за средното количество пари, с които разполага представител на вашата група? Най-често използваният показател – средната аритметична е напълно лишена от смисъл, защото не дава вярна представа за парите на нито едно от лицата.
30 м. гладко бягане Доход (лв.) Пример 1: Изследвани са резултатите в 30 м. гл. б. и месечния доход на член от семейството на подрастващи футболисти. На фигурите са представени хистограми на тяхното разпределение. Разпределението на постиженията на 30 м. е симетрично, а от резултатите от обработката личи, че Mo=Me=X. Разпределението на доходите е силно несиметрично. Най-голямо струпване на стойностите се наблюдава около Хmin (Mo=100 лв.), има силно отклоняващи се стойности (Xmax=700лв.). Резултатите от обработката показват, че Мо, Ме и Х силно се различават. В такива случаи възниква въпросът кой от показателите за средно равнище да се ползва. Отговорът му е свързан с това каква е изследователската задача, в случая какъв смисъл се влага в понятието “среден доход”. Ако се разбира онзи доход, който имат най-голям брой от изследваните, очевидно модата е най-добрият “измерител” на средното равнище.
Пример 2:Три групи подрастващи футболисти имат средна аритметична на постиженията в 30 м. гл. б. 6,1 сек.. Това означава ли, че бързината на трите групи е една и съща? Мисля, че да ... Нека видим първичните данни : Група А Група Б Група В Какво прави впечатление? Вече е ясно, че в първите 2 групи попадат лица, които имат напълно или приблизително еднакви скоростни възможности, а в група В – с твърде различна бързина-...
Правилно! За да се характеризира разпределението на количествена променлива не е достатъчно да се опише само средното равнище на признака. Изключително важна характеристика на признаците е тяхната вариация
Показатели за разсейване • Размах (R) – диапазон, в който варират стойностите: • Стандартно отклонение (S) – отклонения на стойностите от средната аритметична величина • Коефициент на вариация (V): Те описват различията между стойностите. Като синоними се ползват понятията вариация и дисперсия на стойностите. Размахът е лесен... Група А =0сек. Група Б = 0,2 сек. Група В = 1,9 сек. ...обаче стандартното отклонение ...
Не е страшно! Трябва да се опише средното отклонение от средната аритметична величина. На фигурите е представено графично разпределението на постиженията на групи А и Б. С червена пунктирана линия е означена средната аритметична величина. Група А Очевидно е, че стойностите при гр. А не се отклоняват от Х, което означава, че S=0. Група Б Група В Група А Група Б -0,1
... все пак, не ми е съвсем ясно, какво е това S=0.071 и S=0,687... Много ли е ... На първо място е важно да се знае, че стандартното отклонение се изразява в същата мерна единица, в която е измерен признака, в случая в секунди ... значи S=0,071 сек. и S=0,687 сек. Дори се изписва заедно със средната аритметична по следния начин Х±S. На второ място, не може да се оцени степента на разсейването на признака само на базата на стандартното отклонение, защото е важно по отношение на каква средна стойност е въпросното отклонение. 0,1 секунда отклонение от постижения на 100 м. и на 3000 м. имат съвсем различен смисъл, нали ...
Друг един “недостатък” на стандартното отклонение е, че с него не може да се сравнява разсейването на признаци, изразени в различни мерни единици. • В пример № 1 бе представено разпределението на постиженията в 30 м. и дохода на член от семейството на подрастващи футболисти. Резултатите от обработката показват: • За 30 м. – 6,22 ±0,36 сек. • За дохода – 189,1±120,8 лв. • Излишно е да умуваме дали 0,36 сек. са повече от 120,8 лв. С помощта на коефициента на вариация подобни проблеми се решават много лесно ...
Коефициентът на вариация изразява разсейването в проценти и обобщава информацията от средната аритметична величина и стандартното отклонение. • Да припомним формулата: • Той дава възможност: • 1. Да се сравнява разсейването на признаци, изразени в различни мерни единици; • 2. Да се правят изводи относно еднородността на извадките (голямо ли е разсейването на признака). В практиката се ползват следните степени: • До 10% - извадката е еднородна (малко разсейване) • От 10- до 30% - извадката е приблизително еднородна (средно разсейване); • Над 30 % - силно нееднородна извадка (голямо разсейване на признака)
Да видим дали вече е ясно: • 1.По данните от пример 1 (за 30 м. - 6,22 ±0,36 сек. дохода – 189,1±120,8 лв.) : • По кой от двата признака разсейването е по-голямо? • 2.По данните от пример 2 (група А – 6,11 ±0 сек., група Б – 6,11 ±0,071 сек. и група В – 6,11 ±0,687 се.): • Еднородни ли за изследваните групи?
1.Коефициентите на вариация са съответно: • За 30 м. гл. Б. – 5,79% • За дохода – 63,87% • Очевидно, че вариацията на дохода е много по-голяма • 2. Коефициентите на вариация са съответно: • Група А – 0 % - липсва разсейване на стойностите. Постиженията са постоянна величина. Е, това трудно може да се случи при реално изследване, но за упражнение, може ! • Група Б – 1,16 % - групата е еднородна; • Група В – 11,26 % - групата е приблизително еднородна. • Аз също имам въпрос: • Направих опит да изчисля коефициента на вариация на температурата навън в последните 3 дни. Данните са: • -1оС , 0о С, 1оС. • Средната аритметична е 0о, а стандартното отклонение 1о. Защо не мога да изчисля V?
Браво! Много точни отговори и също така уместен въпрос. Данните за времето, които си събрал са за температурата на въздуха, измерени по скалата на Целзий. От първата лекция трябва да си разбрал, че този признак е интервално скалиран, т.е. има условна 0. При такива признаци не се ползва коефициента на вариация. Затруднението, с което си се сблъскал се дължи на факта, че средната е 0оС, а деление на 0 не е възможно. Е, едва ли може да се случи в реално изследване, но за пример, може ! Време е да преминем към следващата група показатели
F(X) 30 м. гладко бягане Показатели за нормалност на разпределението • Ще използвам данните от пример 1 – постижения на 50 подрастващи футболисти в тест 30 м.гл.б. Хистограма на емпиричното разпределение е представено на фигурата. • По абсцисата са нанесени резултатите в теста; • По ординатата – тяхната абсолютна честота (f). • Както се вижда, минималните стойности се срещат сравнително рядко, и приблизително толкова, колкото максималните стойности. Най-голямо струпване има около центъра на разпределението. Модата, медианата и средната аритметична са приблизително равни. • Как смяташ, кога вероятността е по-голяма – един случайно взет подрастващ футболист да има постижение 5,4 сек. или 6,1 сек. ?
Ще опитам! Резултат 6,1 сек. е около средната стойност. Той е постигнат от 14 от 50-те изследвани лица, нека да пресметна ... 14/50*100=28%. Нека да го означа като вероятност А. Резултат 5,4 сек. Имат само 3 изследвани лица, което означава 6% от случаите, т.е 6% вероятност да се получи такъв резултат. На фигурата съм означил като вероятност Б. Май греша, абсцисата е означена f(X), т.е. абсолютна честота ..... F(X) А 30 м. гладко бягане Б Разсъждението е напълно правилно! Стълбчетата на хистограмата онагледяват емпиричното разпределение (конкретните данни) и затова абсцисата е означена с f(X). Нека обаче си представим, че се онагледява която и да е променлива, изследвана в достатъчно голяма генерална съвкупност, по абсцисата се нанесат възможните стойности от Xmin до Xmax, а по ординатата – съответстващата им вероятност.
Под понятието разпределение на променливата величина се разбира съответствието между възможните стойности на променливата и съответстващата им вероятност. • Ето така изглежда кривата на нормалното разпределение. Най-характерно за него е, че: • То е симетрично по отношение на центъра на разпределението • Има умерен връх.
На теория звучи добре, но не разбирам как бих могъл по емпирични данни да разбера дали разпределението на променливата е нормално... За да се установи доколко емпиричното разпределение се приближава до нормалното се ползват коефициентите на асиметрия (As) и ексцес (Ex).
Коефициент на асиметрия(As) където Коефициент на ексцес (Ех): където Как по стойността им разбера дали разпределението на променливата е нормално?
Процедурата е следната: • По формулите се изчислява т. нар. емпирична стойност на критерия • От статистически таблици се определя т. нар. критична стойност на критерия. • Двете стойности се сравняват: • Ако емпиричната е по малка или равна на табличната се приема, че разпределението не се различава съществено от нормалното Какви са тези статистически таблици?
Ето така изглежда таблицата с критичните стойности на коефициента на асиметрия. • В първата колона се намира обемът на извадката (n). • Другите две колони са означени “Равнище на значимост ()”. Това е възможността за допускане на погрешен извод. =0.05 означава 5% възможност за грешка, а =0.01 - 1%. • Ако си изследвал 50 лица и работиш с 5% възможност за грешка – критичната стойност на коефициента на асиметрия е 0,533.
Това е таблицата с критичните стойности на коефициента на ексцес. • В първата колона се намира обемът на извадката (n). • Другите две колони са означени “Равнище на значимост ()”. • Ако си изследвал 50 лица и работиш с 5% възможност за грешка – критичната стойност на коефициента на ексцес е 0,848.
А защо е толкова важно да знаем дали признака има нормално разпределение? • Защото изборът на метод за обработка на данните до голяма степен зависи от вида на разпределение на променливите. • Ако те имат нормално разпределение се ползват т.нар. параметрични методи. • Ако те имат ненормално разпределение се ползват т.нар. непараметрични методи
Вариационен анализ с Excel и SPSS На теория всичко ми е ясно. Как да изчисля тези показатели с помощта на компютъра си?
Вариационен анализ със SPSS 1.Избери анализа 2.Задай променливата/ите 3.Избери/промени статистическите показатели 4.Потвърди с ОК
Резултатът от обработката изглежда така · N – брой на наблюденията · Range – размах · Minimum – минимална стойност; · Maximum – максимална стойност; · Mean – средна аритметична величина; · Std. – стандартно отклонение;; · Skewness – коефициент на асиметрия · Kurtosis – коефициент на ексцес Означението на показателите е следното
Вариационен анализ с Excel 1.Избери анализа 1.Избери анализа а б
4.Потвърди с ОК 2.Задай променливата/ите 3.Избери/промени статистическите показатели
Резултатът от обработката изглежда така Означението на показателите е следното Mean – средна аритметична величина Standard Error –репрезентативна грешка Median - медиана Mode - мода Standard Deviation - стандартно отклонение Sample Variance - дисперсия Kurtosis – коефициент на ексцес Skewness – коефициент на асиметрия Range – размах Minimum – минимална стойност; Maximum – максимална стойност; Sum – сумата на стойностите Count– брой на наблюденията
Представяне на резултатите от вариационен анализ Не мога да разбера, как цялата тази информация може да се побере в една таблица за вариационен анализ?
Ето вариационен анализ на резултатите в тест 30 м.гл.б., с който започнахме разговора. Можеш ли да направиш анализ?
Изследвани са постиженията в тест 30 м.гл.б. на 50 подрастващи футболиста. Резултатите варират от 5,5 сек. До 7,0 сек. Средната стойност е 6,22 сек. Изследваната група е силно еднородна по отношение на резултатите в този тест, защото коефициентът на вариация е V=5.78%. Коефициентите на асиметрия и ексцес (съответно 0,33 и -0,29) са под критичните, което означава, че признака има нормално разпределение. Добре!!! Информацията може да се допълни и с графика.
30 м. гладко бягане • Това е хистограмата, която ползвахме в началото. • По абсцисата са нанесени стойностите на променливата • По ординатата – съответните им абсолютни честоти. • С червената линия е представена кривата на нормалното разпределение. • Това е т.нар. Box plot диаграма. • При нея стойностите на променливата са представени по ординатата. • С червената “кутия е са представени 25-ия процент, средната стойност и 75-ия процент от вариационния ред. • С “дръжките” на кутията се онагледяват минималната и максималната стойност
Време е да приключваме. Имаш ли още някакви въпроси? Засега – не Ако възникнат – ще ги задам на v_gigova@yahoo.com