1.24k likes | 1.48k Views
Извадка. Популация. Какво е статистика?. - Единствената математическа дисциплина за правене на индуктивни изводи. Средна височина: µ = 176. Средна височина: µ = 176 + 2.1. Вероятност. 0.33. 0.50. 0.25. 0.67. 0.50. 0.33. Събития. Числа. Събития:
E N D
Извадка Популация Какво е статистика? - Единствената математическа дисциплина за правене на индуктивни изводи. Средна височина: µ = 176 Средна височина: µ = 176 + 2.1
Вероятност 0.33 0.50 0.25 0.67 0.50 0.33 Събития Числа
Събития: Когато избираме случайно двама човека от общо 20, попадаме на двамата най-високи от всичките 20. (вероятност p = 0.0026) Когато избираме случайно двама човека от общо 20, единият на който попадаме, се оказва най-високия от всичките 20. (вероятност p = 0.05) Когато избираме случайно двама човека от общо 20, получаваме, че средната им височина е 175. (вероятност p = 0.04)
Вероятност Средна височина от двама човека Вероятностни функции За съжаление, ние не познаваме тази функция, можем само да гадаем за нея.
Вероятност Средна височина от двама човека 175 см Ако чрез други разсъждения сме предположили какво е разпределението, то резултатът от изследването ни дава представа доколко е правдоподобно предположението ни. Познаваме само резултатът от нашата извадка (от двама човека):
Предположението и резултатът от изследването са в синхрон 175 см 175 см При направеното предположение, резултатът е малко вероятен
От къде идват предположенията? - От предишни данни, теории и изследвания. - От логически съображения. - От теорията на вероятностите. - Най-често – съчетавайки горните.
вероятност Средна височина за извадка от 2 човека 175 От предишни данни очакваме, че средната височина на всички хора е 175 см, а станд. откл. е 30 см. От теорията на вероятностите: Средната стойност на измерваната величина за извадка с фиксиран обем се разпределя нормално.
153 вероятност 175 Резултат от нашето измерване (средната на измерените двама човека) Средна височина за извадка от 2 човека Твърде невероятно е! Разумно е, да приемем, че средната височина на нашата популация от 20 човека е по-малка от 175 см.
Дотук разглеждахме само една променлива - височината Горната процедура се нарича оценка на параметри. • Можем да оценяваме средна, дисперсия, размах и други по два начина: • Проверявайки хипотеза (напр. височината на популацията ни е 175 см.) • Намирайки доверителни интервали (напр. 95% ДИ за височината на популацията ни е (150 – 156 см))
170 180 160 височина Две променливи: Измерваме височината и цвета на очите на хората. Забелязваме, че хората със светли очи се групират вдясно, а тези с тъмни очи – вляво.
Височината и цветът на очите корелират. Това не ни говори нищо за каквато и да била причинно-следствена връзка!!!
Специфична генна комбинация Висок ръст Светли очи Продължителен снежен период
Общо правило: След като сме установили корелационна връзка между две променливи, можем само да гадаем каква е причината за тази връзка! Догатките откъде идва тази връзка ни водят към нови изследвания!
тегло височина Отново ще забележим, че височината и теглото корелират! Нека сега измерваме височината и теглото на хората.
Обаче, имаме основания да предположим, че теглото зависи от височината, а не обратното. Можем да издигнем това като наша хипотеза и да се опитаме да го проверим експериментално: Хипотеза: Хората с висок ръст имат по-голямо тегло от хората с нисък ръст.
За да проверим това, трябва: • Да дефинираме ясно какво значи висок ръст (над 190 см) и какво значи нисък ръст (под 160 см) • Да подберем случайно хора с висок ръст и хора с нисък ръст. • Да приложим методологията за проверка на равенството на средните за две независими извадки.
Как избрахме кои хора да наричаме ниски и кои високи? Съвсем произволно! Само по себе си това не е проблем, проблемът е, че губим много информация! Измервахме височината по скала на отношенията, а използвахме само нейните рангови свойства.
Типове скали, по които се измерват променливите • Номинална скала – класификация. • Рангова скала – освен класификация, имаме и линейна наредба. • Интервална скала - освен класификация и линейна наредба имаме единица на измерването. • Скала на отношенията - освен класификация, линейна наредба и единица на измерването имаме и абсолютно начало.
Има и други класификации и под-типове: • Дихотомна скала – Две стойности (напр. мъж-жена или висок-нисък). • Дискретна скала – Краен брой стойности (напр. всички рангови скали са дискретни). • Метрична скала – Общо наименование на интервалната скала и на скалата на отношенията.
При проверка на хипотези за една независима и една зависима променлива досега: Изучавахме статистическите методи, когато независимата променлива е измерена по дихотомна скала, а зависимата – по метрична скала.
независима зависима Проверки на хипотези за средните стойности:
При всичките тези видове анализи: • Определяме хипотезите Но и На. • Определяме хипотетизираната и оценената при изследването стойност на търсения параметър. • Определяме извадковото разпределението и стандартната грешка на нашата статистика при допусната Но. • Определяме критичната стойност на тестовата статистика при зададеното ниво на значимост. • Правим статистически извод.
t - тест Имаме две групи от хора и искаме да разберем дали средната стойност на някаква променлива за едната група се различава от средната стойност на същата променлива за другата група.
µ1- µ2, когато извадките са независими d, когато извадките са свързани Определяне на нулевата и алтернативната хипотези: H0 : µ1 = µ2Ha : µ1 ≠ µ2 Изследваният параметър:
При свързани извадки: Разпределението на d е t-разпределение на Стюдънт с n1+n2-2 степени на свобода Извадковото разпределение: При независими извадки: Разпределението на µ1- µ2 е t-разпределение на Стюдънт с n-1 степени на свобода
Стандартно нормално разпределение t-разпределение с ∞ степени на свобода t-разпределение с 3 степени на свобода t-разпределение с 12 степени на свобода 0 • Всички t-разпределения са симетрични относно нулата. • Имат по-голямо разсейване от стандартното нормално. • Колкото повече растат степените на свобода, толкова повече съответното t-разпределение се приближава към стандартното нормално.
Няма да изучаваме: 5. Многомерен анализ – повече от една зависима променлива. Остана да изучаваме: • Дисперсионен анализ • Регресионен анализ • χ2 анализ • Две независими и една зависими променливи
Едномерен дисперсионен анализ (ANOVA) • Една независима променлива с няколко нива (фактор) • Една зависима променлива, измервана поне по интервална скала
Възрастта фактор ли е за средния брой цигари, които хората пушат?
1-2 1-3 ..... 1-6 2-3 ..... 2-6 5-6 Как можем да подходим към тази задача? Да сравним първа възрастова група с втора! След това първа с трета, първа с четвърта и т.н. Общо: 15 сравнения
Каква е вероятността за грешка от тип I? Вероятността за грешка от тип I при първото сравнение е α(напр. нека α = 0.05). Вероятността да не направим грешка от тип I при първото сравнение е 1 – α. Вероятността да не направим грешка от тип I при второто сравнение също е 1 – α. Вероятността да не направим грешка от тип I при първото и второто сравнения е (1 – α)2.
Вероятността да не направим грешка от тип I при всичките 15 сравнения е (1 – α)15. Вероятността да направим грешка от тип I при някое от всичките 15 сравнения е 1 - (1 – α)15. При α= 0.05 имаме: Вероятността за грешка от първи тип е 1 – (1 – 0.05)15= 0.5367
Когато от едно изследване се правят много изводи, вероятността за грешка нараства много. Когато много изследвания водят до един и същи извод, вероятността за грешка намалява много.
Разсейване (дисперсия) и източници на дисперсия. Измерваме теглото на един човек и получаваме 82 кг. Измерваме теглото на друг човек и получаваме 63 кг. Защо различните хора имат различно тегло?
тегло ДНК пол количество храна Защото теглото се определя от много различни фактори!
Когато един фактор влияе върху дадена променлива, то факторът е източник на дисперсия на променливата. Колкото по-силно влияе един фактор върху дадена променлива, толкова по-голяма част от дисперсията на променливата се обяснява чрез този фактор. Ако можем напълно да обясним дисперсията на дадена променлива, то значи, че познаваме всички фактори, които ú влияят.
Факторът възрастова група поражда ли допълнителна дисперсия върху променливата брой цигари?
Отклонение от средната за индивида А. средна А брой цигари Отклонението от средната се дължи на всички фактори, които влияят на броя цигари.
Отклонение от средната на групата. средна за групата на А брой цигари А Да вземем всички индивиди от възрастовата група на А: Техния брой цигари също формира разпределение: Това отклонението от средната се дължи на всички останали фактори без възрастта.
Нива на фактора 1 2 ... n x11 x12 ... x1n x21 x22 ... x2n ... ... ... ... Обща средна xk1 xk2 ... xkn x x1 x2 xn Отклонението на x11 e: (x11 - x) = (x11 – x1) + (x1 - x) общо отклонение вътрегрупово отклонение междугрупово отклонение
Обща дисперсия s2 – дължи се на влиянието на всички фактори, които влияят върхуброя изпушвани цигари. Освен това влияе и вероятностният процес на формиране на извадката (s2 не е истинската дисперсия, а само оценка за нея.). Вътрегрупова дисперсия sw2 – дължи се навлиянието на всички останали фактори без възрастовата група. Отново влияе и вероятностният процес на формиране на групите. Междугрупова дисперсия sb2– дължи се на влиянието на всички фактори. Отново влияе и вероятностният процес на формиране на групите.
С други думи: sb2 ≈ 1 sw2 Междугруповата дисперсия sb2 отчита всичко което отчита вътрегруповата дисперсия sw2 плюс евентуалното влияние на фактора. Следователно, ако факторът не влияе, очакваме: sb2≈sw2
n Σ (xi - x) i=1 s2 = n -1 n е броят на измерванията, а x е средната Как се намираха дисперсии?
Нива на фактора 1 2 ... k x11 x12 ... x1k x21 x22 ... x2k ... ... ... ... xn11 xn22 ... xnkk x1 x2 xn Нека имаме k нива на фактора. Нека в първата група имаме n1измервания, във втората – n2,..., в последната - nk.
Нива на фактора 1 2 ... k x11 x12 ... x1k x21 x22 ... x2k ... ... ... ... xn11 xn22 ... xnkk x1 x2 xn k nj k ΣΣ(xij – xj)2 Σ nj(xj – x)2 j=1 i=1 MSw = j=1 MSb = n - k k - 1 i j
MSb F = MSw k nj k ΣΣ(xij – xj)2 Σ nj(xj – x)2 j=1 i=1 MSw = j=1 MSb = n - k k - 1 Ако факторът не влияе, то F ще бъде близко до 1.
Проверка на хипотези чрез дисперсионен анализ
Отразява ли се социалният статус на резултатите от тест за тревожност при студенти от 3-ти курс?
План на изследването: • Определяме хипотезите Но и На. • Определяме хипотетизираната и оценената при изследването стойност на параметъра. • Определяме разпределението на нашата статистика при допусната Но. • Определяме критичната стойност при зададеното ниво на значимост. • Правим статистически извод.