730 likes | 1.11k Views
Занятие 7. Трансформация данных. Непараметрические критерии. Трансформация данных. Повторение из предыдущих занятий. Требования к выборке для проведения параметрических тестов. Случайность измерений ( randomness ) Независимость измерений ( independence )
E N D
Занятие 7 Трансформация данных. Непараметрические критерии.
Трансформация данных Повторение из предыдущих занятий Требования к выборке для проведенияпараметрическихтестов • Случайностьизмерений (randomness) • Независимость измерений (independence) • Гомогенность дисперсии (homogeneity = homoscedasticity) • Соответствие нормальному распределению • Для факторной ANOVA – аддитивность (пояснить с табличкой)
Трансформация данных Параметрические тесты: нулевая гипотеза формулируется о конкретных ПАРАМЕТРАХ РАСПРЕДЕЛЕНИЯ и/или эти параметры входят в формулу статистики критерия. Параметры: среднее значение, стандартное отклонение, дисперсия… Почему при проведении параметрических тестов важно соблюдать условия? Нарушим условие соответствия выборки нормальному распределению и проведём одновыборочный t-тест (односторонний)!
Трансформация данных Распределение статистики критерия не будет нормальным, если в выборке не нормальное распределение. Пусть наше распределение скошено. Z-распределение тоже будет скошено! H0: μ ≤ 90 г; H1 : μ> 90 г Пусть σизвестна. Вероятность, что среднее в выборке попадёт в критическую область (рассчитанную для нормального распределения), будет выше, чем 0.05 – увеличится ошибка 1-го рода р>0.05 р=0.05 -2 -1 0 1 2 z критическое значение
Трансформация данных Основной вывод: пренебрежения условиями использования параметрических тестов может увеличивать ошибку 1-го рода. (Неизвестно, насколько) Примечание: слабые отклонения от нормального распределения не очень страшны (в силу Центральной предельной теоремы), а для больших выборок ими можно пренебречь (кроме регрессионного анализа). ANOVA устойчива к отклонениям от нормального распределения, особенно если выборки одинаковы по размеру.
Трансформация данных Какие бывают распределения: Равномерное (uniform) Может быть и дискретным, и непрерывным
Трансформация данных Биномиальное распределение Пример: рассмотрим выводки из 6 детёнышей каждый. Возможное соотношение самцов и самок в выводке: 6:0; 5:1; 4:2; 3:3; 2:4; 1:5; 0:6
Вероятность такого выводка Количество самцов в выводке из 6 зверьков Трансформация данных Биномиальное распределение распределение количества самцов в N выводков (независимых случайных экспериментов) из n= 6 зверьков, таких что вероятность рождения самца постоянна и равна p, а вер-ть рождения самки q=1-p. Isaac Newton Если р мало, ситуация лучше описывается распределением Пуассона Биномиальному распределению обычно соответствуют доли, частоты, пропорции
Siméon Denis Poisson Трансформация данных Распределение Пуассона Показывает вероятность того или иного количества независимых друг от друга редких и случайных событий (особей, контактов, мутаций и пр.) на заданном интервале времени (участке пространства, объёме...). λ = μ Распределению Пуассона соответствуют частоты, количества случайно распределённых объектов
Трансформация данных Распределение Пуассона Сравнение распределения объектов во времени и пространстве со случайным распределением (testing for randomness) Важно: следует задавать размер элементарной единицы пространства (времени и пр.), напр., квадрата, так, чтобы μ≈ 1
Трансформация данных Экспоненциальное распределение Хорошо описывает распределение промежутков времени (расстояний) между случайными событиями с заданной средней частотой событий.
Другие распределения Логнормальное, Гамма, геометрическое, отрицательное биномиальное, гипергеометрическое и др.
частота частота значение признака значение признака Трансформация данных Если распределение отлично от нормального, выборки не гомогенны, факторы мультипликативны, можно ТРАНСФОРМИРОВАТЬ данные Прекрасное свойство: часто трансформация данных приводит одновременно к нормальному распределению, гомогенности и аддитивности
Трансформация данных • Логарифмическая трансформация (logarithmic transformation): • Делает симметричным скошенное вправо (positively skewed) распределение. • Используется в случае, когда среднеезначение в группе прямо пропорционально стандартному отклонению. Если в результате логарифмирования получилось нормальное распределение, исходное распределение было логнормальным.
Трансформация данных • 2. Извлечение квадратного корня (square root transformation) • Используется, когда среднеезначение в группе прямо пропорционально дисперсии. • обычно такое явление свойственно выборкам из распределения Пуассона(т.е., данные представляют собой количества случайных событий, объектов…) Например, количество социальных контактов в час.
Трансформация данных • Арксинусная трансформация (arcsine transformation) • применяется для процентов и долей(Xi ≤ 1), которые обычно формируют биномиальное распределение. Например, мы исследуем долю самцов или долю переживших зиму детёнышей в выводках сурков. Прочие трансформации см. Zar, 2010 (1999)
Трансформация данных • Box-Cox transformation Универсальная трансформация данных, в которой программа методом проб подбирает наилучшие параметры и способ трансформации для конкретных данных (ищется особый параметр λ)
Непараметрические методы Обычно параметрические методы не годятся, если данные РАНГОВЫЕ: неизвестно, насколько одно значение отличается от другого. НО: Zar, 2010
Если наше распределение не удовлетворяет условиям параметрических тестов и трансформация не помогаетили невозможна, наш выбор - Непараметрические методы (nonparametric methods) = “distribution-free” tests • Свойства распределения неизвестны, и параметры распределения(среднее, дисперсию и т. п.) мы использовать не можем • Основной подход – ранжирование (ranking) наблюдений (выстраиваем их по порядку от самого маленького значения к наибольшему). • подразумевается, что сравниваемые распределения имеют одинаковую форму и дисперсию.
Непараметрические методы Сравнение 2-х независимых групп Мы исследуем два редких вида сумчатых. Хотим сравнить размеры выводков у этих зверей. Фактор – вид. Группы: 1. длинноухие; 2. пятнистые Зависимая переменная – размер выводка длинноухий пятнистый
Непараметрические методы • Сравнение 2-х независимых групп: • Манн-Уитни тест (Mann-Whitney U-test) Н0: размер выводка у длинноухих сумчатых такой же, как и у пятнистых. Н1: размер выводка не одинаков у этих видов. Мы ничего не говорим про параметры распределений! Тест Манна-Уитни можно использовать и для ранговых, и для непрерывных переменных.
Непараметрические критерии Это непараметрический аналог двухвыборочного t-теста. Ранжируем данные от меньшего к большему (игнорируяделение на группы). Число 3 встретилось трижды (это называется связанные ранги, tied ranks): ранги у них будут одинаковы = (1+2+3)/3=2
Непараметрические методы Статистика критерия: n1и n2 – размер выборок, R1и R2 – суммы рангов в выборках. Статистикой критерия Uobs будет меньшее из этих двух значений.Причём Н0 мы отвергнем в случае, если оно будет МЕНЬШЕ критического значения Ucv. (т.е., это исключение среди прочих критериев).
Непараметрические критерии Если выборки удовлетворяют требованиям для параметрических тестов, мощность теста Манна-Уитни = 95% от мощности t-теста. М-У тест один из самых мощных среди непараметрических тестов! Альтернативная процедура – применить ранговую трансформацию к исходным данным (т.е., проранжировать измерения как для М-У теста) и провести двухвыборочный t-тест уже над рангами (Zar, 2010). Только М-У тест (но не t-тест) пригоден для проверки необычной гипотезы о том, что значения в одной группе отличаются от значений в другой группе в a раз (достаточно умножить значения в соответствующей группе на aи дальше провести стандартный М-У тест).
Непараметрические критерии Если размеры выборок больше 20, распределение статистики U приближается к нормальному со средним Поэтому считается значение И сравнивается с критическим значением для нормального распределения Z(наблюдаемое z должно быть по модулю больше критического). Поэтому для маленьких выборок в статье можно приводить только U, а для больших выборок нужно приводить и U, и z. Тест может быть односторонним и двусторонним
Непараметрические критерии Сравнение 2-х независимых групп: • Тест Колмогорова-Смирнова(Kolmogorov-Smirnov two-sample test): отличается от М-У теста тем, что М-У более чувствителен к различиям средних значений, медианы и т.п., а К-С тест более чувствителен к различиям распределений по форме. • Тест Вальда-Вольфовица (Wald-Wolfowitz Runs Test) – данные сортируются по зависимой переменной и оцениваются последовательности элементов из разных групп. Как и К-С тест, чувствителен к различиям распределений по форме. Манн-Уитни тест более мощный, чем эти тесты.
Mann-Whitney U-test Kolmogorov-Smirnov two-sample test Wald-Wolfowitz Runs Test
Отвергаем Н0: М-У тест показал, что размеры выводков у разных видов неодинаковые Результаты М-У теста с поправкой на наличие tied ranks Точное значение р для небольших выборок без tied ranks Просто результаты М-У теста В отличие от К-С и В-В тестов.
Непараметрические методы Сравнение 2-х связанных групп Критерий Вилкоксона (Wilcoxon matched pair test) Изучаем утконосов, и хотим знать – различается ли отношение самки к самцу и самца к самке в парах Мы считаем частоту дружелюбных контактов со стороны самки к самцу и наоборот. У каждогосамца есть по жене, а у каждой самки – по мужу.
Непараметрические методы Н0: количество контактов в популяции, из которой мы получили выборку самцов, такое же, как и в популяции, из которой выборка самок. Н1: количество контактов не одинаково. Фактор – пол. (1. самцы; 2. самки) Зависимая переменная – частота инициирования дружелюбных контактов.
самецсамка 1 пара 356 363 2 пара351 361 3 пара 353 358 4 пара 355 356 5 пара 354 359 6 пара355 355 Непараметрические методы • Считают разности между значениями в парах; • исключают нулевые разности; • присуждают абсолютным значениям (по модулю) разностей ранги; • суммируют отдельно ранги положительных и отрицательных разностей; • Наименьшая из этих сумм - статистика Т. • Отвергаем Н0, если Т меньше Tcv. Аналог t-теста для двух связанных выборок, мощность – около 95% мощности t-теста . При числе пар >100 Т апроксимируется нормальным распределением.
Wilcoxon matched pair test Число дружелюбных контактов у самцов и самок в парах было неодинаковым
Непараметрические критерии Сравнение 2-х связанных групп: Знаковый тест (Sign test) Считают разности в парах, но не ранжируют их, а просто определяют число положительных и отрицательных разностей (нули исключают). Сравнивают их соотношение с 1:1. (биномиальным тестом) Подходит для случаев, когда точные значения переменной не известны. Имеет низкую мощность, поэтому применяется только в больших выборках (больше 20 пар).
Непараметрические критерии Сравнение ≥3-х независимых групп Тест Крускала-Уоллиса (Kruskal-Wallis test) Мы получили возможность включить в работу третий, особенно редкий вид сумчатого. Теперь нас интересует, различается ли количество пищи, которую съедают за день особи этих видов. Фактор – вид. Группы: 1. длинноухие; 2. пятнистые; 3. хвостатые
Непараметрические критерии Критерий Крускал-Уоллиса (Kruskal-Wallis test) • Непараметрический аналог One-way ANOVA • на 95% настолько же мощный, как и ANOVA; • для 2-х групп идентичен Манн-Уитни тесту; • подразумевает сходство форм распределений и равенство дисперсий в группах (хотя бы на глаз)
Непараметрические критерии • все значения ранжируются от меньшего к большему (игнорируя деление на группы); • Считается сумма рангов в каждой группе; • считается статистика H(df, N). Н0: распределение в популяциях, из которых мы получили выборки, одинаковое. Н1: распределения не одинаковые. сумма рангов в каждой группе размер группы общий размер выборки
Непараметрические критерии Критерий Крускал-Уоллиса (Kruskal-Wallis test) При маленьких выборок и 3-5-и групп считается Н-статистика. Для больших выборок (или >5-и групп) Н апроксимируется распределением χ2.
Непараметрические критерии Сравнение ≥2-х независимых групп Медианный тест (Median test) Считается общая медиана для всех групп (получается, что это не непараметрический тест, а distribution-free). Затем критерием χ2(см. Частотные критерии) сравнивают числа значений, которые больше и которые меньше общей медианы в каждой из групп (табличка 2 х k). Подходит для выборок, в которых часть наблюдений выходит за пределы шкалы (или их точные значения неизвестны). Но имеет очень низкую мощность – лишь 67% мощности Манн-Уитни теста или теста Крускалла-Уоллеса. Рекомендуется для групп с n≥ 20.
Kruskal-Wallis test Median test
Доля растительной пищи отличалась между разными видами
Непараметрические критерии Критерий Крускал-Уоллиса (Kruskal-Wallis test) Как и в ANOVA, после сравнения нескольких групп имеет смысл провести пост-хок тест (апостериорное сравнение), по аналогии с тестом Тьюки, чтобы выяснить какие же группы различаются. Такие тесты существуют – Nemenyi test, Dunn’s test(Zar, 1999 или 2010). И они есть в Statistica начиная с 8-й версии!
Пост-хок тест для непараметрической ANOVA
папа мама мама мама детёныш детёныш Непараметрические критерии • Сравнение ≥3 связанных групп • Критерий Фридмана (Friedman ANOVA) У утконосов родились детёныши, и мы хотим знать, изменилась ли упитанность самок после беременности и после выкармливания потомства (мы оценивали её в баллах). • состояние до беременности; • после рождения детей; • после выкармливания детёнышей
Непараметрические критерии Критерий Фридмана (Friedman ANOVA) • для двух групп эквивалентен Знаковому тесту (sign test); • по сравнению с аналогичными параметрическими тестами, для 2-х групп имеет всего 64% мощности, для 3-х – 72%, для 100 стремится к 95%. • Основан на том, что значения ранжируются меньшего к большему внутри каждой строки. Потом суммируют ранги для каждого столбца и считают статистику χ2r, которая имеет распределение χ2. Нулевая и альтернативная гипотезы - по аналогии с предыдущими тестами, о сходстве выборок.
папа мама Friedman ANOVA
Отвергаем Н0 – состояние самок изменялось
частота значение признака Непараметрические критерии Ранговые корреляции Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона: Для каждого X значения Y должны быть распределены нормально, и для каждого Y все X должны иметь нормальное распределение - двумерное нормальное распределение (bivariate normal distribution)
Непараметрические критерии Трансформация данных в регрессионном анализе и корреляциях Применяется таким же образом, как и для других критериев, НО основанием для применения должны служить несоответствие нормальному распределению и гетерогенность дисперсий, а не нелинейность связи! Если распределения нормальны и дисперсии гомогенны, нельзя использовать трансформацию данных для получения линейной регрессии из нелинейной.
Непараметрические критерии Коэффициент корреляции Спирмана (Spearman rank order correlation) Связана ли дистанция расселения с индексом упитанности у мышей? Переменные – 1. дистанция расселения; 2. индекс упитанности