450 likes | 740 Views
Наиболее распространенные ошибки статистического анализа данных в квалификационных работах биологического профиля. Карпенко М.Н. 2013г. «Как блестящие идеи, так и научные нелепости одинаковым образом можно облечь во впечатляющий мундир формул и теорем». В.В. Налимов.
E N D
Наиболее распространенные ошибки статистического анализа данных в квалификационных работах биологического профиля Карпенко М.Н. 2013г.
«Как блестящие идеи, так и научные нелепости одинаковым образом можно облечь во впечатляющий мундир формул и теорем». В.В. Налимов
Большинство ошибок возникает при использовании простейшихстатистических методов! Специфика научного исследования заключается в том, что использование автором неадекватного метода даже на одном из этапов работы лишает его выводы достоверности. Выход: соблюдать несколько простейших правил! George S.L. Statistics in medical journals: a survey of currentpolicies and proposal for editors. Med Pediat Oncol. 1985;13:10912. Lang T., Secic M. How to report statistics in medicine: annotated guideline for authors, editors, and reviewers. Philadelphia (PA): American Colleje of Physicians;1997.
ошибки статистического анализа данных Ошибки в описании результатов Ошибки в представлении данных Ошибки в выборе статистического критерия
данные Количественные Качественные (их нельзя выстроить в последовательность) Непрерывные Дискретные Ранговые (качественные, но могут быть упорядочены; размер интервалов на шкале неодинаковый) Потеря информации и точности
ШКАЛЫ ИЗМЕРЕНИЙ Шкала наименований Шкала отношений Шкала интервалов Шкала порядка Мощность шкалы
Ошибка первая: подмена типов данных • Замена количественных данных качественными; • Качественные данные анализируются как количественные.
Разбиение данных на подгруппы на основании модальности распределения мультимодальное унимодальное бимодальное обычно возникают, если популяция имеет естественные обособленные подгруппы
Основные типы задач, решаемых с помощью метода статистической группировки:
ошибка вторая: округление Количественные данные представляются с излишней точностью. ПРАВИЛО: числовое значение результата измерений представляется так, чтобы оно оканчивалось десятичным знаком того же разряда, какой имеет погрешность этого результата. Погрешности измерения сами определяются с некоторой погрешностью. «Погрешность погрешности» обычно такова, что в окончательном результате погрешность приводят с одной-двумя значащими цифрами.
округление: Алгоритм действий • Задаем n и доверительную вероятность, например, α=0,95; проводим эксперимент; • Вычисляем среднее выборочное; • Вычисляем ошибку среднего; • Для заданных n и α находим tnα, • По паспорту прибора определяем инструментальную погрешность Δин. В паспорте, если не указано иное, приведена погрешность для α=0,997, поэтому при заданной α=0,95Δин учитываем с коэффициентом 2/3. • Находим абсолютную погрешность по формуле: • Находим относительную погрешность по формуле:
Округляем абсолютную и относительную погрешность до двух значащих цифр (если первая из них меньше или равна 3) и до одной (если первая из них больше 3). • Округляем результат измерения. Число значащих цифр результата измерений должно быть ограничено поом величины абсолютной. • Записываем результат.
ошибка третья: неправильное использование статистических оценок Качественный номинальный признак – мода; Ранговый признак – мода и медиана; Количественный признак – мода, медиана, среднее. Средняя температура по больнице с учетом гнойного отделения и морга составила 36,60С.
Среднее или все же медиана? Пример. Средняя зарплата: мода показывает какова зарплата «среднего» работника, а среднее – отражает среднюю зарплату на предприятии. Среднее выборочное вычисляется только для признаков, измеряемых в шкале отношений и исключительно для выборки, подчиняющейся нормальному закону распределения!
ошибка четвертая: стандартная ошибка среднего • Среднее – описывает центральную тенденцию; • СКО - вариабельность данных; • СОС – показатель точности оценки среднего. Пример: измеряем массу тела у N=100 мужчин, среднее м=72 кг, СКО=8кг, тогда СОС=0,8. Вывод 1: примерно в 68% случаев результат измерений будет лежать в диапазоне (64; 80)кг. Вывод 2: примерно в 68% случаев средняя масса тела составит (71,2;72,8)кг.
ошибка пятая: анализируемые данные не соответствуют условиям критерия • использование параметрических критериев для анализа данных, не подчиняющихся нормальному распределению; • использование критериев для независимых выборок при анализе парных данных. • использование t-критерия (критерия Манна-Уитни) для сравнения трех и более групп, а также для сравнения долей.
Общая схема процедуры проверки гипотезы: • Формулируем Н0 и Н1. Строим распределения такие, как будто Н0 верна: • распределение исследуемой переменной; • распределение параметра выборки; • распределение статистики критерия. • Устанавливаем условия, при которых мы отвергнем Н0 – Определяем: • уровень значимости; • односторонний или двусторонний будет тест; • критическое значение статистики критерия. • Считаемпараметр выборки и статистику критерия для реальной выборки, сравниваем ихс критическими значениями. • Интерпретируем результаты: • Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты статистически? • Если да, достоверны ли они ПРАКТИЧЕСКИ? это делает человек, а не компьютер
Возможные ошибки Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а ошибку 2-го рода – только «принимая» Н0 (нельзя сделать одновременно обе ошибки).
Двухвыборочные критерии Различаются ли по массе тигры-самцы и тигры-самки в зоопарке? Сравниваем средние массы наших зверьков. Мы анализируем влияние пола на массу тигров. Зависимая переменная – масса. Независимая (группирующая) – пол (группы: 1. самцы; 2. самки) самец самка
Двухвыборочные критерии. Критерий Стьюдента для независимых выборок Общий вопрос: получены ли выборки из одной популяции? Частный вопрос: равны ли средние значения между собой? • Размеры выборок могут отличаться • Выборки должны иметь нормальное распределениеи их дисперсии должны быть равны. • Критерий может быть односторонним и двусторонним
параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки Двухвыборочные критерии разность выборочных средних ошибка Ошибка считается из средних квадратов стандартных отклонений в выборках Основное распределение - t-распределение (Стьюдента) * Это статистика для двустороннего критерия
Двухвыборочные критерии. Проверка гипотезы о законе распределения Соответствует ли распределение мотыльков на деревеНОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ? Переменная – высота от земли в метрах • Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) (если известны дисперсия и среднее в популяции) D-статистика. • Lilliefors test – если НЕизвестны дисперсия и среднее в популяции – «улучшенный К-С тест» • Shapiro-Wilk’s W test(самый мощный, размер выборки до 5000) – наиболее предпочтительный.
Двухвыборочные критерии. Критерий Стъюдента для связанных выборок К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса. Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная – масса. Независимая – группы: 1. до нового служителя; 2. после)
ДО ПОСЛЕ 1 тигр 356 363 2 тигр 351 361 3 тигр 353 358 4 тигр 355 356 5 тигр 354 359 6 тигр 355 355 Двухвыборочные критерии. Критерий Стъюдента для связанных выборок Каждый тигр два раза участвует в наблюдениях: он входит в обе группы. Таких D столько, сколько пар. У них есть среднее. Идентично одновыборочному t-критерию! Статистика: Тест может быть односторонним и двусторонним
Формирование выборок для параметрических критериев • В случае t-критериев Стьюдента: • выборки случайные из популяций с нормальным распределением, равными дисперсиями, N≥10, лучше всего – от 30. НО: • 1. небольшие отклонения от нормального распределения допустимы, если: • распределение симметрично; • тест двусторонний (односторонний НЕ рекомендуется) • размеры выборок одинаковы 2. Для двухвыборочных тестов несоблюдение требования равенства дисперсий(приводит к увеличению ошибки 1-го рода) допустимо, если: • распределения соответствуют нормальному; • выборки отличаются по размеру не больше, чем на 10% • 3. Двухвыборочные тесты Стьюдента и пр. не просто так названы двухвыборочными – они не подходят для 3-х и более выборок!!.
Проверка равенства дисперсий: вставлена в Статистике в блоки с соответствующими параметрическими тестами (t-тест, ANOVA) • Проверка равенства дисперсий • F-test – для двух групп; • Levene’s test– более надёжный, подходит для двух и более групп; • Brown & Forsythe's test –подходит для выборок разного размера • Barlett’s test – для трёх и более групп /Если выборки гетерогенны, есть способы сделать их гомогенными./
Множественные сравнения или кошмар Бонферрони Предположим, у нас 4 группы тигров, которых кормят по-разному. Различается ли средняя масса тигра в этих группах?
ANOVA Одназависимая переменная (variable): масса; Одна независимая (группирующая, factor) – тип еды. One-way ANOVA Формулируем гипотезу Н0: • Тигров кормили: • овощами; • фруктами; • рыбой; • мясом. Это сложная гипотеза (omnibus hypothesis). Она включает в себя много маленьких гипотез (для 3-х групп – 3, для 4-х – 12 …): Комплексные (complex) нулевые гипотезы Парные (pairwise) нулевые гипотезы ...
ANOVA post hoc tests • Если у нас 3 и более групп: • Сначала сравнить ВСЕ группы между собой с помощью ANOVA • Если различия есть, использовать методы множественного сравнения (группы сравнивают попарно, но вводят поправки) • Если различий нет, мы НЕ ИМЕЕМ ПРАВА ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ! Двухвыборочный t-критерий для сравнения групп попарно после проведения ANOVA тоже не годится! Например, если мы сравним две крайние группы, это уже будут не случайные выборки из генеральной совокупности, и уже будет не 0.05!
Непараметрические методы • Свойства распределения неизвестны, и параметры распределения(среднее, дисперсию и т. п.) мы использовать не можем • Основной подход – ранжирование (ranking) наблюдений (выстраиваем их по порядку от самого маленького значения к наибольшему). • подразумевается, что сравниваемые распределения имеют одинаковую форму и дисперсию.
Анализ частот Родились: 84 розовых мыши и 16 зелёных. H0: выборка получена из популяции, где соотношение розовых и зелёных – 3:1. H1: выборка получена из популяции, где соотношение розовых и зелёных не равно 3:1 1:3?? Заметим, что речь идёт только о частотах, но не о параметрах распределения.
df = k-1=1 Чем больше значение χ2,тем хуже наши данные соответствуют теоретическому распределению – тем меньше р χ2cv= 3.841<4.320 p=0.038 H0отвергаем – соотношение мышей не соответствует ожидаемому
♀ ♂ ♂ ♀ ♀ Анализ частот Сравниваем независимые выборки, причём все переменные (≥2)категориальные. Tests of independence – проверяют, зависит ли форма распределения одной переменной от значений другой переменной (переменных). Критерий χ2(χ2 analysis of contingency tables = χ2 test of independence) ♂ ♂ ♀ Связаны ли пол и цвет у коз?
Таблицы вида a × b. Общая Н0 гипотеза: частоты в строчках не зависят от частот в столбцах. H0: цвет меха не зависит от пола в популяции коз; H1: цвет меха зависит от пола в популяции коз. Мы для каждой ячейки рассчитываем ожидаемую частоту (на основе общих частот для столбцов и строк).
Ошибки при описании результатов «Смутно пишут о том, о чем смутно представляют» М.В. Ломоносов
Пример1 • Что такое «граница нормального распределения»? Зачем ее находили? • С помощью какого критерия проверялась гипотеза о виде распределения? • Что такое «неправильное распределение»? • Данные описаны с помощью среднего и стандартного отклонения. • ANOVA – параметрический критерий.
Пример 2 • Гипотеза о виде распределения не проверялась. • Что такое «достоверность параметров»? • Гипотеза о равенстве дисперсий не проверяется. • Уровень значимости не указан.
Пример 3 Статья "Влияние гиперлипидемии на чувствительность тимоцитов к апоптозу у мышей линии CBA и C57BI/C." Киселева Е.П., Пузырева В.П., Огурцова Р.П., Ковалева И.Г. Институт экспериментальной медицины РАМН, Санкт-Петербург. Бюллетень экспериментальной биологии и медицины, вып. 8, 2000, стр. 200-202.