280 likes | 577 Views
«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010. Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема. Ишалина М.А., Постовалов С.Н. Факультет прикладной математики и информатики
E N D
«АКТУАЛЬНЫЕ ПРОБЛЕМЫЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ»АПЭП – 2010 Исследование распределений статистик критериев однородности по многократно цензурированным выборкам фиксированного объема Ишалина М.А., Постовалов С.Н. Факультет прикладной математики и информатики Новосибирский государственный технический университет ishalina@ngs.ru, postovalov@ngs.ru
Сравнение двух кривых жизни • Сравнение двух кривых жизни на сегодняшний день не является какой-то новой проблемой, так как уже на протяжении многих лет встречается в анализе выживаемости и теории надежности. • К примеру, в анализе выживаемости - это сравнение действенности лекарственного препарата на двух группах больных, причем это может быть сравнение двух разных препаратов. • Также, может быть сравнение разных доз одного препарата, а возможны и такие опыты, когда одной группе заболевших совсем не дают никаких лекарств. • В теории надежности - это сравнение двух групп деталей на надежность, когда необходимо определить является ли новая модель или модификация какой-либо детали надежней своей предшественницы. 2
Критерии сравнения двух кривых жизней Основная проблема анализа данных выживаемости в том, что часто нет возможно наблюдать каждый объект на протяжении всего времени, до конца. Таким образом, мы имеем цензурирование или неполные данные. Для таких случаев требуются специальные статистические методы. Рассматриваемые критерии: • Критерий Гехана (1965) • Логарифмический ранговый критерий(1972) • Критерий Кокса-Мантела (1966) 3
Проверяемая гипотеза и Пусть имеется две выборки и соответственно. объемами Где это полное или цензурированное наблюдение. - функция выживаемость для - функция выживаемость для Основная гипотеза имеет вид (1) и альтернативы к ней 4
Вычисление статистик критериев Объединим выборки T1и Т2 и отсортируем полученную выборку по возрастанию. где n=n1+n2 Пусть (2) и (3) 5
Критерий Гехана , Каждого больного из первой группы сравнивают с каждым больным из второй группы. (4) Затем вычислим величины: (5) Окончательная статистика критерия имеет вид: (6) 6
Логарифмический ранговый критерий Статистика критерия имеет вид: (7) где: (8) (9)
Критерий Кокса-Мантела Статистика критерия имеет вид: (10) где: (11) (12) 8
Распределение статистик критериев Предельный закон распределения статистик рассмотренных критериев - стандартное нормальное распределение с функцией распределения: (13) Таким образом, основная гипотеза отвергается, если: (14) где - ошибка первого рода. 9
Основная задача При каком размере выборки расстояние между распределением статистики и предельным законом не превышает заданного? (15) где - функция распределения статистики при фиксированном n - функция распределения статистики при 10
Выбор Для большинства задач проверки статистических гипотез, погрешность в определении достигнутого уровня значимости может быть равна 1%. Итак, пусть (16) 11
Компьютерное моделирование В работе мы получаем распределение статистик критериев с помощью компьютерного моделирования. Алгоритм: • моделируем две полные или цензурированные выборки объема n = n1 =n2по заданному распределению, • затем вычисляем значение статистики критерияи • повторяем этот процессNраз. 12
Рассмотренная модель В работе выборки моделировались по закону распределения Вейбулла с функцией распределения: (17) гдеα=2и λ=1. 13
Выбор N - объема выборки статистик Какое количество выборок нужно смоделировать, чтобы погрешность моделирования была не больше заданной? Согласно ЦПТможем построить доверительный интервал (18) где - эмпирическая функция распределения Следовательно (19) Пусть Тогда (20) 14
Исследования Поскольку неизвестно, будем наблюдать расстояние (21) 15
Распределение статистики критерия Гехана при малых объемах выборок и без цензурирования 11
Распределение статистики критерия Гехана при малых объемах выборок с цензурирования 17
Статистика критерия Гехана при различных процентах цензурирования, n1 = n2 = 20 18
Dn,Nдля статистики Гехана (различных объем и степень цензурирования)
ЗависимостьDn,N отnстатистики критерия Гехана 50% 0%
Dn,Nдля статистики логрангового критерия
ЗависимостьDnот n для статистики логарифмического рангового критерия 50% 0%
ЗависимостьDn,Nот n для ститисики критерия Кокса-Мантела 50% 0% 24
Функция распределения статистики Кокса-Мантелапри малом объеме выборок и проценте цензурирования 50%
Рекомендуемый объем выборки Для того, чтобы использовать предельное распределение в критериях однородности (с заданной погрешностью 0.01) мы должны взять выборку соответствующего объема 26
Выводы • Мы исследовали распространение статистик трех критериев проверки гипотезы однородности и показали, что имеется сходимость к предельному распределению. • Эта сходимость быстрая при малом проценте цензурирования и медленная при большом проценте цензурирования. • Если объем выборки превышает полученные значения, то расстояние до предельного закона не превышает 0.01. • В противном случае мы рекомендуем определять достигаемый уровень значимости с помощью метода Монте-Карло, вместо предельного закона. 27