450 likes | 643 Views
Инструментарий для понимания и использования гражданским обществом данных о развитии: содействие принятию решений в области достижения ЦРТ и их мониторингу. Модуль 8: Жизнь с ошибками. После изучения данного модуля вы будете:. Понимать, что является причиной ошибок в показателях ЦРТ
E N D
Инструментарий для понимания и использования гражданским обществом данных о развитии: содействие принятию решений в области достижения ЦРТ и их мониторингу Модуль 8: Жизнь с ошибками
После изучения данного модуля вы будете: • Понимать, что является причиной ошибок в показателях ЦРТ • Знать три типа ошибок в показателях ЦРТ и их отличия
Откуда появляются ошибки? • Для расчета показателей ЦРТ используются данные • Данные содержат информацию о генеральной совокупности, и их собирают люди • Любые недостатки при сборе информации и ее обработке ведут к ошибкам в показателях ЦРТ
Типы ошибок Можно выделить три типа ошибок при расчете показателей ЦРТ (и других сводных показателей): Ошибки при расчетах Систематические ошибки Ошибки выборки
Ошибки в расчетах • Ошибки, которые делаются при расчетах показателей ЦРТ или их компонентов • В большинстве случаев их можно избежать • Вероятность их возникновения снижается по мере автоматизации расчетов
Систематические ошибки Систематические ошибки – это ошибки, которые приводят к тому, что все измеряемые величины отклоняются от своих истинных значений в одном и том же направлении (в большую или меньшую сторону) • Возникают, когда статистическая структура выборки отличается от структуры генеральной совокупности • Всегда являются проблемой в развивающихся странах, когда показатели ЦРТ рассчитываются на основе административных данных • Часто возникают, когда используются данные опросов
Систематические ошибки (2) Выборочное среднее 1. Ошибка (мужчины) x x x x x 2. Ошибка (женщины) x x x x x 3. Нет ошибкиx x x x x Ген. совокупностьx Шкала измерения
Ошибки выборки • Могут трактоваться как различие между выборкой и генеральной совокупностью, на основе которой построена выборка • Всегда присутствуют расчете показателей ЦРТ на основе выборочного обследования • Как правило отсутствуют, когда расчеты сделаны на основе административных данных (если только они не собраны на основе выборки) • Отсутствуют при переписи
Ошибки выборки (2) Выборочное среднее (мужчины)X Значение для генеральной совокупности:X Ошибка выборки Шкала измерения
Совместное воздействие систематической ошибки и ошибки выборки Выборочное среднееx Значение для генеральной совокупности:X систематическая ошибка Ошибка выборки Шкала измерения
Дозенландия: пример ошибки выборки Дозенландия – самая маленькая страна в мире, в которой только: • 12 домохозяйств • каждое состоит из одного человека
Проблема Нужно оценитьсредний доход в дозенландских долларах на душу населения Как нам это сделать? Провести перепись (истинное значение) Использовать выборку – 4 домохозяйства Использовать любые другие выборки любого размера
Глава домохозяйства ( инициалы ) Доходы (D$) WJK 4200 RNC 7500 MM 4700 JHR 6900 HRP 5900 KP 6400 IMW 4300 RDS 3100 DGN 4700 DC 4500 MGK 7000 DJP 6400 Сумма 65600 Средний 5466.7 Данные переписи
Выборка из 4 домохозяйств • У правительства Дозеландии нет средств на перепись, поэтому решено сделать выборку на основе 4 домохозяйств • Случайным образом отобраны домохозяйства WJK, MM, DC, DJ • Таким образом, в выборке доходы домохозяйств 4200, 4700, 4500, 7000 в дозеландских долларах (D$) • Средний доход по выборке: (4200+4700+4500+7000)/4 = 5100 D$
Настоящая ошибка Поскольку мы провели гипотетическую перепись, мы знаем каково реальное значение среднего дохода, т.е. мы можем определить настоящую ошибку 5100 - 5466.7 = -366.7 (D$) Мы недооценили реальный доход на 7%
Объяснение • Это несистематическая ошибка, поскольку выборка является случайной • Это просто результат того, что выборка отличается от генеральной совокупности
Что же нам делать? • Использовать другую выборку(Например, увеличить размер, приблизив ее к реальному числу домохозяйств) • 2. Использовать статистическую теорию, позволяющую оценивать ошибку выборки
Результаты использования всех возможных выборок n S Среднее для Дисперсия средних 1 12 5466.7 1327.5 2 66 5466.7 895.0 3 220 5466.7 693.3 4 495 5466.7 566.0 5 792 5466.7 473.6 6 924 5466.7 400.3 7 792 5466.7 338.3 8 495 5466.7 283.0 9 220 5466.7 231.1 10 66 5466.7 179.0 11 12 5466.7 120.7 12 1 5466.7 Все возможные размеры выборки n (от 1 до 12) из 12 домохозяйств n = размер выборки; S = число выборок размером n
Какой можно сделать вывод? Если взять все возможные выборки, среднее из средних всегда будет одно и тоже и будет равно действительному среднему по генеральной совокупности (по всем домохозяйствам) Дисперсия уменьшается с ростом размеров выборки (n),чем больше размер выборки, тем более точная оценка
В чем же проблема? • В реальной жизни мы можем использовать только одну выборку • Т.е. мы не можем наблюдать, какие значения будут для каждой выборки размером n, и как они изменяются от выборки к выборке • Т.е. мы не можем измерить среднее или отклонение по всем выборкам
Вот решение! • Мы можем измерять стандартную ошибку, используя одну выборку • Это поможет нам определить, насколько наша выборка отличается от генеральной совокупности Рассмотрим выборку из 4 домохозяйств: 4200, 4700, 4500, 7000. Получаем: • среднее = 5100 • стандартная ошибка = 524 • 95% доверительный интервал = 5100 ± 1666 = [3434 to 6766]
Дизайн выборки • Постройте выборку случайным образом • Стратифицируйте выборку – сделайте независимые выборки внутри важных групп (страт)в генеральнойсовокупности • Сокращается ошибка выборки с минимальными дополнительными издержками • Постройте кластерную одно- или многошаговую выборку – выборка (или подвыборка) из целых групп (“кластеров”)генеральной совокупности • Увеличивает ошибку выборки, но сохраняет время и деньги
Статистическая теория на практике • В статистических учебниках рассказывается, как: • производить сложный дизайн выборки • рассчитывать пропорции, отношения и иные сводные характеристики • строить доверительные интервалы • Хотя теория более разнообразна, принципы, практика и интерпретация приблизительно такие же, как в нашем простом примере
Ошибка при формировании выборки из генеральной совокупности В ряде случаев ошибка возникает из-за того, что мы неправильно определяем целевую генеральную совокупность Пример:запись актов гражданского состояния Целевая группа:все умершие Используемая генеральная совокупность:городское население
Важна ли систематическая ошибка? Возникновение систематической ошибки связано с различиями между • характеристиками людей, включенных в генеральную совокупность для сбора данных, и • характеристиками невключенных людей Пример:является ли младенческая смертность более распространенной в городских или сельских регионах?
Обычные источники систематической ошибки • Сознательный отбор • Ошибки в определении генеральной совокупности • Отсутствие ответов и человеческий фактор Примечание:между этими группами существует совпадение
Сознательный отбор Происходит, когда отдельные группы населения имеют больший шанс попасть в выборку, чем другие Пример:обследование бюджетов домохозяйств • Интервьюер не хочет ходить в удаленные домохозяйства, до которых долго добираться • Такие домохозяйства скорее всего имеют низкий доход и находятся на самообеспечении • В результате происходит завышение среднего дохода
Ошибки в определении генеральной совокупности Неадекватность сформированной выборки • Данные поступают или из административных источников, или из выборочных обследований • Неполные административные записи (списки избирателей, налогоплательщиков, предприятий, карты улиц и т.д.) или «неточная» основа выборки • Неадекватная основа выборки Классический пример :использование телефонов для опросов респондентов
Пропущенные группы Основа выборки или административные записи могут неадекватно отражать кластер генеральной совокупности, и какие-нибудь группы могут быть пропущены Пример: • Основа выборки: в список домохозяйств не попадают люди из детских домов • Административные данные: бизнес-регистры могут не сдержать данных о предприятиях в сельской местности
Пропуски В основе выборки могут быть пропуски Например • Обследование: в список домохозяйств могут не попасть вновь приехавшие • Административные данные: в бизнес-регистр не попадает новое, недавно созданное предприятие
Лишние единицы В основу выборки могут попасть «чужеродные элементы», которые не соответствуют концепции выборки. Пример: • Обследование: в списке домашних хозяйств могут оказаться переехавшие в другое место • Административные данные: бизнес-регистр может содержать данные о только что закрывшихся предприятиях
Дублирование единиц Некоторые единицы генеральной совокупности могут появиться два и более раз Пример: Административные данные: предприятие, переехавшее на другую территорию, может дважды попасть в бизнес-регистр
Преимущества и недостатки попадания в списки Качество данных может зависеть от заинтересованности в регистрации • Если предлагается вознаграждение, может возникнуть желание зарегистрироваться обманным путем • Если берутся налоги, возникает желание избежать регистрации Пример Casley and Lury (1981): министерство финансов в одной из стран-островов в Карибском море предложило выдавать субсидии на удобрения на каждый зарегистрированный участок земли Позже обнаружилось, что субсидии выдавались на землю, превышающую площадь острова!
Отсутствие ответов и человеческий факторОтсутствие ответов Бывает трех типов: • Не могут отвечать • Отсутствуют • Отказываются
Отсутствие ответов и человеческий факторЧеловеческие ошибки • Намеренные ответы – когда респондентов поощряют отвечать определенным образом Пример 1:фермер преувеличивает размер участка, думая, что это приведет к увеличению помощи от государства или…. Пример 2:фермер преуменьшает размер участка в надежде минимизировать налоги
Первоначальный вопрос и ошибка престижа Некоторых респондентов подталкивают отвечать определенным образом, задавая вопрос. Например: «Вы согласны, что есть мясо – варварство?» Большинство людей соглашаются, чтобы избежать дальнейших расспросов! Люди бояться показаться плохо информированными Даже вид интервьюера может вызвать искажения в ответах
Суммарная ошибка Как мы видели, ошибка выборки снижается по мере повышения размера выборки К сожалению, обратное, как правило, справедливо для систематической ошибки: она возрастает с ростом размера выборки
RMSE BE SE Среднеквадратическая ошибка Суммарная ошибка – взятые вместе ошибка выборки (SE) и систематическая ошибка (BE); она измеряется при помощи среднеквадратической ошибки(RMSE)
Что делать с ошибками? • Определить их количественно • как правило, возможно только для ошибок выборки • Признавать их, если они не приводят к путанице и потере доверия • Фиксировать их с помощью метаданных • Рассматривать небольшую разницу в показателях ЦРТ с осторожностью • эта разница может быть вызвана только ошибками
Как минимизировать ошибки? • Использовать выборку большего размера • Делать лучший дизайн выборки (например, стратификацию) • Быть более внимательным к администрированию выборки (например, минимизировать отказы от ответов) • Улучшить качество административных данных (охват) • Использовать статистические модели для разного рода усреднений
Резюме Существует три типа ошибок, оказывающих влияние на показатели ЦРТ: • Связанные с вычислениями, могут быть устранены при внимательном отношении к расчетам и использовании соответствующего программного обеспечения • Ошибки выборки не устраняемы при использовании выборочных обследований • Систематические ошибки часто присутствуют, но их можно минимизировать, тщательно проводя сбор данных
Практическое занятие 8 • Перечислите три способа возникновения систематической ошибки • Перечислите два метода, при помощи которых может быть уменьшена ошибка выборки