Психометрика

Психометрика

Психометрика - это дисциплина, изучающая теорию и методику психологических измерений. является разделом прикладной статистики. включает в себя две основные исследовательские задачи, а именно: 1) создание инструментов и построение процедур измерения; 2) развитие и усовершенствование теоретических подходов к измерению.

Из истории психометрики • Фрэнсис Гальтон • Чарльз Спирмен • Рональд Фишер • Карл Пирсон • Джордж Раш • и др.

Теории измерений (психометрики) • Классическая теория тестов (CTT, Classical Test Theory) • Теория содержательной выборки (domain sampling theory) • Пунктовая теория тестов (IRT, Item Response Theory) • Теория генерализуемости (generalizability, G-theory)

Классическая теория тестов Основные понятия: • 1.1.Надежность • 1.2. Стандартная ошибка измерения • 1.3. Валидность • 1.4. Дискриминативность • 1.5. Репрезентативность

1.1. – 1.2. Надежность и стандартная ошибка измерения

Истинные баллы и тестовые баллы • Представьте, что Мэри Джонс заполняет тест, состоящий из 50 пунктов, несколько сотен раз. Также представьте, что: • При каждом новом заполнении теста она не помнит, как проходили предыдущие тестирования и что она отвечала • Реальный уровень выраженности у нее измеряемой способности не изменился и оставался постоянным при каждом тестировании.

Распределение первых 100 баллов, набранных Мэри

Мы предположили, что истинный балл респондента постоянен, следовательно, дисперсия – это целиком результат ошибки измерения. Среднее арифметическое этого распределения (24) и является истинным баллом Мэри. Стандартное отклонение (5) описывает величину ошибок, которые допускались при проведении тестирования. • Эта величина - стандартное отклонение ошибок измерения - известно как стандартная ошибка измерения, SEm

Источники ошибки измерения 1 • Систематические. Имеют предсказуемый эффект и приводят к получению некоторого отклонения, которое поддается измерению. Например, этнические групповые различия в результатах тестирования отражают систематическое отклонение, если различия в результатах выполнения теста в этих двух группах является внешним и не обусловлено самой измеряемой способностью или чертой. • Случайные. Оказывают разноплановые воздействия на тестовый балл, иногда завышая его, а иногда занижая.

Разделение между этими двумя классами ошибок не всегда четко выражено. Например, предшествующий опыт заполнения психологических тестов. Фактор опытности в психологическом тестировании добавляет в тестовые баллы какую-то долю «случайной» дисперсии. Тем не менее, если бы мы знали историю предыдущих тестирований для каждого респондента, а также взаимосвязь опыта тестирований с успешностью выполнения данного теста, мы бы могли теоретически контролировать этот источник ошибки.

Источники ошибки измерения 2 • ошибка, связанная с респондентом • ошибка, связанная с тестом • ошибка, связанная с процедурой тестирования

Продолжаем мысленный эксперимент • Тестовый балл = истинный балл (отражающий реальный уровень выраженности измеряемой характеристики) + ошибка измерения • Например, если Мэри набрала балл 27, можно сказать, что ошибка измерения составила +3: 27 = 24 + 3 • Если она набрала 22, можно было бы сказать, что ошибка составили -2: 22 = 24 – 2

Каждый тестовый балл можно представить в виде суммы «истинной» части, которая не изменяется от тестирования к тестированию, и «ошибки», которая изменяется случайным образом. Ошибка имеет среднее арифметическое, равное нулю, и стандартное отклонение, равное SEm – в данном случае 5.

В теории для любого данного теста ошибка измерения для различных респондентов равна. Что отличается – так это их истинные баллы.

Если мы рассмотрим популяцию респондентов, их истинные баллы будут распределены вокруг популяционного среднего. Средний истинный балл и средний тестовый балл также совпадут, поскольку ошибка измерения имеет среднее, равное нулю. Ошибки измерения будут распределены вокруг среднего, равного нулю, со стандартным отклонением, равным SEm

Любое распределение тестовых баллов содержит в себе два компонента – дисперсию истинных баллов и дисперсию ошибки. Поскольку средняя ошибка равна нулю, добавление дисперсии ошибки к истинным баллам попросту увеличивает общий разброс данных, но не меняет среднее.

Промежуточные выводы • Во время тестирования каждый респондент обладает «истинным» уровнем выраженности характеристики, которую мы пытаемся измерить • Получаемые нами тестовые баллы «загрязнены» различными источниками ошибки. Некоторые из этих ошибок случайны, некоторые систематические. • Классическая теория измерений (и многие другие психометрические теории) имеет дело со случайными, несисистематическими ошибками. • Среднее арифметическое случайных ошибок измерения стремится к нулю с увеличением размера выборки. • Стандартное отклонение распределения ошибок измерения для популяции в целом называется стандартной ошибкой измерения (SEm). • В целом ошибки измерения влияют на дисперсию тестовых баллов, но не влияют на их среднее. • Чем больше ошибки содержится в процессе измерения, тем сильнее тестовые баллы будут разбросаны относительно истинных баллов.

Надежность • Надежность теста – это точность, с которой тест измеряет истинные баллы. • Если бы ошибки измерения не было, тесты были бы идеально надежными: тестовые баллы совпадали бы с истинными баллами. И наоборот, если бы вся вариативность тестовых баллов объяснялась исключительно ошибкой измерения, у теста была бы нулевая надежность. • Таким образом, надежность и стандартная ошибка измерения – две стороны одной медали. • Если надежность высока, SEm будет низкой. Тестовые баллы будут содержать мало ошибки и будут близки к истинным баллам. • Если надежность низка, SEm будет высокой, и тестовые баллы будут содержать большое количество ошибки.

Формулы

Для дальнейшего обсуждения важно понимать, что, дисперсии можно просто складывать друг с другом, поскольку дисперсия – это количество. Например, если мы хотим знать, сколько дисперсии обозначается двумя квадратами (сторона одного из которых равна 3 единицам, а сторона другого – 10 единицам), необходимо сложить их площади: • 3 х 3 = 9 – дисперсия, выражаемая первым квадратом • 10 х 10 = 100 – дисперсия, выражаемая вторым квадратом • 100 + 9 = 109 – общая дисперсия • Квадратный корень из 109 = 10.44 • Таким образом, сторона квадрата, выражающего суммарную дисперсию, будет равна 10.44

В нашем гипотетическом исследовании стандартное отклонение истинных баллов составляет 7, а стандартная ошибка измерения 5. Исходя из этого: • 1. Какова дисперсия ошибки измерения? • 2. Какова дисперсия истинных баллов? • 3. Какова дисперсия тестовых баллов? • 4. Каково стандартное отклонение тестовых баллов? • 5. Каково значение надежности теста (исходя из данного выше определения)?

Формулы • Конечно, на практике распределения истинных баллов и ошибки нам неизвестны. Тем не менее, нам известно распределение тестовых баллов, и исходя из него мы можем оценить надежность (что будет показано далее). Нам необходимо каким-то образом получить SEm из стандартного отклонения тестовых баллов и надежности.

Проверим это уравнение и подставим в него значения, которые нам известны из гипотетического исследования (стандартное отклонение = 8.6 и надежность = 0.66): • = 8.6 x 0.583 • = 5.0 • Как видим, получается искомое значение 5.

Формулы

Используя значения из нашего гипотетического исследования (SEm = 5, надежность = 0.66, стандартное отклонение = 8.6), вычислите каждое из этих значений из двух остальных. • (а) SEm = ? • (б) Стандартное отклонение = ? • (в) Надежность = ? • 2. Если стандартное отклонение тестовых баллов равно 1057, а SEm равно 438, чему равна надежность теста? • 3. Тест имеет надежность 0.85 и SEm = 5.6. Какой величины следует ожидать стандартное отклонение в выборке тестовых баллов?

Важное качество SEm заключается в том, что она измеряется в той же шкале, что и сам тест (выражается либо в сырых баллах, либо в одной из стандартных шкал типа z-оценок, Т-баллов и т.д.). Надежность же, с другой стороны, всегда расположена в диапазоне от 0.0 до 1.0. Этот факт делает SEm более удобным на практике, нежели надежность. • Логика рассуждений, представленная выше, иллюстрирует важную особенность психометрики. Зачастую нам приходится оценивать вещи, которые мы хотим знать, но не можем измерить (т.е. истинные баллы), исходя из вещей, которые мы можем измерить, но которые подвержены ошибке (т.е. тестовых баллов). Показатель надежности позволяет нам оценить SEm и тем самым получить представление о том, насколько сильно в тестовых баллах проявляется ошибка измерения. Конечно, остается вопрос о том, откуда брать сам показатель надежности.

Промежуточные выводы • Надежность – мера того, насколько точно проведено измерение • Надежность выражается как отношение (между 0 и 1) дисперсии истинных баллов к дисперсии тестовых баллов • Формально говоря, стандартная ошибка измерения – это стандартное отклонение в распределении ошибок измерения • Стандартная ошибка измерения показывает, какова доля случайной ошибки в проведенном нами измерении • Стандартная ошибка измерения может быть получена из стандартного отклонения тестовых баллов и надежности самого теста • Стандартная ошибка измерения полезна тем, что она выражается в той же шкале, что и сырые баллы

Способы оценки надежности • Тест-ретестовая надежность: корреляция между шкалами теста, проведенного на одной и той же выборке людей в два различных момента времени • Надежность альтернативных форм: корреляция между шкалами в двух различных версиях одного теста, проведенного на одних и тех же людях • Надежность по гомогенности: корреляции между пунктами или частями шал при проведении теста один раз на одной выборке респондентов

Тест-ретестовая надежность • Поскольку частично тест-ретестовая корреляция зависит от устойчивости (стабильности) черт во времени, этот коэффициент зачастую называют коэффициентом стабильности (устойчивости) признака. • В случаях, когда тест и ретест проводятся с небольшим промежутком времени, тест-ретестовую корреляцию иногда называют коэффициентом зависимости.

Несколько вариантов • Шкала А является надежной мерой устойчивой черты. Тестовый балл дает довольно точную оценку истинного балла, а сам истинный балл относительно устойчив во времени. • Шкала Б является надежной мерой неустойчивой черты. Тестовый балл дает довольно точную оценку истинного балла, но сам по себе истинный балл изменчив во времени. • Шкала В является ненадежной мерой устойчивой черты.

Надежность альтернативных (параллельных) форм • Коэффициент корреляции между двумя формами теста называется коэффициентом эквивалентности. • Коэффициенты эквивалентности обычно ниже, чем коэффициенты стабильности (при условии, что измерения проводятся с одинаковым временным интервалом). Это и понятно, поскольку в данном случае добавляется еще один источник ошибки – разные формы теста. Но это не означает, что надежность параллельных форм ниже.

Надежность по гомогенности • Надежность частей теста * • Надежность по внутренней согласованности *

Надежность частей теста • Проблема: тест, имеющий лишь 50 % пунктов, будет гораздо менее надежным. Это означает, что, если мы хотим оценить надежность полного теста (со 100 % пунктов), в данный коэффициент необходимо вносить поправки • Поправка Спирмена-Брауна: • Несмотря на легкость в вычислении, надежность частей теста имеет серьезный недостаток. Корреляция между двумя частями теста зависит от того, каким именно образом тест был разделен пополам

Надежность по внутренней согласованности • Если представить тест как набор очень маленьких параллельных форм, каждая из которых состоит всего из одного пункта, можно относиться к корреляциям между пунктами как к корреляции частей теста. Если мы возьмем все эти межпунктовые корреляции, а затем внесем в них поправку, учитывая тот факт, что «целый» тест гораздо длиннее, чем отдельные его части, получим коэффициент внутренней согласованности пунктов теста. • Если k – это количество пунктов теста, а R – средняя межпунктовая корреляция, то:

На практике коэффициент внутренней согласованности не вычисляется с использованием усредненной межпунктовой корреляции, а использует формулу, основанную на пропорции суммы дисперсий отдельных пунктов (или частей теста) и дисперсии общего тестового балла. Это уравнение в общем виде известно как формула альфа Кронбаха. Зачастую коэффициенты внутренней согласованности называют коэффициентами Альфа или Альфа Кронбаха. Также распространены формулы KR-20 и KR-21 (Кьюдер и Ричардсон, уравнения номер 20 и 21). Эти формулы аналогичны альфа Кронбаха.

r – количество заданий теста p – доля испытуемых, справившихся с каждым заданием; q = 1 – p. КОЭФФИЦИЕНТ КЬЮДЕРА-РИЧАРДСОНА

КОЭФФИЦИЕНТ КРОНБАХА

Уравнения, вычисляющие альфа Кронбаха и KR-20 и KR-21, основаны на предположениях о том, что: • Все пункты измеряют один фактор или черту • При условии довольно большой выборки все межпунктовые корреляции стали бы равными • При условии большой выборки дисперсии всех пунктов стали бы равными. • В основе уравнения KR-21 лежит еще одно допущение: все пункты теста имеют в среднем одинаковый уровень трудности.

Промежуточные выводы • Существуют три основных метода оценки надежности: тест-ретестовая, надежность параллельных форм и надежность по гомогенности • Каждый из этих методов включает различные источники ошибки и потому подвержен различным искажениям (например, тест-ретестовая надежность в большей степени подвержена эффектам научения, нежели надежность по внутренней согласованности). • Корреляции частей теста должны включать поправки по формуле Спирмена-Брауна, чтобы получить коэффициент, который относится ко всему тесту целиком, а не к отдельным его частям. • Формулы для вычисления коэффициентов типа альфа Кронбаха основаны на межпунктовых корреляциях.

Какой показатель надежности следует использовать и насколько надежным должен быть тест? • В следующей таблице показаны приблизительные интервалы ошибки, связанные с коэффициентами надежности, в зависимости от размера выборки. Например, если наш коэффициент надежности основан на выборке в 30 человек, любой коэффициент надежности, который мы получаем на такой выборке, имеет диапазон ошибки, равный 0.20. Рассмотрим ретестовую надежность величиной 0.7. На выборке в 30 человек можно быть на 95 % уверенным в том, что истинная надежность выше приблизительно 0.30 (другими словами, возможно, что надежность довольно низка). С другой стороной, с выборкой в 500 человек можно быть на 95 % уверенным в том, что истинный коэффициент надежности превышает 0.62.

Приблизительные рекомендации • При условии достаточной величины выборки (200 человек и более), обычно следует ожидать надежности 0.70 для параллельных форм, чуть выше для тест-ретеста и еще чуть выше для внутренней согласованности (по крайней мере 0.80). Для высокоспецифичных тестов следует ожидать коэффициентов внутренней согласованности на уровне 0.90 или даже 0.95. Более высокие значения надежности, как правило, получаются только в тестах настолько узких, что возможности их практического применения находятся под вопросом. • Тест-ретестовая надежность снижается с увеличением промежутка времени между тестом и ретестом, а также со снижением стабильности измеряемого признака. Для тестов способностей и временного интервала в 1-2 недели следует ожидать значений между 0.70 и 0.80. Тесты личности обычно обладают более низкой ретестовой надежностью (от 0.60 до 0.70).

Интервалы доверия

Сигмы и вероятности

Психометрика

Психометрика

Presentation Transcript