Валидность теста
Контрольная работа, 22 Февраля 2015, автор: пользователь скрыл имя
Описание работы
Показатель валидности является одним из важнейших в указанных критеряих оценки результатов тестов.
Целью данной работы является рассмотрение сущности данного показателя, его типы и виды. а также особенности расчета показателя валидности теста.
Содержание работы
Введение
3
Понятие валидности теста
4
Виды валидности теста
6
Особенности определения и расчета валидности теста
10
Заключение
15
Список использованных источников
Файлы: 1 файл
кр по психодиагностике валидность теста.docx
— 45.96 Кб (Скачать файл)3) ретроспективная валидность
определяется на основе критерия,
отражающего события или состояние
качества в прошлом. Данный вид
валидности может быть использован
для быстрого получения сведений
о предсказательных возможностях
методики. Так, для проверки того,
в какой мере хорошие результаты
теста способностей соответствуют
быстрому обучению, можно сопоставить
прошлые оценки успеваемости, прошлые
экспертные заключения и т.д. у
лиц с высокими и низкими
на данный момент диагностическими
показателями.
Выделяют также внутреннюю и внешнюю валидность, согласно соответствию методики внешним и внутренним признакам
Валидность внешняя – применительно психодиагностических методик означает соответствие результатов психодиагностики, проводимой посредством данной методики, независимым от методики внешним признакам, относимым к субъекту обследования.
Валидность внутренняя – применительно психодиагностических методик означает соответствие содержащих в ней заданий, субтестов; соответствие результатов психодиагностики, проводимой посредством данной методики, определению оцениваемого психологического свойства, использованному в самой методике. Методика считается внутренне не валидной или недостаточно валидной, когда все или часть включённых в неё вопросов, заданий и субтестов измеряют не то, что требуется данной методикой.
Кроме того исследователями могут рассматриваться и другие виды валидности, как: дефиниционная, дифференциальная, априорная, инкрементная, конгруэнтная, консенсуальная, номологическая, присущая, прагматическая, синтетическая, факторная, иллюзорная и т.д.
- ОСОБЕННОСТИ ОПРЕДЕЛЕНИЯ И РАСЧЕТА ВАЛИДНОСТИ ТЕСТА
Корректное определение валидности теста зависит от его исходной структуры, его составных компонентов. В самом общем виде тесты или относятся к трем группам (L-date, Q-date, Т-date), или содержат в себе аналогичные три компонента10:
а) данные жизненного пути, социально-демографические, биографические данные;
б) вопросы, ответы на которые варьируют в зависимости от настроения, мотивации испытуемого (Q-date);
в) задания, выполнение которых требуют реальных умственных, психических, физических усилий, действий (Т-date).
Эти разнокачественные данные по-разному связаны с внешним критерием в прогностическом плане. Социально-демографические, биографические данные наиболее устойчивы и менее зависят от настроения, динамичной мотивации обследуемых. Поэтому для проверки валидности данных тестов достаточно взять специалистов данного профиля, оценить в шкале порядка, экспертной оценкой уровень развития их профессионального мастерства, профессионально важных качеств личности и найти статистические зависимости между биографическими данными и внешним критерием. Высокий уровень валидности дает нам право применять данные тесты при исходной оценке личности: отбор в вузы, подбор на профессии, которые ранее были деятельностно не знакомы личности и т.д.
Подобный способ проверки валидности тестов, построенных по принципу Q-date, оказывается недостаточным. Дело в том, что ответы на данные тесты варьируют в зависимости от мотивации, психического состояния обследуемого. Поэтому в ситуации отбора большая часть обследуемых будет отвечать «как надо», а не как есть на самом деле. В этой ситуации будут активнейше срабатывать защитные механизмы, прикрываться все недостатки и выпячиваться достоинства. Так, например, при отборе на высокооплачиваемую работу обследуемые в момент отбора будут отвечать совсем не так, как после поступления на работу и успешного утверждения в организации.
И чтобы перепроверить валидность тестов, применяемых в интересах отбора, при оценке лиц в судьбоносные моменты их биографии, следует дождаться, когда протестированные всесторонне адаптируются в должности, новой профессии, когда они всесторонне проявятся как профессионалы (а для этого нужны порой годы), когда можно будет сформировать достаточно точный и объективный внешний критерий и только когда и можно будет проверить реальную валидность теста.
В третьем случае (когда требуется определить валидность теста на выполнение реальных действий - решение арифметических задач, работа на ключе при отборе на профессию радиотелеграфиста, работа на тренажере и т.д.) важно при определении валидности методики не допустить смешения навыков и способностей. Поэтому чтобы сформировать достаточно объективный и надежный критерий следует дождаться выравнивания исходных навыков и умений у обследуемых в процессе их профессиональной деятельности. Для различных профессий, для различных ситуаций это может быть различный срок. Внешний критерий при этом следует формировать после достаточно надежного определения реального уровня развития способностей обследуемых к данному виду деятельности, после реального проявления их профессиональной предрасположенности в ней.
При формировании внешнего критерия чаще используется мнение экспертов. Если выбираются высококвалифицированные эксперты, то они нередко не соглашаются с первоначально предложенной схемой оценки профессионального мастерства личности, предлагая свои критерии. Так например, при оценке эффективности инженерной деятельности эксперты могут подсказать, что качества обеспечивающие успех исследовательской инженерной работы и работу инженера-организатора несколько иные. В этом случае профессию инженера подразделяют на две подгруппы и т.д. Чаще всего сложные виды деятельностей как бы состоят из ряда производственных функций, нередко между которыми существует противоречие. В этом случае внешний критерий должен быть разнокачественным, структурированным, и каждый структурный компонент входить в профессиональную пригодность личности с различным весовым коэффициентом.
В конечном счете, при поиске валидности теста, получается по крайней мере одна колонка цифр, отражающая результаты тестирования, и по крайней мере одна колонка цифр - «формализованный внешний критерий»11. Между этими колонками цифр ищется коэффициент корреляции. Если результаты тестирования и внешний критерий выражены в шкалах интервалов и отношений, то возможно применение линейного коэффициента корреляции. Если же хотя бы одна из этих величин выражена в шкале порядка, то применимы ранговые коэффициенты корреляции. При этом одна из более высоких шкал переводится в шкалу порядка, так чтобы две шкалы были шкалами порядка. Если же одна из шкал является номинальной, то валидность находится с помощью процентных зависимостей, не более.
Следует отметить, что в психологических исследованиях крайне редко встречается линейная связь. Чаще всего коэффициент корреляции колеблется вокруг величин 0,2-0,6. Это тот диапазон, где реально работают большинство лучших тестов. Неотработанные же тесты нередко дают нулевое, а иногда и отрицательное значение коэффициента корреляции. При этом не всегда нулевое значение коэффициента корреляции означает отсутствие какой-то связи между двумя параметрами. Просто эта связь может носить нелинейный характер и не отражаться однозначным значением коэффициента корреляции.
Коэффициент корреляции обычно находится по результатам обследования определенной выборки. Существуют специальные формулы, таблицы для поиска критического значения коэффициентов корреляции - значения которым можно доверять с определенной, довольно большой, долей вероятности. Вероятность, с которой можно доверять исследованию в психологии, обычно принимается за 0,95 (a = 0,05). То есть в 95 случаях из ста психологи ожидают аналогичные результаты. Если учесть, что валидность прогноза редко бывает выше 0,9, то данная вероятность подходит. В масштабных исследованиях в психологии нередко берется и вероятность 0,99 (а = 0,01). Для поиска критических значений коэффициента корреляции по таблице используют величины m и q. m = n - 2 и q = 1 - a/2. Величина a задается самим исследователем12.
Необходимо отметить, что на малых выборках, даже пользуясь статистическими таблицами, можно получить различные, порой весьма противоречивые выводы. Действительно устойчивые результаты получаются на выборках от 100 испытуемых и более, а вывод о достаточной валидности - от 250 и более. Дело в том, что чаще всего валидность колеблется вокруг величин 0,2 - 0,3. В этой ситуации в зависимости от точности в 0,1 решается вопрос о возможности применения тестовых методик. В то же время достоверность вычислений с точностью до 0,1 достигается при количестве испытуемых более 250, лучше от 1000 и более. Поэтому знание на каком массиве найдена валидность принципиально важна как с точки зрения насколько данные тесты будут эффективны на разнокачественных массивах обследуемых, так и с точки зрения насколько следует доверять надежности полученных результатов со статистической точки зрения.
Необходимо отметить, что применение тестовых методик оправдано даже при их валидности в 0,2. Хотя в этом случае нельзя всецело доверяться статистическим зависимостям: результаты тестирования должны быть лишь подспорьем для опытных психологов, опытных руководителей кадровых органов при принятии тех или иных решений.
В случае относительно высокой валидности тестов (от 0,5 и выше) возможны и необходимы более определенные решения с опорой на результаты тестирования, возможно создание и автоматизированных систем психодиагностики, экспертных систем с высокой степенью достоверности получаемых выводов. Однако при всем этом не следует ожидать весьма высоких показателей валидности теста. Дело в том, что результаты деятельности, поведение человека в существенной степени зависят не только от того каков он сам, но и от того - в какие ситуации он попадает. В различных ситуациях один и тот же человек, с одними и теми же результатами тестирования может и реально ведет себя по-разному. Раз так, то и невысокая валидность объясняется порой не столько недостатками методики, сколько разнокачественностью результатов деятельностей, разнообразием ситуаций в которые попадают тестируемые и по которым определяется валидность методики.
В любом случае, когда объявляется валидность более 0,7 - следует более критически подойти к апробации теста, более конкретно определить как определялась валидность - на каком массиве, какими статистическими методами, что взято за внешний критерий. В принципе валидность такой величины встречается, но в основном когда речь идет о психопрогностике, психодиагностике отдельных психических функций - особенностей памяти, мышления и т.д. Но как только речь идет о профессиологическом тестировании, то есть тестировании с целью прогнозирования профпригодности личности, реальная валидность, увы, бывает меньшей.
Таким образом, можно сделать вывод, что высокая валидность - идеал создателя теста и пользователя, но эта валидность порой реально недостижима в силу зависимости результата валидализации от ситуативной вариабельности профессиональной деятельности, в силу ее разнокачественности. В то же время есть тесты с относительно невысокой валидностью, но которые берут глубинные компоненты личности (допустим, сила ее EGO и т.д.), которые устойчиво коррелируют с успехом в различных видах деятельности, но естественно, эта корреляция не может быть высокой во всех многообразных конкретных случаях, ситуациях.
заключение