Математические методы по "Психологии"
Лекция, 27 Февраля 2014, автор: пользователь скрыл имя
Описание работы
Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).(2). Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции. Графики корреляционных зависимостей строят по уравнениям следующих функций: Yx= F(X) или Xy = F(Y),(формула 1), которые называются уравнениями регрессии. Здесь Yx и Xy так называемые условные средние арифметические переменных Y и X.
Файлы: 1 файл
хилько картотека.docx
— 128.84 Кб (Скачать файл)Данные, подвергаемые многофакторному дисперсионному анализу, часто обозначают в соответствии с количеством факторов и их уровней.
Предположив, что в рассматриваемой задаче о качестве различных m партий изделия изготавливались на разных t станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору:
А - партия изделий;
B - станок.
В результате получается переход к задаче двухфакторного дисперсионного анализа.
Все данные представлены в таблице 1.2, в которой по строкам - уровни Ai фактора А, по столбцам — уровни Bj фактора В, а в соответствующих ячейках, таблицы находятся значения показателя качества изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).
Таблица 1.2 – Показатели качества изделий
B1 |
B2 |
… |
Bj |
… |
Bl | |
A1 |
x11l,…,x11k |
x12l,…,x12k |
… |
x1jl,…,x1jk |
… |
x1ll,…,x1lk |
A2 |
x21l,…,x21k |
x22l,…,x22k |
… |
x2jl,…,x2jk |
… |
x2ll,…,x2lk |
… |
… |
… |
… |
… |
… |
… |
Ai |
xi1l,…,xi1k |
xi2l,…,xi2k |
… |
xijl,…,xijk |
… |
xjll,…,xjlk |
… |
… |
… |
… |
… |
… |
… |
Am |
xm1l,…,xm1k |
xm2l,…,xm2k |
… |
xmjl,…,xmjk |
… |
xmll,…,xmlk |
Двухфакторная дисперсионная модель имеет вид:
xijk=μ+Fi+Gj+Iij+εijk, (15)
где xijk - значение наблюдения в ячейке ij с номером k;
μ - общая средняя;
Fi - эффект, обусловленный влиянием i-го уровня фактора А;
Gj - эффект, обусловленный влиянием j-го уровня фактора В;
Iij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели (15);
εijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.
Предполагается, что εijk имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.
Групповые средние находятся по формулам:
- в ячейке:
,
по строке:
по столбцу:
общая средняя:
В таблице 1.3 представлен общий вид вычисления значений, с помощью дисперсионного анализа.
Таблица 1.3 – Базовая таблица дисперсионного анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средние квадраты |
Межгрупповая (фактор А) |
|
m-1 |
|
Межгрупповая (фактор B) |
|
l-1 |
|
Взаимодействие |
|
(m-1)(l-1) |
|
Остаточная |
|
mln - ml |
|
Общая |
|
mln - 1 |
Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений , , (для модели I с фиксированными уровнями факторов) или отношений , , (для случайной модели II) с соответствующими табличными значениями F – критерия Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями – как в модели I.
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.
С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы:
Q3 = Q – Q1 – Q2 – Q4.
Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы /1/.
t-критерий Стьюдента
t-Критерий Стьютдента используется для:
1) установления
сходства-различия средних арифметических
значений в двух выборках
( M 1 ↔ M 2 ) или в более общем виде, для установления сходства-различия двух эмпирических
распределений;
2) установления отличия от нуля некоторых мер связи: коэффициента линейной
корреляции Пирсона, ранговой корреляции Спирмена, точечно-бисериальной и рангово-
бисериальной корреляции (rxy, rs, rpb ↔”0” ) и коэффициента линейной регрессии (Rху ↔ "О"):
3) установления
сходства-различия двух дисперсий
в двух зависимых выборках.
Ограничения:
1) это параметрический критерий, поэтому необходимо, чтобы распределение признака, по
крайней мере, не
отличалось от нормального распределения;
2) для независимых и
зависимых выборок разные формулы
расчета;
Гипотезы
1) независимые выборки:
Н0: средние значения признака в обоих выборках не различаются,
Н1: средние значения признака в обоих выборках статистически значимо различаются.
2) зависимые выборки:
Н0: разности оценок испытуемых в двух состояниях не отличаются от нуля,
Н1: разности оценок испытуемых в двух состояниях статистически значимо отличаются от
нуля.
Рассмотрим случай 1.
Пример
5.1.(независимые выборки). Предположим,
имеется две независимые выборки
школьников, интеллект которых развивали в течение некоторого времени по двум различным
методикам, требуется установить, какая из методик лучше (табл.5.1). Предварительно было выяснено, что начальный уровень интеллекта был одинаковым в обеих выборках. Задача
сравнения двух методик может быть переформулирована на язык статистики как задача сравнения
средних арифметических значений интеллекта в обеих выборках.
Таблица 5.1.
Гипотезы:
Н0: средние значения уровня интеллекта в обоих выборках не различаются,
Н1: средние значения уровня интеллекта в обоих выборках статистически значимо
различаются.
В данном
случае для получения эмпирического
значения t-критерия используется
следующая формула:
где: n1, n2 – количество испытуемых в 1-й и 2-й выборках; M 1 , M 2 – средние
арифметические значения в 1-й и 2-й выборках; σ1, σ2 – стандартные отклонения в 1-й и 2-й
выборках.
Количество
степеней свободы для нахождения
критического значения критерия:
Df = n1+n2-2.
(В рассматриваемых примерах критические значения t-критерия приводятся для
ненаправленных гипотез).
Тогда:
Таким образом, получаем tэмп=2,486
Критические значения t-критерия находим по таблице 1 (приложение 5.3.) для df=30+32-
2=60.
2,0 для p ≤ 0,05
t кр =
2,66 для p ≤ 0,01
Полученное
эмпирическое значение t-критерия
превышает критическое для α=0,05,
но
оказывается меньше критического для α=0.01, т.е.
2,0<Tкр=2,486 < 2,66
Вывод: Н0 гипотеза отклоняется и можно сделать вывод о статистически значимом
различии средних арифметических значений в двух выборках для ρ≤0.05 и о преимуществах
второй методики по сравнению с первой.
Строгое использование t-критерия предполагает, что обе выборки извлечены из
нормальных совокупностей. Однако многие авторы не считают это условие достаточно жестким,
указывая на возможность использования t-критерия в ситуациях, когда нет серьезных оснований
сомневаться в нормальности распределения признака в генеральной совокупности, даже если это
нельзя подтвердить статистически.
При зависимых выборках возникает корреляция результатов, поскольку измерения
проводятся на одних и тех же испытуемых в различных условиях (х и у)', чтобы учесть влияние
корреляции, применяется другая формула:
где di = xi – уi, то есть разность значений признака для каждого испытуемого. Количество
степеней свободы df=n–1. Проверяется статистическая гипотеза о соответствии распределения
разностей t-распределению Стьюдента с нулевым средним значением.
Пример 5.2. (зависимые выборки). Допустим, проводится измерение ситуативной
тревожности до и после психотерапевтического воздействия с помощью некоторого опросника
(табл.5.2). Исследователя интересует вопрос, приводит ли воздействие к изменению уровня
тревожности.
Гипотезы:
Н0: разности оценок у испытуемых ситуативной тревожности до и после
психотерапевтического воздействия не отличаются от нуля,
Н1: разности оценок у испытуемых ситуативной тревожности до и после
психотерапевтического воздействия статистически значимо отличаются от нуля
Таблица 5.2.
Подставив в формулу найденные значения Σdi и Σdi2 получим:
Имеем: tэмп=2,798
Находим по таблице 1 критические значения (Приложение 5.3.)
2,365 для p ≤ 0,05
t кр =
3,499 для p ≤ 0,01
Отсюда: 2,365<tэмп=2,798<3,499
Вывод: Принимается Н1 гипотеза. Различия в уровнях тревожности до и после
психотерапевтического воздействия следует признать статистически значимыми (р<0,05), так как
эмпирическое значение превышает первое критическое, но меньше второго. Следовательно,
психотерапевтическое воздействие действительно снижает тревожность.
Случай 2. При проверке отличия от нуля мер связи (коэффициентов корреляции)
эмпирическое значение t-критерия вычисляется по формуле