Основы работы с программным комплексом SPSS
Курсовая работа, 11 Декабря 2012, автор: пользователь скрыл имя
Описание работы
Современные информационные технологии представляют собой компьютерную обработку информации по заранее отработанным алгоритмам, хранение больших объёмов информации на разных носителях и передачу информации на любые расстояния в предельно минимальное время.
Разработка информационных технологий – это очень затратная отрасль, требующая высокой подготовки специалистов и наукоемкой техники, зато их реализация нередко сравнима с революционными преобразованиями.
Содержание работы
Введение…………………………………………………………………....
3
Факторный анализ…………………………………………………..
4
Порядок выполнения факторного анализа………………………..
5
Значения факторов………………………………………………….
14
Задача вращения…………………………………………………….
18
Заключение…………………………………………………………………
22
Список используемой литературы…………
Файлы: 1 файл
Курсовая ИТ.doc
— 256.00 Кб (Скачать файл)
В данном примере насчитывается шесть собственных значений, превосходящих единицу, что означало бы отбор шести факторов, если бы мы не изменили установку по умолчанию Eigenvalues over: 1 (Собственные значения, превосходящие единицу) и не ограничили бы количество рассматриваемых факторов тремя.
В качестве вспомогательного средства для определения задаваемого числа факторов может послужить специальная точечная диаграмма. Слово Screeplot, употребляемое для обозначения этой диаграммы состоит из двух частей: английского слова scree, что означает щебень и слова plot, что в английском соответствует графическому представлению. Такая диаграмма служит для того, чтобы маловажные факторы — щебень — можно было отделить от самых значимых факторов. Эти значимые факторы на графике образовывают своего рода склон, то есть ту часть линии, которая характеризуется крутым подъёмом. В приведенной диаграмме такой крутой подъём наблюдается в области первых восьми факторов.
Если посмотреть на график, то можно заметить что склон, то есть область значимых факторов, наблюдается выше восьмого фактора (восьмой, седьмой, шестой, пятый ...), а ниже восьмого фактора (девятый, десятый, одиннадцатый, двенадцатый...) расположился щебень, область незначимых факторов. Можно самостоятельно провести расчет с использованием модели, включающей различное число факторов; в рассмотренном примере было бы уместным произвести сравнение моделей с учётом восьми, семи и шести факторов.
Программа SPSS включает в вывод исходную структуру факторных нагрузок (до вращения). Эти данные в большинстве случаев не представляют интереса, для нас более важна таблица Rotated Component Matrix (Матрица перевернутых компонент).
Здесь начинается самая интересная часть факторного анализа: мы должны попытаться объяснить отобранные факторы. Для этого в каждой строке повёрнутой факторной матрицы нужно отметить ту факторную нагрузку, которая имеет наибольшее абсолютное значение.
Эти факторные нагрузки следует понимать как корреляционные коэффициенты между переменными и факторами. Так переменная var21.1 сильнее всего коррелирует с фактором 2, а именно, величина корреляции составляет 0,549, переменная var21.2 сильнее всего коррелирует с фактором 1 (0,589), переменная же var22.1 коррелирует сильнее всего с фактором 1 (0,356) и т.д. В большинстве случаев включение
отдельной переменной в один фактор, осуществляемое на основе коэффициентов корреляции, является однозначным. В исключительных случаях, переменная может относиться к двум факторам одновременно.
Могут быть также и переменные, которыми нельзя нагрузить ни один из отобранных факторов.
Варианты мнений, указанные вначале рассмотрения примера, можно отнести в следующем порядке к двум факторам:
Фактор 1:
1. поддержка жесткой критики политического курса (var21.2);
2. за наведение жесткого порядка (var 23.1);
3. за государственный контроль бизнеса (var25.2);
4. за вхождение Россию в западную цивилизацию (var 22.2).
Фактор 2:
1. поддержка нынешнего
2. за демократические свободы (var 23.2);
3. за свободную рыночную экономику (var 25.1);
4. граждане должны добиваться успеха сами (var 26.2);
5. против сближения России с Западом (var21.2);
6. за невмешательство государства и церкви в жизнь граждан (var 24.2);
Фактор 3:
1. за объединение граждан в интересах государства(var 26.1);
2. за усиление влияния Церкви (var 24.1).
Ниже расположены диаграммы, где представлены факторные нагрузки трех и двух факторов.
Для интерпретации факторов было бы оптимально, если бы точки лежали ближе к осям и подальше от точки начала отсчёта; тогда каждая переменная имела бы значительную нагрузку для одного фактора и незначительную для другого.
В соответствии с порядком изложения наши три сгруппированных фактора можно кратко охарактеризовать при помощи следующих выражений: «правые государственники», «либералы», «консерваторы». Однако столь явно, как в приведенном примере факторы удаётся объяснить не всегда. Если нет возможности провести вербальное объяснение факторов, то факторный анализ можно считать неудавшимся.
III. Значения факторов
Поскольку мы пожелали произвести расчёт значений факторов, то в соответствии с тремя отобранными факторам были сгенерированы три новые переменные, названные fac1_1, fac2_1 и fac3_1, которые содержат вычисленные значения факторов. Если просмотреть текущий файл после поведения факторного анализа, то можно увидеть имеющие нормализованные значения факторов.
По каждому из отобранных
фактору для каждого
Рассмотрим факторную переменную fac1_1. Она включает следующие элементарные переменные: var21.2, var 23.1, var25.2, var 22.2. В качестве метки для этого фактора мы выбрали выражение: "авторитарные государственники". Большое положительное значение фактора означает одобрение элементарных переменных, то есть положений, входящих в этот фактор. Одобрение элементарных переменных, относящихся к первому фактору, тождественно ярко выраженными взглядам, характеризующимися ориентацией на усиление государственного влияния на экономику, установление жесткого государственного порядка, критику нынешнего политического курса.
Рассмотрим факторную переменную fac2_1. К ней относятся элементарные переменные: var21.1, var23.2, var25.1, var26.2, var21.2, var24.2. В качестве метки для этого фактора мы выбрали выражение: "либералы". Большое положительное значение фактора означает полное согласие. Полное согласие соответствует мнению о свободной рыночной экономики, поддержки нынешнему политическому курсу, приверженности демократическим принципам.
В заключение рассмотрим факторную переменную fac3_1. К ней относятся элементарные переменные var 26.1, var 24.1. В качестве метки для этого фактора мы выбрали выражение: "консерваторы". Большое положительное значение фактора означает одобрение элементарных переменных. Одобрение элементарных переменных тождественно ярко выраженным консервативным взглядам, соответствующим консолидации граждан в интересах государства, идейное влияние консервативно-традиционных национальных взглядов.
В файле находятся ещё несколько дополнительных переменных, а именно:
|
За какую политическую партию Вы проголосовали, если бы выборы состоялись в ближайшее воскресение? |
|
возраст |
Эти переменные можно использовать для того, чтобы устанавливать связи для факторных значений. Самым распространённым методом для этого является разбиение факторных значений на четыре группы процентилей. Покажем это на примере первого факторного значения (переменная facl_l).
- Выберите в меню Transform (Трансформировать) Rank Cases... (Создать иерархию наблюдений)
- Откроется диалоговое окно Rank Cases (Создать иерархию наблюдений).
- Переменную fac1_1 перенесите в список тестируемых переменных.
- Щёлкните на выключателе Rank Types... (Типы иерархии), деактивируйте установленную по умолчанию опцию Rank (Ранг) и активируйте опцию Fractional rank as % (Дробный ранг как процентили). Оставьте установленное по умолчанию количество групп равное 4.
- Подтвердите свой выбор нажатием на Continue (Далее) и затем на ОК.
- Будет создана переменная nfac1_1, которая содержит значения 1 до 4 с примерно равномерной частотой.
- Перейдите в редактор данных и измените имя переменной nfac1_1 на более удобное имя avtorit, в поле метки наберите «правые государственники» и значениям присвойте следующие метки: 1 = отсутствует, 2 = слабое, 3 = сильное и 4 = очень сильное. Теперь создадим таблицу сопряженности для новой переменной и переменной var28 (голосование за политическую партию).
- Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
- В диалоговом окне Crosstabs (Таблицы сопряженности) переменную stellung поместите в поле строк, а переменную avtorit в поле столбцов и через выключатель Cells... (Ячейки) сделайте дополнительно запрос на вывод процентных значений по строкам.
В окне просмотра появится
следующая таблица
Далее, можно создать
таблицы сопряженности с
Проанализировав данные трех таблиц, можно прийти к выводу, что например, в среде приверженцев партии «Союз правых сил» более всего распространены идеи авторитарного государства, но в меньшей степени национально-консервативные идеи, а, следовательно, в большей степени для сторонников «СПС» важна ориентация развития России по западному пути. Для сторонников КПРФ важны как идея «сильной государственной власти», так и традиционно-консервативные ценности. Сторонники «Яблока» в большей степени поддерживают либеральные идеи. Среди приверженцев «Единой России» ярко выраженные идейные позиции не проявляются, либеральные и консервативные идеи разделяет примерно половина сторонников «ЕР», «правых государственников» меньше - примерно треть из них.
IV. Задача вращения
Сущностью
факторного анализа является
процедура вращения факторов, то
есть перераспределения
Главной проблемой
факторного анализа является
выделение и интерпретация
- Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.
- Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.
- Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия.
- Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить. Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.
- Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться.