Идентификация базы данных стекла
Курсовая работа, 16 Января 2014, автор: пользователь скрыл имя
Описание работы
Задача классификации типов стекла используется в криминологических исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно идентифицировано!
База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:
Показатель преломления стекла
Содержание работы
Постановка задачи 2
Анализ данных 3
Снижение размерности. Метод главных компонент 4
Определение числа классов 6
Классификация методом k-means. Результаты классификации. 7
Заключение 12
Список использованных источников 13
Файлы: 1 файл
Курсовая задача классификаци.docx
— 146.04 Кб (Скачать файл)
Курсовая работа по методам кластерного анализа
«Идентификация базы данных стекла»
Содержание
Постановка задачи 2
Анализ данных 3
Снижение размерности. Метод главных компонент 4
Определение числа классов 6
Классификация методом k-means. Результаты классификации. 7
Заключение 12
Список использованных источников 13
Постановка задачи
Задача классификации типов стекла используется в криминологических исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно идентифицировано!
База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:
- Показатель преломления стекла
Процентное содержание в образцах таких элементов как:
- Na (натрий)
- Mg (магний)
- Al (алюминий)
- Si (кремний)
- K (калий)
- Сa (кальций)
Выборочные данные принадлежат следующим классам стекла:
- Оконное стекло ( float)
- Оконное стекло ( non-float)
- Автомобильное стекло (float)
- Стекло для контейнеров
- Столовое стекло
- Стекло фар автомобиля
Цель классификации – по выборочным данным идентифицировать к какому классу относится каждый образец стекла.
Для классификации объектов был использован пакет STATISTICA, а также алгоритмы, запрограммированные в среде MathCad 14.
Анализ данных
В распоряжении имеются выборочные данные объема 214. Объекты характеризуются 7 признаками, каждый из которых измерен в количественной шкале. Пропуски данных отсутствуют.
Следует заметить, что значения признаков не сравнимы друг с другом. Приведение к единому масштабу обеспечивается нормировкой каждого признака.
Получили выборку, каждое значение которой попадает в единичный отрезок:
Работа в пространстве 6 переменных затруднительна, не только с точки зрения геометрического представления пространственного расположения точек, но и в связи с наличием коррелирующих между собой признаков.
Таким образом, исследователю выгодно уменьшить размерность пространства. Рассмотрим матрицу ковариаций:
Полученный результат, дает нам основание утверждать, к примеру, что признак 7 коррелирует со всеми остальными. Следовательно, его можно исключить из нашей классификации. А первый признак коррелирует со всеми кроме 3 признака.
Для снижения размерности пространства с сохранением информативности выборочных данных применим метод главных компонент.
Снижение размерности. Метод главных компонент
Для реализации данного метода
будем оперировать
получаем интересующую нас выборку. Стоит заметить, что данное преобразование не влияет на вид матрицы ковариаций.
Далее, следуя алгоритму метода, находим
собственные числа матрицы
Компонента есть линейная комбинация , где – собственный вектор матрицы , соответствующий k-ому по величине собственному значению этой матрицы.
В пакете MathCad 14 находим собственные векторы l, используя функцию eigenvecs:
Столбцы матрицы l соответствуют собственным значениям вектора .
Вычислим относительную долю суммарной дисперсии, обусловленной одной, двумя и тремя главными компонентами:
.
Таким образом, более половины информации содержится в двух первых главных компонентах. Их и будем использовать для классификации, так как неотъемлемым достоинством двумерного пространства является наглядность геометрической интерпретации.
Путем описанного выше преобразования
получим две первые главные компоненты
и обратимся к
Определение числа классов
Исходя из геометрического расположения точек, можно заключить, что выборочные данные можно классифицировать на два кластера.
С помощью алгомеративных иерархических алгоритмов получим предпочтительное число классов.
Для нахождения расстояния между классами использовался метод Уорда. Мера расстояния между объектами – метрика Чебышева. Оптимальное число классов: 2 или 3.
Во втором случае расстояния между классами найдены по методу «средней связи». Мера расстояния между объектами – евклидова метрика.
Данный алгоритм был использован для нахождения мажоранты для величины k – числа классов. Положим kmax = 6.
Классификация методом k-means. Результаты классификации.
Рассмотрим параллельный алгоритм k-means.
Положим число классов k равным 3.
Построим минимальное
Так как в наличие имеются сведения об истинной принадлежности объектов классам, проверим качество классификации рассмотренного алгоритма.
Для того чтобы посчитать ошибку классификации в данном случае, разделим известные нам истинные классы на три группы:
- Оконное стекло (float)+ автомобильное стекло (float)
- Оконное стекло (non-float)
- Стекло для контейнеров + столовое стекло + стекло фар автомобиля
При этом, реальная картинка пространственного расположения точек, распределенных на три группы классов выглядела бы следующим образом:
На графике выше, синим цветом обозначены центры классов полученные в результате классификации методом k-средних. Зеленым обозначены истинные центры групп классов.
Определим качество разбиения
как относительное число
Оценивая результаты работы алгоритма в данном случае можно сказать, что правильная принадлежность к группам классов была определена с ошибкой 51%. Это можно объяснить смешанностью точек, принадлежащих разным классам, что видно на графике. При этом 60 из 87 точек, принадлежащих первой группе классов, были определены правильно. А для третьей группы классов 7 из 50.
Положим число классов k равным 2.
Построим минимальное дистанционное разбиение.
В этом случае разделим истинные классы на две группы классов:
- Оконное стекло (float)+ автомобильное стекло (float)+ оконное стекло (non-float)
- Стекло для контейнеров + столовое стекло + стекло фар автомобиля.
Заметим, что при таком распределении классов на группы, центры истинных классов расположены близко к центрам, полученным в результате работы алгоритма.
Ошибка такой классификации методом k-средних составила 6%. При этом к первой группе классов были правильно отнесены 151 из 163 точек. Ко второй группе классов 43 из 50 точек.
Положим число классов k равным 6.
Построим минимальное
В таком случае истинное число разбиений на классы совпадает с предполагаемым. Однако, расположение истинных центров классов существенно отличается от расположения центров классов, полученных в результате работы алгоритма.
Ошибка классификации
составила 60,2%. Но по отношению к
некоторым классам
Заключение
В результате проделанной работы я сделала следующие выводы:
- Проводить классификацию по 6 классам в рамках этой задачи неприемлемо, т.к алгоритм k-средних дает большую ошибку. Это объясняется малым различием объектов разных классов по приведенным признакам.
- Для повышения эффективность алгоритма k-средних следует проводить классификацию по другим признакам, которые бы давали как можно более четкое распределение по классам, т.к. ошибки в области криминалистики приводят к непредсказуемым последствиям.
- В задаче следует проводить более обобщенную классификацию во избежание ошибок. Так, объединив классы оконное стекло (float)+ автомобильное стекло (float)+ оконное стекло (non-float) и классы стекло для контейнеров + столовое стекло + стекло фар автомобиля в два новых класса, можно решить задачу с точностью в 94%.
Список использованных источников
- Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян, В. М. Бухштаберб, И. С. Енюков, Л. Д. Мешалкин: Под ред. С. А. Айвазяна. – М.: Финансы и статистика, 1989. – 607 с.: ил.
- Методы кластерного анализа: метод. указания к выполнению лаб. работ для бакалавров направления 220100 «Системный анализ и управление» очной формы обучения / сост. Е. А. Попов ; Сиб. гос. аэрокосмич. ун-т. – Красноярск, 2010. – 36 с.
- http://archive.ics.uci.edu/ml/
machine-learning-databases/ glass/