Нейросетевой анализ основных социально-экономических показателей регионов РФ

Автор работы: Пользователь скрыл имя, 14 Января 2014 в 21:39, курсовая работа

Описание работы

Структура потребления населения очень из многих аспектов, который можно проанализировав, сделать определенных выводы. По экономическим соображениям можно даже сказать что он один из самых важных, потому, что проанализировав, сколько стоит тот или иной продукт в определенной субъекте РФ, можно определить живет ли этот регион или округ на продуктах, которые производятся непосредственно внутри региона, или же продукты завозятся из близ лежащих регионов или округов. Так же можно относительно сказать чего больше, а чего меньше потребляет тот или иной субъект РФ.

Файлы: 1 файл

Отче КР Нейроинформатика (Мария).docx

— 752.45 Кб (Скачать файл)

Кластерный анализ

Теперь для нашей выборки проведем кластерный анализ, для этого выберем число кластеров, равное числу классов и получим данные о количестве данных в каждом кластере и процент населенности.


Рис. 16. Первичная сводка кластерного анализа.

Учитывая, что было необходимо разбить всю выборку на то количество классов, которое было сформировано на предыдущем этапе, вся выборка была разбита на 3 кластера.

Исходя из первичной сводки, можно вынести следующие правила классификации, для этого нужно удалить признаки, которые не сильно отличаются для разных кластеров, в данном случае будем учитывать все признаки:

Для первого кластера: показатели мяса, картофеля, овощей, рыбы, фруктов, хлеба, масла, молока, сахара, яиц средние.

Для второго кластера: показатели мяса, картофеля, овощей, рыбы, фруктов, хлеба, масла, молока, сахара, яиц низкие.

Для третьего кластера: показатели мяса, картофеля, овощей, рыбы, фруктов, хлеба, масла, молока, сахара, яиц  самые высокие.

Для наглядного отображения  структуры кластеров построим дендрограмму, отображающей иерархическую структуру группирования объектов.

Рис.17. Дендрограмма кластеров.

Выведем список объектов для  каждого кластера в виде таблицы.


                                                

Рис.18. Таблица объектов кластеров.

Для вынесения правил в  кластерном анализе используют диаграмму  рассеивания на плоскости признаков, построим ее

Рис.19. Диаграмма рассеивания.

Исходя из данной диаграммы  можно выписать номера объектов по всем выделенным кластерам:

• в кластер 1 входят данные с номерами строк:1,6,10,15,16,17,18,19,20,21,22,23,24,27,

30,31,33,37,39,40,41,57,58,66,67,68,70,71,73, 75,76,77,79;

 

  • в  кластер 2 входят данные с номерами строк: 2,3,4,5,7,8,9,11,12,13,14,25,26,28,29,32,34,35,36,38,42,43,44,45,46,47,48,49,50,51,52,53,54,

55,56,60,61,62,63,64,65,69,72,

 

• в кластер 3 входят данные с номерами строк: 59,74,78,80;

 

Теперь для сопоставления  двух методов классификации создадим сводную таблица разбиения:

 

 

номер

класс

кластер

номер

класс

кластер

номер

класс

кластер

номер

класс

кластер

1

1

1

27

1

1

53

1

2

79

1

1

2

2

2

28

2

2

54

1

2

80

3

3

3

2

2

29

1

2

55

1

2

 

4

2

2

30

1

1

56

1

2

5

2

2

31

1

1

57

1

1

6

1

1

32

1

2

58

1

1

7

2

2

33

1

1

59

3

3

8

2

2

34

1

2

60

2

2

9

2

2

35

1

2

61

1

2

10

1

1

36

1

2

62

2

2

11

1

2

37

1

1

63

1

2

12

2

2

38

1

2

64

1

2

13

2

2

39

1

1

65

2

2

14

1

2

40

1

1

66

1

1

15

1

1

41

1

1

67

1

1

16

1

1

42

1

2

68

1

1

17

1

1

43

1

2

69

2

2

18

1

1

44

1

2

70

1

1

19

1

1

45

1

2

71

1

1

20

1

1

46

1

2

72

2

2

21

1

1

47

2

2

73

1

1

22

1

1

48

2

2

74

3

3

23

1

1

49

2

2

75

1

1

24

1

1

50

2

2

76

1

1

25

2

2

51

1

2

77

1

1

26

1

2

52

1

2

78

3

3


 

 

Как видно из сводной таблица 3 класс и кластер со впали полностью, а 2 и 3 класс и кластеры совпали частично. 

Нейросетевой анализ данных на основе обучения с учителем

Выберем структуру нейронной  сети. Так как перед нами стоит  задача классификации по небольшому количеству достаточно однородных признаков, то выберем ее опытным путем. В  качестве входных полей выберем  численные параметры: "Хлеб", "Картошка", "Овощи", "Фрукты", "Мясо", "Молоко", "Яйца", "Рыба","Сахар "  "МАсло", параметр же "Регион" будет информаторным.

Опишем нейросеть, построенную на основе данных, при вычислении которых была использована метрика «Сити-блок».

«Манхетенская» метрика или «Сити-блок»,  как правило применяется для номинальных или качественных переменных. Такими расстояниями связаны любые две точки в городе с перпендикулярной системой улиц.


Рис.20. Метрика «Сити-блок».

 

Рис.21. Граф (10х2х1)  нейросети.

Теперь проведем обучение нашей нейронной сети, выбрав в  качестве алгоритма алгоритм обратного  распространения ошибки, количество эпох равным 10000 и значение ошибки 0,005.

Рис.22. Результат обучения сети (10х2х1).

Рис.23. Диаграмма рассеяния (10х2х1).

На тех же данных построим нейросеть с двумя скрытыми слоями по три нейрона в каждом.

Рис.24. Граф (10х2х2х1)  нейросети.

Теперь проведем обучение нашей нейронной сети, выбрав в  качестве алгоритма алгоритм обратного  распространения ошибки, количество эпох равным 10000 и значение ошибки 0,005.

Рис.25. Результат обучения сети (10х2х2х1).


Рис.26. Диаграмма рассеяния (10х2х2х1).

Видно, что сеть, состоящая  из одного скрытого слоя  и 2 нейронов в нем, обучилась, при использовании метрики «Сити-блок» лучше всего: распознано 100% в обучающем множестве и 100% в тестовом. При этом сеть состоящая из 2 скрытых слоев по 3 нейрона в каждом обучилась очень плохо, 5% распознано в обучающем множестве и 0% в тестовом.

Опишем нейросеть, построенную на основе данных, при вычислении которых была использована Евклидова метрика.

Евклидовы расстояния применимы  для переменных, измеренных  в одних единицах и близкий по порядку своих величин.

Рис.27. Граф (10х2х1)  нейросети.


 

Рис.28. Результат обучения сети (10х2х1).

Рис.29. Диаграмма рассеяния (10х2х1).

На тех же данных построим нейросеть с двумя скрытыми слоями по два нейрона в каждом.


Рис.30. Граф (10х2х2х1)  нейросети.

Рис.31. Результат обучения сети (10х2х2х1).


Рис.32. Диаграмма рассеяния (10х2х2х1).

Видно, что сеть, состоящая  из двух скрытых слоев по 2 нейрона в каждом, обучилась, при использовании Евклидовой метрики, лучше всего: распознано 77,63% в обучающем множестве и 100% в тестовом, при этом скорость обучения лучше, чем у нейросети, состоящей из одного скрытого слоя и двух нейронов в нем.

Теперь сравним выводимые  результаты сетей с заданными  параметрами при двух используемых метриках:

Метрика City-Block

Евклидова метрика

Сеть(10х2х1)

Сеть(10х3х3х1)

Сеть(10х2х1)

Сеть(10х2х2х1)


   


 

  

 

Таким образом, при использовании  метрики «Сити-блок» на нейросети 10х2х1 было получено 2 несоответствия. На входе 3 кластер, нейросеть распознает его как 1 кластер.

На нейросети 10х3х3х1 было получено практически полное несоответствие. Точно   был распознан только 3 кластер.

При использовании Евклидовой метрики на нейросети 10х2х1  было получено 11 несоответствий, в различных  кластерах. На нейросети 10х2х2х1 было получено 9 несоответствий, так же различных  кластерах, некоторые из них  были распознаны не правильно, некоторые  не  были  точно отнесены ни к  одному из трех.

 

Отсюда можно сделать  вывод, что наилучшая нейросеть была получена, основанная  на метрике «Сити-блок».

 

 

 


Разбиение на кластеры использую  нейросетевой подход:

1 кластер: Р-ка Саха, г.Санкт-Петербург, г.Москва, Мурманская об., Приморский край, р-ка Коми, Хабаровский край, Московская об., Краснодарский край, Калининградская об., Тюменская об., Тверская об., р-ка Карелия, Вологодская об., Ярославская об., Ленинградскую об., , р-ка Ба, Забайкальский край, Иркутская об., Тульская об., Ростовская об., Карачаево -Черкесаво, Красноярский край, Ханты-Мансийский край, Белгородская об., Астраханская об., Ставропольский край, Новосибирская об., Омская об., Амурская об., Калужская об., Московская об, Чеченскую р., Сахалинскую об.

 

2 кластер: р-ка Ин, р-ка Ты, р-ка Да, р-ка Калмыкия, Орловская об, Ульяновская об., р-ка Ха, Кабардино-Балкария, р-ка Ал, Удмурдская р-ка, р-ка Се, р-ка Ма, р-ка Та, тамбовская об., р-ка Мо, Курганская об., Чувашская р-ка, Амурская об., Омская об., Пензенская об., Самарская об., Свердловская об., Псковская об., Саратовская об., Брянская об., Bладимирская об., Bоронежская об., Ивановская об., Костромская об., Курская об., Липецкая об., Рязанская об , Смоленская об.,  Новгородская об,., Республика Ад, Пермский край, Кировская об., Нижегородская об., Оренбургская об., Челябинская об., р-ка Бу,   Алтайский край , Кемеровская об, Томская об.

3 кластер: Чукотский АО, Ямало-Ненецкий АО,  Магаданская область, Камчатский край.

Нейросетевой анализ данных на основе самоорганизующихся карт Кохонена

Для сравнения полученных результатов при обучении с учителем проведем процесс обучения с помощью карт Кохонена, выбрав следующие параметры: количество эпох- 10000, значение ошибки меньше 0.005, скорость обучения в начале- 0.3, а в конце- 0.005 и функцию соседства Гаусса. Поставим ручное разбиение на кластеры  равное трем. Получим следующий результат обучения.

Рис.33. Результат обучения самоорганизующихся карт Кохонена при ручном делении на три кластера.

После обучения получаем карты  Кохонена следующего вида:

Рис.34. Карты Кохонена при ручном разбиении.

Проведем анализ кластеров  по значащим параметрам.  Для начала выделим значащие признаки:

        • Хлеб
  • Картошка
  • Овощи
  • Фрукты
  • Мясо
  • Молоко
  • Рыба
  • Сахар


  • Масло

 

Если сравнить  значащие признаки  при кластерном анализе  и при нейросетевом анализе с помощью карт Кохонена, можно увидеть, что значащие признаки различаются. В кластерном анализе было девять  значащих признаков,  как и при анализе с помощью карт Кохонена, но в кластерном анализе были все признаки, кроме картошки. В данной ситуации можно наблюдать –все признаки , кроме яиц.

 

Рассмотрим разбиение  по кластерам, при помощи карт Кохонена, основанные на метрике «Сити-блок»:

1 кластер: Р-ка Саха, г.Санкт-Петербург, г.Москва, Мурманская об.,Приморский край, р-ка Коми, Хабаровский край, Московская об., Краснодарский край, Калининградская об., Тюменская об., тверская об., р-ка Ка, Вологодская об., Ярославская об., Ленинградскую об., , р-ка Ба, Забайкальский край, Иркутская об., Тульская об., Ростовская об., Карачаево -Черкесаво, Красноярский край, Ханты-Мансийский край, Белгородская об., Астраханская об., Ставропольский край, Новосибирская об., Омская об., Амурская об.

 

2 кластер: р-ка Ин, р-ка Ты, р-ка Да, р-ка Калмыкия, Орловская об, Ульяновская об., р-ка Ха, Кабардино-Балкария, р-ка Ал, Удмурдская р-ка, р-ка Се, р-ка Ма, р-ка Та, тамбовская об., р-ка Мо, Курганская об., Чувашская р-ка, Амурская об., Омская об., Пензенская об., Самарская об., Свердловская об., Псковская об., Калужская об., Саратовская об., Брянская об., Bладимирская об., Bоронежская об., Ивановская об., Костромская об., Курская об., Липецкая об., Рязанская об , Смоленская об., Новгородская об,., Республика Ад, Пермский край, Кировская об., Нижегородская об., Оренбургская об., Челябинская об., р-ка Бу,   Алтайский край , Кемеровская об, Томская об.

3 кластер: Чукотский АО, Ямало-Ненецкий АО,  Магаданская область, Камчатский край, Чеченскую р., Сахалинскую об.

 

Теперь сформулируем правила  для каждого кластера:

 

Если  показатели  "Хлеб", "Картошка", "Овощи", "Фрукты", "Мясо", "Молоко", "Рыба", "Сахар ", "Масло"  средние, то регионы относятся к 1 классу.

Если  показатели  "Хлеб", "Картошка", "Овощи", "Фрукты", "Мясо", "Молоко", "Рыба", "Сахар ", "Масло"  малы, то регионы относятся к 2 классу.

Если  показатели  "Хлеб", "Картошка", "Овощи", "Фрукты", "Мясо", "Молоко", "Рыба", "Сахар ", "Масло"  высоки, то регионы относятся к 3 классу.

Разбиение при кластерном анализе.

• в кластер 1 входят данные с номерами строк: Белгородская область,  Калужская область, Московская область, Тверская область, Тульская область,  Ярославская область,  г.Москва,  Республика Карелия,  Республика Коми,  Bологодская область,  Калининградская область,  Ленинградская область,  Мурманская область,  г. Санкт-Петербург,  Краснодарский край,  Астраханская область,  Ростовская область,  Карачаево-Черкесская Республика,  Чеченская Республика, Ставропольский край,  Республика Башкортостан,  Тюменская область,  Ханты-Мансийский авт. Округ,  Забайкальский край, Красноярский край,  Иркутская область,  Новосибирская область , Омская область,  Республика Саха(Якутия),  Приморский край,  Хабаровский край,  Амурская область, Сахалинская область.

  • в  кластер 2 входят данные с номерами строк: Брянская область, Bладимирская область, Bоронежская область, Ивановская область, Костромская область, Курская область, Липецкая область, Орловская область, Рязанская область, Смоленская область, Тамбовская область, Новгородская область, Псковская область, Республика Адыгея, Республика Калмыкия, Bолгоградская область, Республика Дагестан, Республика Ингушетия,  Кабардино-Балкарская Республика, Республика Северная Осетия- Алания, Республика Марий Эл, Республика Мордовия, Республика Татарстан,  Удмуртская Республика, Чувашская Республика, Пермский край, Кировская область, Нижегородская область, Оренбургская область,  Пензенская область, Самарская область,  Саратовская область, Ульяновская область, Курганская область, Свердловская область, Челябинская область,  Республика Алтай,  Республика Бурятия,  Республика Тыва,  Республика Хакасия,  Алтайский край, Кемеровская область, Томская область.

Информация о работе Нейросетевой анализ основных социально-экономических показателей регионов РФ