Распознавание изображений с помощью нейронных сетей

Автор работы: Пользователь скрыл имя, 09 Сентября 2013 в 21:53, реферат

Описание работы

Нейронные сети представляют собой математическую модель функционирования биологических нейронных сетей –сетей нервных клеток живого организма. Как и в биологической нейронной сети, основным элементом искусственной нейронной сети является нейрон. Соединенные между собой нейроны образуют слои, количество которых может варьироваться в зависимости от сложности нейронной сети и решаемых ею задач. Способность нейронных сетей к генерализации, то есть к принятию верного решения для входных данных, которые не предъявлялись нейронной сети ранее, большое количество эвристических алгоритмов обучения нейронных сетей и устойчивость к различным флюктуациям входных данных –все это делает нейронные сети самым предпочтительным направлением для решения подобных задач.

Скачать архив (1.35 Мб) Сколько стоит заказать работу?

Файлы: 1 файл

РЕФЕРАТ.docx

— 1.38 Мб (Скачать файл)

Нейронные сети на данный момент являются не только инструментом решения задач распознавания образов, но получили применение в исследованиях по ассоциативной памяти, сжатию изображений. Хотя это направление исследований и пересекается сильно с проблематикой распознавания образов, но представляет собой отдельный раздел кибернетики.

В связи с данной оценкой роли нейронных сетей для собственно распознавания (то есть не для бионики, для которой они имеют первостепенное значение уже сейчас) хотелось бы отметить следующее: нейронные сети, будучи чрезвычайно сложным объектом для математического анализа, при грамотном их использовании, позволяют находить весьма нетривиальные законы в данных. Их трудность для анализа, в общем случае, объясняется их сложной структурой и как следствие, практически неисчерпаемыми возможностями для обобщения самых различных закономерностей. Но эти достоинства, как это часто и бывает, являются источником потенциальных ошибок, возможности переобучения. Как будет рассказано далее, подобный двоякий взгляд на перспективы всякой модели обучения является одним из принципов машинного обучения.

2 ОБЩАЯ ХАРАКТЕРИСТИКА ЗАДАЧ РАСПОЗНАВАНИЯ ОБРАЗОВ И ИХ ТИПЫ

Общая структура системы распознавания и этапы в процессе ее разработки показаны на рис. 4.

Рис. 4. Структура системы распознавания

Задачи распознавания имеют следующие характерные черты.

Это информационные задачи, состоящие из двух этапов:

– преобразование исходных данных к виду, удобному для распознавания;

– собственно распознавание (указание принадлежности объекта определенному классу).

В этих задачах можно вводить понятие аналогии или подобия объектов и формулировать правила, на основании которых объект зачисляется в один и тот же класс или в разные классы.

В этих задачах можно оперировать набором прецедентов-примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.

Для этих задач трудно строить формальные теории и применять классические математические методы (часто недоступна информация для точной математической модели или выигрыш от использования модели и математических методов несоизмерим с затратами).

Выделяют несколько типов задач распознавания. Они представлены на рисунке 11.

Рисунок 11 – Типы задач распознавания

Задача распознавания – отнесение предъявленного объекта по его описанию к одному из заданных классов (обучение с учителем);

Задача автоматической классификации – разбиение множества объектов, ситуаций, явлений по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, самообучение);

Динамическое распознавание и динамическая классификация – задачи 1 и 2 для динамических объектов;

Задача прогнозирования – суть предыдущий тип, в котором решение должно относиться к некоторому моменту в будущем.

3 ПРЕДМЕТНАЯ ОБЛАСТЬ

Широкий круг задач, решаемый нейронными сетями, не позволяет в настоящее время создавать универсальные, мощные сети, вынуждая разрабатывать специализированные сети, функционирующие по различным алгоритмам. Тем не менее, тенденции развития нейронных сетей растут с каждым годом.

Одной из первых задач, решаемых с помощью нейронных сетей, было распознавание образов на графических изображениях. С тех пор было предложено достаточно много совершенно новых решений, были усовершенствованы многие известные решения и алгоритмы.

Распознавание образов – это задача идентификации объекта или определения каких-либо его свойств по его изображению (оптическое распознавание) или аудиозаписи (акустическое распознавание). В процессе биологической эволюции многие животные с помощью зрительного и слухового аппарата решили эту задачу достаточно хорошо.

Создание искусственных систем с функциями распознавания образов остаётся сложной технической проблемой

В целом проблема распознавания образов (ПРО) состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и другими реакциями – на все объекты отличимых образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы, цифры). Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.

Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи классификации сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными задачами. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, упорядоченную информацию.

Выбор исходного описания объектов является одной из центральных задач проблемы распознавания образов. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения.

Геометрический и структурный подходы в распознавании изображений

Любое изображение, которое возникает в результате наблюдения какого-либо объекта в процессе обучения или экзамена, можно представить в виде вектора, а значит и в виде точки некоторого пространства признаков. Если утверждается, что при показе изображений возможно однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утверждается, что в некотором пространстве существует две (или несколько) области, не имеющие общих точек, и что изображения – точки из этих областей. Каждой такой области можно приписать наименование, т. е. дать название, соответствующее образу.

Заранее считается известным лишь только то, что требуется разделить две области в некотором пространстве, и что показываются точки только из этих областей. Сами эти области заранее не определены, т. е. нет каких-либо сведений о расположении их границ или правил определения принадлежности точки к той или иной области.

В ходе обучения предъявляются точки, случайно выбранные из этих областей, и сообщается информация о том, к какой области принадлежат предъявляемые точки. Никакой дополнительной информации об этих областях, т. е. о расположении их границ, в ходе обучения не сообщается. Цель обучения состоит либо в построении поверхности, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям, либо в построении поверхностей, ограничивающих эти области так, чтобы в каждой из них находились только точки одного образа. Цель обучения состоит в построении таких функций от векторов-изображений, которые были бы, например, положительны на всех точках одного и отрицательны на всех точках другого образа. В связи с тем, что области не имеют общих точек, всегда существует целое множество таких разделяющих функций, а в результате обучения должна быть построена одна из них.

Рис. 2.3 Разделение двух образов в пространстве.

Аппроксимация разделяющей функции будет задачей тем более легкой, чем более компактны и чем более разнесены в пространстве области, подлежащие разделению. Так, например, в случае, показанном на рис. 2.3а, разделение заведомо более просто, чем в случае, показанном на рис. 2.3б. Действительно, в случае, изображенном на рис 2.3а, области могут быть разделены плоскостью, и даже при больших погрешностях в определении разделяющей функции она все же будет продолжать разделять области. В случае же на рис. 2б, разделение осуществляется замысловатой поверхностью, и даже незначительные отклонения в ее форме приводят к ошибкам разделения.

Наряду с геометрической интерпретацией проблемы обучения распознаванию образов существует и иной подход, который назван структурным, или лингвистическим .

Поясним лингвистический подход на примере распознавания зрительных изображений. Сначала выделяется набор исходных понятий – типичных фрагментов, встречающихся на изображениях, и характеристик взаимного расположения фрагментов – "слева", "снизу", "внутри" и т. д. Эти исходные понятия образуют словарь, позволяющий строить различные логические высказывания. Задача состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих понятий, отобрать наиболее существенные для данного конкретного случая.

Далее, просматривая конечное и по возможности небольшое число объектов из каждого образа, нужно построить описание этих образов. Построенные описания должны быть столь полными, чтобы решить вопрос о том, к какому образу принадлежит данный объект. При реализации лингвистического подхода возникают две задачи: задача построения исходного словаря, т. е. набор типичных фрагментов, и задача построения правил описания из элементов заданного словаря.

В рамках лингвистической интерпретации проводится аналогия между структурой изображений и синтаксисом языка. Стремление к этой аналогии было вызвано 40 возможностью, использовать аппарат математической лингвистики, т. е. методы по своей природе являются синтаксическими. Использование аппарата математической лингвистики для описания структуры изображений можно применять только после того, как произведена сегментация изображений на составные части, т. е. выработаны слова для описания типичных фрагментов и методы их поиска. После предварительной работы, обеспечивающей выделение слов, возникают собственно лингвистические задачи, состоящие из задач автоматического грамматического разбора описаний для распознавания изображений. При этом проявляется самостоятельная область исследований, которая требует не только знания основ математической лингвистики, но и овладения приемами, которые разработаны специально для лингвистической обработки изображений.

Способы распознавания изображений

Возможен способ построения распознающих машин, основанный на различении каких-либо признаков подлежащих распознаванию фигур. В качестве признаков могут быть выбраны различные особенности фигур, например, их геометрические свойства (характеристики составляющих фигуры кривых), топологические свойства ( взаимное расположение элементов фигуры) и т.п. Известны распознающие машины, в которых различение букв или цифр производится, по так называемому "методу зондов" (рис. 6.), т.е. по числу пересечений контура фигуры с несколькими особым образом расположенными прямыми.

Рис. 6. Схема расположения зондов для распознавания цифр

Если проектировать цифры на поле с зондами, то окажется, что каждая из цифр пересекает вполне определенные зонды, причем комбинации пересекаемых зондов различны для всех десяти цифр. Эти комбинации и используются в качестве признаков, по которым производится различение цифр. Такие машины успешно справляются, например, с чтением машинописного текста, но их возможности ограничены тем шрифтом (или группой сходных шрифтов), для которого была разработана система признаков.

Преобразование изображений в цифровой код

Для того чтобы ввести изображение в машину, нужно перевести его на машинный язык, т.е. закодировать, представить в виде некоторой комбинации символов, которыми может оперировать машина. Кодирование плоских фигур можно осуществить самым различным образом. Лучше стремиться к наиболее " естественному" кодированию изображений. Будем рисовать фигуры на некотором поле, разбитом вертикальными и горизонтальными прямыми на одинаковые элементы - квадратики. Элементы, на которые упало изображение, будем сплошь зачернять, остальные - оставлять белыми. Условимся обозначать черные элементы единицей, белые - нулем. Введем последовательную нумерацию всех элементов поля, например, в каждой строке слева направо и по строкам сверху вниз. Тогда каждая фигура, нарисованная на таком поле, будет однозначно отображаться кодом, состоящим из стольких цифр (единиц и нулей), сколько элементов содержит поле.

Рис. 7. Примеры проецирования и кодирования изображений

Такое кодирование (рис. 7) считается "естественным" потому, что разбиение изображения на элементы лежит в основе работы нашего зрительного аппарата. Действительно, сетчатка глаза состоит из большого числа отдельных чувствительных элементов (так называемых палочек и колбочек), связанных нервными волокнами со зрительными отделами головного мозга. Чувствительные элементы сетчатки передают по своим нервным волокнам в головной мозг сигналы, интенсивность которых зависит от освещенности данного элемента. Таким образом, изображение, спроектированное оптической системой глаза на сетчатку, разбивается палочками и колбочками на отдельные участки, и по элементам в некотором коде передается в мозг. Отдельные элементы поля называются рецепторами, а само поле - полем рецепторов.

Информация о работе Распознавание изображений с помощью нейронных сетей