Интеллектуальный анализ данных в системах поддержки принятия решений

Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 19:54, реферат

Описание работы

ВВ той или иной степени Системы Поддержки Принятия Решений (СППР) присутствуют в любой информационной системе (ИС). Поэтому, осознанно или нет, к задаче создания системы поддержки принятия решений организации приступают сразу после приобретения вычислительной техники и установки программного обеспечения. По мере развития бизнеса, упорядочения структуры организации и налаживания межкорпоративных связей, проблема разработки и внедрения СППР становится особенно актуальной.

Содержание работы

Введение 3
1 Зарождение концепции хранилища данных 5
2 Технология разработки и внедрения Хранилища Данных 7
2.1 Этапы проекта 7
2.2 Выбор модели данных Хранилища 10
2.3 Выбор структуры Хранилища Данных 13
2.4 Витрины Данных 15
2.5 Хранилище Метаданных (Репозитарий) 17
2.6 Загрузка Хранилища 20
2.7 Анализ данных: OLAP 22
3 Интеллектуальный анализ данных 26
Заключение 29
Список использованной литературы 30

Файлы: 1 файл

Интеллектуальный анализ данных в системах поддержки принятия решений.docx

— 63.45 Кб (Скачать файл)

OLAP-системы построены  на двух базовых принципах:

  • все данные, необходимые для принятия решений, предварительно агрегированы на всех соответствующих уровнях и организованы так, чтобы обеспечить максимально быстрый доступ к ним;
  • язык манипулирования данными основан на использовании бизнес-понятий.

В основе OLAP лежит понятие  гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные, например объемы продаж. Измерения представляют собой совокупности значений других данных, скажем названий товаров и названий месяцев года. В простейшем случае двумерного куба (квадрата) мы получаем таблицу, показывающую значения уровней продаж по товарам и месяцам. Дальнейшее усложнение модели данных может идти по нескольким направлениям:

  • увеличение числа измерений - данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным;
  • усложнение содержимого ячейки - например нас может интересовать не только уровень продаж, но и, скажем, чистая прибыль или остаток на складе. В этом случае в ячейке будет несколько значений;
  • введение иерархии в пределах одного измерения - общее понятие ВРЕМЯ естественным образом связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т. д.

Речь пока идет не о физической структуре хранения, а лишь о логической модели данных. Другими словами, определяется лишь пользовательский интерфейс модели данных. В рамках этого интерфейса вводятся следующие базовые операции:

  • поворот;
  • проекция. При проекции значения в ячейках, лежащих на оси проекции, суммируются по некоторому предопределенному закону;
  • раскрытие (drill-down). Одно из значений измерения заменяется совокупностью значений из следующего уровня иерархии измерения; соответственно заменяются значения в ячейках гиперкуба;
  • свертка (roll-up/drill-up). Операция, обратная раскрытию;
  • сечение (slice-and-dice).

В зависимости от ответа на вопрос, существует ли гиперкуб как  отдельная физическая структура  или лишь как виртуальная модель данных, различают системы MOLAP (Multidimensional OLAP) и ROLAP (Relational OLAP). В первых гиперкуб реализуется как отдельная база данных специальной нереляционной  структуры, обеспечивающая максимально  эффективный по скорости доступ к  данным, но требующая дополнительного  ресурса памяти. MOLAP-системы весьма чувствительны к объемам хранимых данных. Поэтому данные из хранилища  сначала помещаются в специальную многомерную базу (Multidimensional Data Base, MDB), а затем эффективно обрабатываются OLAP-сервером.

Одним из первых производителей таких систем стала компания Arbor Software, выпустившая продукт Essbase. Компания Oracle предлагает систему Oracle Express, интегрированную  с универсальным Oracle Server. Известны и  другие производители MOLAP-систем, например SAS Institute. Однако, в отличие от Essbase, их продукты часто интегрированы  в приложения, созданные для конкретных вертикальных или горизонтальных рынков, и поставляются лишь в составе  этих приложений.

Для систем ROLAP гиперкуб - это  лишь пользовательский интерфейс, который  эмулируется на обычной реляционной  СУБД. В этой структуре можно хранить  очень большие объемы данных, однако ее недостаток заключается в низкой и неодинаковой эффективности OLAP - операций. Опыт эксплуатации ROLAP-продуктов показал, что они больше подходят на роль интеллектуальных генераторов отчетов, чем действительно оперативных  средств анализа. Они применяются  в таких областях, как розничная  торговля, телекоммуникации, финансы, где количество данных велико, а  высокой эффективности запросов не требуется. Примерами промышленных ROLAP-систем служат MetaCube фирмы Informix и Discoverer 3.0 фирмы Oracle. На практике иногда реализуется  комбинация этих подходов.

Некоторые поставщики программных  продуктов (Sybase - Sybase IQ, Teradata) поставляют более сложные решения, основанные на специальных методах хранения и индексации данных и связей между  данными.

При определении программно-технологической  архитектуры Хранилища следует  иметь в виду, что система принятия решения, на какие бы визуальные средства представления она ни опиралась, должна предоставить пользователю возможность  детализации информации. Руководитель предприятия, получив интегрированное  представление данных и/или выводы, сделанные на его основе, может  затребовать более детальные  сведения, уточняющие источник данных или причины выводов. С точки зрения проектировщика СППР, это означает, что необходимо обеспечить взаимодействие СППР не только с Хранилищем Данных, но и в некоторых случаях с транзакционной системой.

2.3 Выбор структуры Хранилища  Данных

Несколько лет назад для  Хранилищ Данных было предложено использовать схемы данных, получившие названия "звезда" и "снежинка". Суть технологии проектирования этих схем заключается  в выделении из общего объема информации собственно анализируемых данных (или  фактов) и вспомогательных данных (называемых измерениями). Необходимо, однако, отдавать себе отчет в том, что это приводит к дублированию данных в Хранилище, снижению гибкости структуры и увеличению времени  загрузки. Все это - плата за эффективный  и удобный доступ к данным, необходимый  в СППР.

Несмотря на то что предсказать, какую именно информацию и в каком  виде захочет получить пользователь, работая с СППР, практически невозможно, измерения, по которым проводится анализ, достаточно стабильны. В процессе подготовки того или иного решения пользователь анализирует срез фактов по одному или нескольким измерениям. Анализ информации, исходя из понятий измерений  и фактов, иногда называют многомерным  моделированием данных (MultiDimensional Modelling, MDM). Таблицы фактов обычно содержат большие объемы данных, тогда как  таблицы измерений стараются  сделать поменьше. Этого подхода  желательно придерживаться потому, что  запрос по выборке из объединения  таблиц выполняется быстрее, когда  одна большая таблица объединяется с несколькими малыми. При практической реализации ХД небольшие таблицы  измерений иногда удается целиком  разместить в оперативной памяти, что резко повышает эффективность  выполнения запросов.

Поскольку в Хранилищах Данных, наряду с детальными, должны храниться  и агрегированные данные, в случае "снежинки" или "звезды" появляются таблицы агрегированных фактов (агрегатов). Подобно обычным фактам, агрегаты могут иметь измерения. Кроме  того, они должны быть связаны с  детальными фактами для обеспечения  возможной детализации. На практике Хранилища часто включают в себя несколько таблиц фактов, связанных  между собой измерениями, которые  таким образом разделяются между  несколькими таблицами фактов. Такая  схема носит название "расширенная  снежинка", и именно она, как правило, встречается в Хранилищах Данных.

Для достижения наивысшей  производительности иногда используют подход, при котором каждая "звезда" располагается в отдельной базе данных или на отдельном сервере. Хотя такой подход приводит к увеличению размера дискового пространства за счет дублирования разделенных измерений, он может оказаться весьма полезным при организации Витрин Данных.

При проектировании структуры  хранилища часто возникает желание  использовать как можно больше агрегатов  и за счет этого повысить производительность системы. Нетрудно подсчитать, что для  модели "звезда" с 10 измерениями  можно построить 10!=3.63 миллиона различных  агрегированных значений, размещение которых в памяти при установлении связей с соответствующими измерениями  приведет к резкому увеличению занимаемого  дискового пространства и замедлению доступа к данным. Другая крайность  состоит в использовании слишком  малого числа агрегатов, а это  может привести к необходимости  выполнять агрегирование динамически, что заметно снижает эффективность  запросов. По некоторым оценкам, при  определении оптимального количества агрегатов следует придерживаться принципа 80:20 - 80% ускорения достигается  за счет использования 20% кандидатов на агрегаты.

2.4 Витрины Данных

Идея Витрины Данных (Data Mart) возникла несколько лет назад, когда стало очевидно, что разработка корпоративного хранилища - долгий и  дорогостоящий процесс. Это обусловлено  как организационными, так и техническими причинами:

  • информационная структура реальной компании, как правило, очень сложна, и руководство зачастую плохо понимает суть происходящих в компании бизнес-процессов;
  • технология принятия решений ориентирована на существующие технические возможности и с трудом поддается изменениям;
  • может возникнуть необходимость в частичном изменении организационной структуры компании;
  • требуются значительные инвестиции до того, как проект начнет окупаться;
  • как правило, требуется значительная модификация существующей технической базы;
  • освоение новых технологий и программных продуктов специалистами компании может потребовать много времени;
  • на этапе разработки бывает трудно наладить взаимодействие между разработчиками и будущими пользователями Хранилища.

В совокупности это приводит к тому, что разработка и внедрение  корпоративного хранилища требуют  значительных усилий по анализу деятельности компании и переориентации ее на новые  технологии. Витрины Данных возникли в результате попыток смягчить трудности  разработки и внедрения Хранилищ.

Сейчас под Витриной Данных понимается специализированное Хранилище, обслуживающее одно из направлений  деятельности компании, например учет запасов или маркетинг. Важно, что  происходящие здесь бизнес-процессы, во-первых, относительно изучены и, во-вторых, не столь сложны, как процессы в масштабах всей компании. Количество сотрудников, вовлеченных в конкретную деятельность, также невелико (рекомендуется, чтобы Витрина обслуживала не более 10-15 человек). При этих условиях удается с использованием современных технологий развернуть Витрину подразделения за 3-4 месяца. Необходимо отметить, что успех небольшого проекта (стоимость которого невелика по сравнению со стоимостью разработки корпоративного Хранилища), во-первых, способствует продвижению новой технологии и, во-вторых, приводит к быстрой окупаемости затрат.

Первые же попытки внедрения  Витрин Данных оказались настолько  успешными, что вокруг новой технологии начался настоящий бум. Предлагалось вообще отказаться от реализации корпоративного Хранилища и заменить его совокупностью  Витрин Данных. Однако вскоре выяснилось, что с ростом числа Витрин растет сложность их взаимодействия, поскольку  сделать витрины полностью независимыми не удается. Сейчас принята точка  зрения, в соответствии с которой  разработка корпоративного Хранилища  должна идти параллельно с разработкой  и внедрением Витрин Данных.

Фактическим стандартом структуры  данных при разработке Витрины является "звезда", основанная на единственной таблице фактов. При построении схемы  взаимодействия корпоративного Хранилища  и Витрин Данных в рамках создания СППР рекомендуется определить некоторую  специальную структуру для хранения исторических данных и дополнительно  развернуть ряд Витрин, заполняемых  данными из этой структуры. Тем самым  удается разделить два процесса: накопление исторических данных и их анализ.

Несколько фирм предлагает системы построения Витрин Данных: Informatica (PowerMart Suite), Sagent Technology (Data Mart Solution) и Oracle (DataMart Suite). Для иллюстрации процесса разработки Витрины Данных можно рассмотреть вкратце состав и функциональность пакета DataMart Suite.

Пакет включает пять основных компонентов: Data Mart Designer, Data Mart Builder, Oracle7 Enterprize Server, Web Server и Discoverer 3.0. Data Mart Designer позволяет описывать структуру Витрины и запоминать ее в Репозитарии. На выходе Data Mart Designer порождает описание на языке DDL SQL, которое затем подается на вход Oracle7 Enterprize Server. В результате создается структура базы данных, реализующая Витрину Данных. В ходе построения Витрины пользователь может применять существующие описания структур или строить Витрину "с нуля". Кроме того, Data Mart Designer позволяет строить приложения для Oracle Web Server на базе PL/SQL.

Data Mart Builder извлекает данные  из внешних источников и заполняет  Витрину. Он обладает наглядным  специализированным интерфейсом,  отображающим потоки данных при  заполнении Хранилища. Data Mart Builder способен  извлекать данные из реляционных  СУБД и CSV-файлов. Web Server предоставляет  открытую платформу для разработки Web-приложений. Он включает Web Request Broker (WRB), реализованный на основе технологии  картриджей и позволяющий разрабатывать  Web-приложения, встраиваемые в Web Server. В качестве средств разработки  могут использоваться Java, PL/SQL, LiveHTML, C и C++. Discoverer 3.0 - это средство конечного  пользователя, позволяющее генерировать  отчеты, а также выполнять некоторые  OLAP-операции с Витриной Данных. Отчеты, построенные с помощью  Discoverer 3.0, можно экспортировать в  формате HTML, делая их доступными  для Web-браузеров. Discoverer 3.0 также позволяет  создавать и поддерживать таблицы  агрегированных данных. Помимо этого, DataMart Suite включает готовое приложение, называемое Sales Analyzer.

2.5 Хранилище Метаданных (Репозитарий)

Принципиальное отличие  Системы Поддержки Принятия Решений  на основе Хранилищ Данных от интегрированной  системы управления предприятием состоит в обязательном наличии в СППР метаданных. В общем случае метаданные помещаются в централизованно управляемый Репозитарий, в который включается информация о структуре данных Хранилища, структурах данных, импортируемых из различных источников, о самих источниках, методах загрузки и агрегирования данных, сведения о средствах доступа, а также бизнес-правилах оценки и представления информации. Там же содержится информация о структуре бизнес-понятий. Так, например, клиенты могут подразделяться на кредитоспособных и некредитоспособных, на имеющих или не имеющих льготы, они могут быть сгруппированы по возрастному признаку, по местам проживания и т. п. Как следствие, появляются новые бизнес-понятия: ПОСТОЯННЫЙ КЛИЕНТ, ПЕРСПЕКТИВНЫЙ КЛИЕНТ и т. п. Некоторые бизнес-понятия (соответствующие измерениям в Хранилище Данных) образуют иерархии, например ТОВАР может включать ПРОДУКТЫ ПИТАНИЯ и ЛЕКАРСТВЕННЫЕ ПРЕПАРАТЫ, которые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д.

Информация о работе Интеллектуальный анализ данных в системах поддержки принятия решений