Хранилища данных

Автор работы: Пользователь скрыл имя, 29 Мая 2012 в 22:27, контрольная работа

Описание работы

Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.
Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как «хранилище данных». Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР).

Содержание работы

1. Концепция хранилища данных
2. Виртуальные информационные хранилища…………………………….…5
3. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse)……………………………………….11
4. Технологии передачи данных……………………………………………...15
Заключение………………………………………………………………….27
Список использованной литературы………………………………………28

Файлы: 1 файл

контрольная работа по информационным технологиям в экономике.doc

— 956.50 Кб (Скачать файл)
 
 
  1. Концепция хранилища данных
  2. Виртуальные информационные хранилища…………………………….…5
  3. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse)……………………………………….11
  4. Технологии передачи данных……………………………………………...15

    Заключение………………………………………………………………….27

         Список использованной литературы………………………………………28 
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

1. КОНЦЕПЦИЯ ХРАНИЛИЩА ДАННЫХ

     Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.

     Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как «хранилище данных». Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР). Системы СППР пользуются информацией, собранной с помощью компьютерных сетей из множества систем обработки данных (СОД). Данные в СОД собираются, хранятся и по достижении установленного срока выгружаются. Данные в различных СОД могут быть не согласованы между собой, информация в них может быть по-разному структурирована, степень ее достоверности определить сразу бывает достаточно трудно. Все это свидетельствует о том, что архивные данные из СОД без предварительной доработки использовать в информационных хранилищах нецелесообразно.

     В настоящее время для совместного  использования данных осуществляется интеграция различных СОД на основе единого справочника метаданных, т. е. по каждому новому запросу предполагается динамическая выгрузка данных из различных СОД, их согласование, агрегация и транспортировка пользователю. Из предложенной схемы видно, что в ней отсутствует интерактивное взаимодействие с пользователем для проведения динамического анализа.

     Информационные  хранилища для СППР должны обладать некоторыми специфическими свойствами. Они должны обеспечивать хранение информации в хронологическом порядке, так  как без поддержания хронологии данных нельзя говорить о решении  задач прогнозирования и анализа тенденций (основных задач СППР). Основное требование, предъявляемое к информационным хранилищам, достоверность информации, которую без согласованности данных обеспечить невозможно. Дело в том, что различные СОД на один и тот же запрос могут дать различные ответы по ряду причин:

     - асинхронность модификации данных в разных СОД;

     - различия в трактовке событий, понятий и т. д.;

     - изменение семантики данных в процессе развития предметной области;

     - ошибки при вводе и обработке;

     - частичная утрата фрагментов информации из архива и т. п.

     Задача  создания информационных хранилищ чрезвычайно  сложна. Ее решение связано с рядом  проблем глобального характера. Первая проблема состоит в том, что  хранилища данных работают с внешними источниками, т. е. различными информационными системами, электронными архивами, каталогами и справочниками, статистическими сборниками и т. д. Все внешние источники реализованы на основе различных программных и аппаратных средств. На основе этих разнородных средств и решений необходимо построить единую информационную систему, функционально согласованную.

     Вторая  проблема заключается в том, чтобы  эта единая информационная система  имела распределенное решение, т. е. следует физически разделить  узлы компьютерной сети, где происходит операционная обработка информации, и узлы, в которых выполняется анализ данных. Третья проблема — это метаданные и средства их представления. Прежде метаданными пользовались разработчики и в меньшей степени администраторы баз данных, т. е. специалисты. В настоящее время метаданные применяются всеми пользователями и средства их представления должны соответствовать уровню подготовки простого пользователя. Для аналитических систем, для СППР база метаданных жизненно необходима, как путеводитель для туриста в незнакомом городе. Пользователю, кроме структуры и взаимосвязей данных, необходимо знать:

     - источники получения данных и степень их достоверности, так как одна и та же информация может попасть в хранилище из различных источников;

     - периодичность обновления, т. е. не только когда были обновлены данные, но и когда они будут вновь обновляться;

     - собственников данных, чтобы определить, какие шаги пользователь должен предпринять для доступа к этим данным;

     - статистическую оценку запросов, оценку времени и объема полученного ответа.

     Собрав  информацию об истории развития организации, ее успехах и неудачах, причинах этих неудач, взаимоотношениях с поставщиками и заказчиками, истории и развитии рынка, менеджеры получают уникальную возможность для анализа прошлого, текущей ситуации и составления обоснованных прогнозов. Но возникает четвертая проблема - проблема защиты информации. Региональный менеджер должен иметь информацию по региону, а менеджер подразделения - по подразделению.

     Последняя проблема, о которой следует упомянуть, — это проблема больших объемов хранилищ. В настоящее время 50% организаций уже планируют объем хранилищ в 100 гигабайт. Средний коэффициент, на который нужно умножать эту цифру для расчета реально необходимого объема хранилища, равен 4,87, но он может быть разным в зависимости от вида информации.

     Подход  построения хранилища данных, для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД. Реально строится новое крупномасштабное хранилище, управление данными в котором происходит по другим правилам, чем в исходных оперативных БД.

     Развитие  технологии Хранилищ данных началось с необходимости разделить данные, используемые для операций, и данные, применяемые в аналитических целях. Хранилище обеспечивает возможности, наиболее приспособленные для отчетности. Кроме того, разделение  пользователей, выполняющих транзакции, и пользователей отчетности, чьи нерегла-ментируемые запросы могут негативно сказаться на эффективности оперативных систем, гарантируют оптимальное использование ресурсов инфраструктуры данных. 

  1. ВИРТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ ХРАНИЛИЩА
 

     Рост  числа разнородных хранилищ информации как внутри предприятия, так и  за его пределами повышает сложность  поиска и доступа к ней. Информация может храниться в бесконечном количестве мест, включая хранилища данных, базы данных, приложения коллективной работы, Web-сайты, электронная почта, корпоративные приложения и многое другое.

     Корпоративные хранилища неструктурированной  информации появились вместе с первыми носителями данных. Однако на протяжении многих лет единственной основой корпоративных хранилищ, доступ к которым имели конечные пользователи, оставалась файловая система. С появлением корпоративных систем управления содержанием (их создатели предложили такие функции работы с информацией, как управление версиями и правами доступа, бизнес-правила, рассылка и т.д.) понадобилось соответствующим образом адаптировать модель хранилищ, устанавливая типы содержания, атрибуты, жизненные циклы и т.д. Чтобы обеспечить возможность подобной адаптации, корпоративные системы стали предлагать свои собственные модели, которые в отличие от файловых систем обладали, куда большим спектром параметров для настройки.

     Наиболее  популярной моделью хранилища содержания стала объектно-ориентированная модель, в которой любая информационная единица представляется самостоятельным объектом определенного типа и имеет уникальный набор атрибутов (классификаторов). Объектно-ориентированная модель имеет определенные преимущества перед традиционной реляционной моделью, поддерживая наследование признаков типов объектов, таких как состав атрибутов и операций. Благодаря этому при развитии структуры хранилища, а также при появлении новых функциональных задач не требуется вносить исправления в текущие настройки; достаточно создать потомков уже готовых типов объектов, добавив к ним новые функции.

     С увеличением числа внешних пользователей  корпоративных хранилищ информации, появилась необходимость в обеспечении удаленного доступа к хранилищам и возможности построения распределенных федеративных хранилищ. Ответом на эти требования стало создание технологий, которые позволили строить распределенные корпоративные информационные среды.

     Концепция таких хранилищ состоит в том, что конечный пользователь, работая в привычных для себя приложениях, получает одновременный доступ к неструктурированной информации из разных источников. Содержание виртуального хранилища составляют несколько механизмов:

     Интеграция  корпоративного содержания. Обеспечивает универсальный доступ ко всем источникам информации — как внутри предприятия, так и за его пределами. Необходимость в таком механизме обусловлена тем, что с ростом числа возможных источников информации пользователю приходится работать с множеством документов и Web-страниц. Механизм интеграции корпоративного содержания призван сформировать универсальную программную и пользовательскую среду для доступа ко всем возможным источникам информации. Такая программная среда должна быть максимально открытой, поддерживать все актуальные стандарты, интерфейсы и протоколы обмена данными.

     Управление  бизнес-процессами. Предоставляет единый доступ пользователей к задачам бизнес-процессов из разных информационных систем и обеспечивает их интеграцию. Это требует обеспечить прозрачность взаимодействия между системами и универсальность доступа конечных пользователей к функциям бизнес-процессов. Обеспечение единого пользовательского интерфейса к потоку работ для всех информационных систем, возможность обмена данными через разнообразные интерфейсы и протоколы, интеграция со средствами анализа и моделирования бизнес-процессов, формирование отчетов — вот лишь основные требования концепции управления бизнес-процессами.

     Обмен содержанием. Позволяет передавать информацию из одной информационной системы в другую, а также за пределы корпоративной информационной среды. Информационные потоки любого предприятия не ограничиваются внутренним информационным пространством. Существует масса разнородных путей поступления информации, которую требуется поместить в корпоративное хранилище (факс, сканер, электронная почта, Web и др.). С другой стороны, существует и множество разнородных получателей информации, каждый из которых имеет свои каналы передачи данных и требует уникального формата представления (например, вывод на печать, отправка по электронной почте, запись на диск). Виртуальное хранилище должно обеспечивать поддержку всех современных каналов коммуникаций и позволять преобразовывать информацию в те формат и представление, которые требуются получателю.

     Классификация и категоризация. Делает возможным создание единой базы предметных классификаторов для распределенных объектов виртуального хранилища. Для возможности оперативного доступа к объектам виртуального хранилища, быстрого поиска, запуска бизнес-процессов, определения назначения той или иной информации виртуальное хранилище должно поддерживать единую систему их классификации (ориентируется на интеграцию и классификацию неструктурированных типов содержания (традиционные документы, чертежи, отчеты, Web-ресурсы, отсканированные документы, мультимедийные данные и др.), расширяет возможности по предоставлению унифицированного доступа к таким ресурсам пользователей и приложений).

     Физическая  модель данных описывает структуры  хранения данных с использованием всех особенностей конкретной СУБД. Она непосредственно учитывает такие аспекты, как архитектуру, безопасность, эффективность доступа и т.д. и  представляет собой SQL скрипт, позволяющий создать реальную базу данных. В ряде случаев может потребоваться также включить в физическую модель описание дополнительных настроек СУБД, необходимых для реализации БД.

     Физическая  модель данных содержит следующую информацию:

     - описание базы данных, 

     - описания файлов и структуры памяти,

     - типы индексов,

     - описания объектов, связанных с хранилищем данных (физическое размещение, включая сегментацию).

     Требования  к информации включают в себя:

     - требования к составу и структуре выдаваемой на рабочие места конечных пользователей информации;

     - требования к составу, структуре, размещению и объему хранилища данных;

     - требования к источникам данных, включающие в себя их размещение, степень полноты и  достоверности информации и время ее старения, способы ее передачи;

     - требования к составу, структуре, представлению и характеристикам метаданных;

     - требования к синтаксическому и семантическому контролю данных и их очистке и преобразованию;

     - требования к защите от несанкционированного доступа к данным;

     -требования к времени реакции хранилища данных на запросы пользователей и времени обновления хранилища.

     При разработке требований к данным желательно предусмотреть:

Информация о работе Хранилища данных