Управление данными в информационных системах

Автор работы: Пользователь скрыл имя, 13 Января 2013 в 18:33, доклад

Описание работы

Управление данными (англ. data management) — процесс, связанный с накоплением, организацией, запоминанием, обновлением, хранением данных и поиском информации.
К управлению данными относятся
• Анализ данных
• Моделирование данных
• Управление базами данных
• Работа с хранилищами данных
• Извлечение, преобразование и загрузка данных
• Добыча данных
• Обеспечение качества данных
• Защита данных
• Шифрование данных
• Управление метаданными (репозиториями данных)
• Архитектура данных

Файлы: 1 файл

Управление данными в информационных системах3.docx

— 226.79 Кб (Скачать файл)

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

2.1.8  Современные  реляционные   и  постреляционные  СУБД.

Постреляционная модель данных представляет собой расширенную реляционную модель, в которой отменено требование атомарности атрибутов. Поэтому постреляционную модель называют "не первой нормальной формой" (NF2) или "многомерной базой данных". Она использует трехмерные структуры, позволяя хранить в полях таблицы другие таблицы. Тем самым расширяются возможности по описанию сложных объектов реального мира. В качестве языка запросов используется несколько расширенный SQL, позволяющий извлекать сложные объекты из одной таблицы без операций соединения.

Существует несколько  коммерческих постреляционных СУБД, более подробные сведения о них можно получить на веб-серверах фирм-производителей. Пожалуй, самыми известными из них являются системы Adabas, Pick и Universe.

Ядро постреляционных СУБД не использует ни реляционную, ни объектную схему - обычно оно построено на базе сетевой или иерархической модели. Зачем это делается? Известно, что реализации сетевой и в особенности иерархической модели БД отличаются высокой скоростью работы с данными и простотой масштабируемости. При этом гибкость языковой среды иерархических БД позволяет весьма эффективно воплощать ту или иную модель данных. Именно поэтому многие специалисты рекомендуют использовать иерархическую СУБД в качестве основы даже для "чистых" реляционных и объектных СУБД. Для работы с данными в постреляционных СУБД применяются механизмы, которые представляют массивы данных иерархического или сетевого ядра системы в виде классов объектов и реляционных таблиц и обеспечивают необходимые механизмы (например, встроенные языки третьего поколения или интерфейсы к внешним инструментариям) для работы с ними.

Основное отличие и  преимущество постреляционных СУБД в сравнении с реляционно-объектными СУБД состоит в том, что в постреляционных СУБД механизмы работы с объектами и реляционными таблицами находятся на одном логическом уровне, что обеспечивает более высокую скорость доступа и работы с данными, функциональную полноту, в т.ч. соответствие определенным стандартам и спецификациям.

 Несмотря на то, что  объектные базы существуют более  десятка лет, это направление  в СУБД считается новым и  ставит перед исследователями  множество теоретических проблем.  Ключевой, конечно же, теория объектной  модели данных. И даже не столько  теория, сколько приемлемый по  сложности математический аппарат  для работы с объектами. Ведь  почему реляционные обрели такую популярность? Оттого, что реляционная модель интуитивно понятна, а ее математическое описание довольно несложно. Есть сомнения относительно существования такой теории. Поиски продолжаются можно указать на работы Вона Кима, Ишикавы. Джим Фрай, объектно-документная веб. стоунбрейкеру.

В отсутствие общепринятой модели черезвычайную важность проибретает значение стандартов. Несмотря на усилия группы ODMG, унификация интерфейсов объектный баз различных производителей явно недостаточна. Аналогичные стандарты в мире реляционных баз хотя не идеальны, но намного более строги.

 

СУБД входящие в состав офисных систем.

MS Access в настоящее время является одной из самых популярных среди настольных программных систем управления базами данных. Среди причин такой популярности

следует отметить:

  • высокую  степень  универсальности и продуманности интерфейса, который рассчитан на работу с пользователями самой различной квалификации. В частности, реализована  система  управления  объектами  базы  данных,  позволяющая  гибко  и  оперативно переходить из режима конструирования в режим их непосредственной эксплуатации;
  • глубоко  развитые  возможности  интеграции  с  другими  программными  продуктами, входящими в состав МS Office, а также с любыми программными продуктами, поддерживающими технологию OLE.
  • богатый набор визуальных средств разработки.

MS Access  -  высокопроизводительная  (32-разрядная)  система управления  реляционными  базами  данных,  которая входит  в состав профессиональной  версии  интегрированного пакета Microsoft Office.

MS Access предназначена для разработки настольных баз данных и создания приложений  баз данных  архитектуры клиент-сервер,  работающих  под управлением операционных  систем  семейства Windows.  Эта система доступна  для пользователя  любого уровня.

MS Access работает с объектами, к которым относятся  таблицы, запросы, формы, отчеты, макросы  и модули. Все  связанные между  собой  объекты  организованы  в  один файл, называемый базой данных.

 Основные  разделы   главного  окна  соответствуют   типам  объектов,  которые может  содержать база данных MS Access. Это Таблицы, Запросы, Формы, Отчеты, Макросы и Модули.

 

Высокопроизводительные  СУБД.

Berkeley DB (BDB) — высокопроизводительная встраиваемая база данных, реализованная в виде библиотеки. BDB является нереляционной базой данных — она хранит пары ключ/значение как массивы байтов и поддерживает множество значений для одного ключа. BDB может обслуживать тысячи процессов или потоков, одновременно манипулирующих базами данных размером в 256 терабайт, на разнообразном оборудовании под различными операционными системами, включая большинство UNIX-подобных систем и Windows, а также на операционных системах реального времени.

Berkeley DB примечательна своей простой архитектурой в сравнении с другими системами баз данных, такими как, например Microsoft SQL Server и Oracle Database. Например, в ней отсутствует сетевой доступ — программы используют базу данных через вызовы внутрипроцессного API. Она поддерживает SQL в качестве одного из интерфейсов, начиная с версии 5.0, хотя и не поддерживает столбцы в таблицах в традиционном понимании на уровне внутренней архитектуры. Berkeley DB предполагает работу с парами ключ-значение, где ключ и значение могут иметь фиксированную или переменную длину, а функция сравнения ключей может быть написана и назначена прикладным программистом. Программа, которая использует БД, сама решает, как данные сохраняются в записи; БД не налагает ограничений на данные, хранимые в записях. Запись и её ключ оба могут иметь размер до четырёх гигабайт.

Berkeley DB поддерживает необходимые возможности баз данных, такие как ACID-транзакции, детальные блокировки, интерфейс распределённых транзакций XA, горячее резервное копирование и репликацию. Berkeley DB может использоваться как средство для построения хранимых индексов, так и в качестве хранилища данных.

2.1.9  Объектно-ориентированные  СУБД.

Термин "объект" в программной  индустрии впервые был введен в языке Simula (1967 г.) и означал какой-либо аспект моделируемой реальности. Сейчас под объектом понимается "нечто, имеющее четко определенные границы" (определение известного американского специалиста Г.Буча). Объекты, обладающие одинаковыми свойствами, составляют классы (например, курица, пингвин и чайка - объекты класса "птицы"). Обычно класс описывается как новый тип данных, а объекты (экземпляры класса) - определенные на его основе переменных.

Объектно-ориентированная  парадигма.

Сразу же необходимо заметить, что общепринятого определения "объектно-ориентированной  модели данных" не существует. Сейчас можно говорить лишь о неком "объектном" подходе к логическому представлению данных и о различных объектно-ориентированных способах его реализации.

Мы знаем, что любая  модель данных должна включать три  аспекта: структурный, целостный и  манипуляционный. Посмотрим, как они  реализуются на основе объектно-ориентированная парадигмы программирования:

Структура:

Структура объектной модели описываются с помощью трех ключевых понятий:

1 - инкапсуляция - каждый объект обладает некоторым внутренним состянием (хранит внутри себя запись данных), а также набором методов - процедур, с помощью которых (и только таким образом) можно получить доступ к данным, определяющим внутреннее состояние объекта, или изменить их. Таким образом, объекты можно рассматривать как самостоятельные сущности, отделенные от внешнего мира.

2 - наследование - подразумевает возможность создавать из классов объектов новые классы объекты, которые наследуют структуру и методы своих предков, добавляя к ним черты, отражающие их собственную индивидуальность. Наследование может быть простым (один предок) и множественным (несколько предков).

3 - полиморфизм - различные объекты могут по разному реагировать на одинаковые ****

 

Особенности  работы  сетевых  версий СУБД.

К основным понятиям сетевой модели базы данных относятся: уровень, элемент (узел), связь.

Узел — это совокупность атрибутов данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. В сетевой структуре каждый элемент может быть связан с любым другим элементом.

Сетевые базы данных подобны иерархическим, за исключением того, что в них имеются указатели в обоих направлениях, которые соединяют родственную информацию.

Несмотря на то, что эта  модель решает некоторые проблемы, связанные с иерархической моделью, выполнение простых запросов остается достаточно сложным процессом.

Также, поскольку логика процедуры выборки данных зависит  от физической организации этих данных, то эта модель не является полностью  независимой от приложения. Другими  словами, если необходимо изменить структуру  данных, то нужно изменить и приложение.

/********/

Сетевая СУБД - система управления базами данных, поддерживающая сетевую организацию: любая запись, называемая записью старшего уровня, может содержать данные, которые относятся к набору других записей, называемых записями подчиненного уровня.

Типичным представителем является Integrated Database Management System (IDMS) появилась в 70-х годах. Среди отечественных СУБД, основанных на сетевой модели, следует отметить CronosPRO компании Кронос-Информ, представленную в начале 90-х годов.

Сетевой подход к организации  данных является расширением иерархического.

Сетевая БД состоит из набора записей и набора связей между этими записями. На формирование связи особых ограничений не накладывается. В иерархических структурах запись-потомок должна иметь в точности одного предка, а в сетевой структуре данных потомок может иметь любое число предков.

Достоинства

достоинством сетевой  модели данных является возможность  эффективной реализации по показателям  затрат памяти и оперативности. В  сравнении с иерархической моделью  сетевая модель предоставляет большие  возможности в смысле допустимости образования произвольных связей. В  рамках сетевых СУБД легко реализуются и иерархические даталогические модели. Сетевые СУБД поддерживают сложные соотношения между типами данных, что делает их пригодными в различных приложениях. Таким образом, к основным преимуществам сетевых СУБД относятся следующие:

  • обработка больших объемов информации (возможность построения на основе таких СУБД «хранилищ данных»);
  • поддержка аналитической обработки данных;
  • эффективная реализация обработки данных по показателям затрат памяти и оперативности.

Недостатки 

Пользователи сетевых  СУБД ограничены связями, определенными  для них разработчиками БД-приложений. Подобно иерархическим, сетевые  СУБД предполагают разработку БД приложений опытными программистами и системными аналитиками.

Также к недостаткам сетевой  модели данных относится высокая  сложность и жесткость схемы  БД, построенной на ее основе, а также  сложность для понимания и  выполнения обработки информации в  БД обычным пользователем. Кроме  того, в сетевой модели данных ослаблен контроль целостности связей вследствие допустимости установления произвольных связей между записями.

 

Распределенные  базы данных.

Распределённые  базы данных (РБД) — совокупность логически взаимосвязанных баз данных, распределённых в компьютерной сети.

Основные принципы:

РБД состоит из набора узлов, связанных коммуникационной сетью, в которой:

  • каждый узел — это полноценная СУБД сама по себе;
  • узлы взаимодействуют между собой таким образом, что пользователь любого из них может получить доступ к любым данным в сети так, как будто они находятся на его собственном узле.

Каждый узел сам  по себе является системой базы данных. Любой пользователь может выполнить операции над данными на своём локальном узле точно так же, как если бы этот узел вовсе не входил в распределённую систему. Распределённую систему баз данных можно рассматривать как партнёрство между отдельными локальными СУБД на отдельных локальных узлах.

Фундаментальный принцип  создания распределённых баз данных («правило 0»): Для пользователя распределённая система должна выглядеть так  же, как нераспределённая система.

Фундаментальный принцип  имеет следствием определённые дополнительные правила или цели. Таких целей  всего двенадцать:

  1. Локальная независимость. Узлы в распределённой системе должны быть независимы, или автономны. Локальная независимость означает, что все операции на узле контролируются этим узлом.
  2. Отсутствие опоры на центральный узел. Локальная независимость предполагает, что все узлы в распределённой системе должны рассматриваться как равные. Поэтому не должно быть никаких обращений к «центральному» или «главному» узлу с целью получения некоторого централизованного сервиса.
  3. Непрерывное функционирование. Распределённые системы должны предоставлять более высокую степень надёжности и доступности.
  4. Независимость от расположения. Пользователи не должны знать, где именно данные хранятся физически и должны поступать так, как если бы все данные хранились на их собственном локальном узле.
  5. Независимость от фрагментации. Система поддерживает независимость от фрагментации, если данная переменная-отношение может быть разделена на части или фрагменты при организации её физического хранения. В этом случае данные могут храниться в том месте, где они чаще всего используются, что позволяет достичь локализации большинства операций и уменьшения сетевого трафика.
  6. Независимость от репликации. Система поддерживает репликацию данных, если данная хранимая переменная-отношение — или в общем случае данный фрагмент данной хранимой переменной-отношения — может быть представлена несколькими отдельными копиями или репликами, которые хранятся на нескольких отдельных узлах.
  7. Обработка распределённых запросов. Суть в том, что для запроса может потребоваться обращение к нескольким узлам. В такой системе может быть много возможных способов пересылки данных, позволяющих выполнить рассматриваемый запрос.
  8. Управление распределёнными транзакциями. Существует 2 главных аспекта управления транзакциями: управление восстановлением и управление параллельностью обработки. Что касается управления восстановлением, то чтобы обеспечить атомарность транзакции в распределённой среде, система должна гарантировать, что все множество относящихся к данной транзакции агентов (агент — процесс, который выполняется для данной транзакции на отдельном узле) или зафиксировало свои результаты, или выполнило откат. Что касается управления параллельностью, то оно в большинстве распределённых систем базируется на механизме блокирования, точно так, как и в нераспределённых системах.
  9. Аппаратная независимость. Желательно иметь возможность запускать одну и ту же СУБД на различных аппаратных платформах и, более того, добиться, чтобы различные машины участвовали в работе распределённой системы как равноправные партнёры.
  10. Независимость от операционной системы. Возможность функционирования СУБД под различными операционными системами.
  11. Независимость от сети. Возможность поддерживать много принципиально различных узлов, отличающихся оборудованием и операционными системами, а также ряд типов различных коммуникационных сетей.
  12. Независимость от типа СУБД. Необходимо, чтобы экземпляры СУБД на различных узлах все вместе поддерживали один и тот же интерфейс, и совсем необязательно, чтобы это были копии одной и той же версии СУБД.

Информация о работе Управление данными в информационных системах