Аналітико-синтетичні засоби обробки інформації

Автор работы: Пользователь скрыл имя, 13 Апреля 2015 в 16:11, курсовая работа

Описание работы

Актуальність теми курсової роботи полягає в тому, що з кожним роком зростає обсяг і потужність інформаційного потоку. Упорядкувати цей потік і тримати його в контрольованому руслі можна тільки за допомогою автоматизованих систем обробки та переробки інформації. В основі цих систем (методів) лежать процеси аналізу первинних документів (індексація і предметизація) і синтезу (генерація вторинних документів, складання каталогів). У закінченому вигляді (база даних первинних документів, бібліографічні описи та засоби пошуку) разом з пам'ятками минулого і становлять національну спадщину країни.

Файлы: 1 файл

Analitiko-sintetichna_obrobka_infr_Kursova_1.docx

— 88.87 Кб (Скачать файл)

Вже в середині 50-х років в СРСР була практично здійснена ідея використання перфораційних обчислювальних машин для пошуку документальної інформації.

Якщо на зорі розвитку обчислювальної техніки для інформаційного пошуку ефективніше було використовувати людей, навіть якщо для цього було потрібно їх все більше і більше, то незабаром положення круто змінилося. Погляди фахівців у галузі інформатики звернулися на ЕОМ. У інформаційному пошуку почалася ера автоматизації.

Механізація і особливо автоматизація бібліотечних та інформаційних процесів - це життєва необхідність. Слідуючи цій необхідності, в даний час у нашій країні і за кордоном розроблена велика кількість автоматизованих інформаційно-пошукових систем (АІПС). Зупинимося на описі таких систем докладніше.

Автоматизовані ІПС залежно від об'єктів пошуку можна розділити на дві групи: документальні і фактографічні.

Документальні системи обмежують свої цілі пошуком документів, фактографічні - пошуком найрізноманітніших числових характеристик, фактів, даних і т.д. Маючи багато спільного, ці типи ІПС володіють і рядом істотних відмінностей. У автоматизованих системах науково-технічної інформації найбільш широке застосування в нашій країні отримали документальні ІПС. Цей факт відображає провідне положення документа в процесі розповсюдження інформації.

Будь-яка документальна ІПС - від ручної до автоматизованої - включає наступні елементи: інформаційно-пошукова мова (ІПМ), правила перекладу текстів документів і запитів з природної мови на ІПМ, формальні правила (алгоритми) пошуку, технічні пристрої, що реалізують алгоритми пошуку, фонд документів ( або їх адрес), записаних на будь-яких носіях інформації.

2.2. Предметизація як вид інформаційної діяльності

Завданням предметизації є точне уявлення основного змісту документа у вигляді предметних рубрик (рядків).[24, 105]

Інакше ці рядки називаються дескриптори.

Дескриптор (від лат. Describо - описую), лексична одиниця (слово, словосполучення) інформаційно-пошукової мови, що служить для опису основного смислового змісту документів. Дескриптори служать також для формулювання інформаційних запитів при пошуку документів в інформаційно-пошуковій системі.

Опис змісту документа за допомогою дескрипторів представляє собою пошуковий образ документа (ПІД), а опис змісту запиту - пошуковий образ запиту (ПОЗ). Правила складання пошукових образів документів і запитів є правилами перекладу текстів з природної мови на інформаційно-пошукову мова (ІПМ).

Словник дескрипторів із зазначеними між ними смисловими відносинами, що охоплює певну галузь знання, називається інформаційно-пошуковим тезаурусом (ІПТ). Ідея застосування ІПТ для інформаційного пошуку документів складається в описі змісту документів і запитів за допомогою дескрипторів, що входять до його складу. На практиці ця ідея реалізується наступним чином. Текст документа, що вводиться в ІПС, зменшується до обсягу реферату, в якому виділяються слова, що несуть основне смислове навантаження, так звані ключові слова. За допомогою ключових слів досить точно передається зміст документа. Після цього кожне слово замінюється близьким йому за змістом дескриптором інформаційно-пошукового тезауруса.[19, 13]

Сукупність термінів тезауруса-дескрипторів, які замінили ключові слова, утворює пошуковий образ документа. Точно так само на язик дескрипторів перекладається і запит. Пошук документів після цього вже можна доручити машині. ЕОМ з притаманною їй швидкістю переглядає масиви і порівнює їх з позом. Мета такого порівняння - виявити дескриптори, що належать одночасно поду і позу, тобто знайти перетин множин дескрипторів подав і поза. Чим більше зона перетину, тим точніше відповідність документа запиту. Мінімальна величина зони перетину обмовляється прийнятим критерієм смислової відповідності. Змінюючи його, можна варіювати точність і повноту пошуку в залежності від потреб споживачів інформації.

Такі принципи роботи ІПС з ІПМ дескрипторного типу. Якість їх роботи багато в чому залежить від досконалості застосовуваного інформаційно-пошукового тезауруса. Тому вимоги до ІПТ дуже високі. У ній не повинно бути, наприклад, термінів, що виражають одне і те ж поняття, тобто синонімів - це призвело б до втрат інформації при пошуку. Крім цього, повинні бути зафіксовані деякі відношення між термінами (рід - вид, частина ціле та інші), службовці цілям підвищення точності та повноти пошуку.

Тезаурус є необхідним лінгвістичним посібником будь-механізованої або автоматизованої інформаційно-пошукової системи, що використовує ІПМ дескрипторних типів.[22, 327]

Перші тезауруси, що задовольняють специфічні завдання інформаційного пошуку, були розроблені на початку 60-х років нашого століття.

Відповідно до тематичного профілю розрізняють: багатогалузеві, галузеві і вузькотематичні тезауруси. Найбільш відомі є наступні:

1) тезаурус АСТІА (Агентство  служби технічної інформації  США) - 1-е видання в грудні 1962 р.;

2) тезаурус технічних  і наукових термінів, найбільш  великий з існуючих тезаурусів (23364 слова, з яких 17810 слів виступають в якості дескрипторів). Ця праця, вийшла у світ в грудні 1967 р., представляє собою спільне видання Документального центру Міністерства оборони США та Об'єднаного ради інженерів;

3) тезаурус науково-технічних термінів за загальною редакцією Ю.І. Шемакіна (М., Військвидаві, 1972 р.). Цей тезаурус, що включає 19000 термінів, з яких 15000 є дескриптора, може служити прикладом вітчизняного багатогалузевого тезауруса.

До багатогалузевих тезаурусів можна віднести також тезауруси міжнародних інформаційних служб з атомної енергії. Тезаурус Євратому, виданий в 1966 і 1967 рр. і Тезаурус Міжнародного агентства з атомної енергії у Відні («ІНІС»-Тезаурус), 6-е видання якого вийшло у світ в 1974 р.

Прикладами тезаурусів галузевого масштабу можуть служити: словник дескрипторів з хімії та хімічної промисловості, виданий НІІТЕХІМ в 1973 р. (1033 дескриптора, 5373 ключових слова), тезаурус дескрипторів за освітою, який використовується в автоматизованій системі Інформаційного центру в галузі народної освіти США (1967 р. ).

Навіть цей невеликий перелік може дати уявлення про те, наскільки велика роль інформаційно-пошукового тезаурусу у пошуку інформації. В даний час в усьому світі ведеться інтенсивна робота з побудови ІПТ різного призначення.

Для з'єднання «слів» Тезаурусів в «фрази» застосовуються граматичні засоби ІПМ - правила складання пошукових образів за допомогою дескрипторів ІПТ. Граматики, що застосовуються в ІПМ, бувають найрізноманітнішими. Одні регламентують порядок дескрипторів в подах і позах, інші - приписують кожному дескриптор числа, що характеризують їх значимість для пошукового образу, треті - вказують на роль кожного дескриптора за допомогою спеціальних покажчиків і т.д. Застосування граматичних засобів в деяких випадках дозволяє більш точно передавати зміст документів і тим самим покращувати пошукові характери ІПС.

Детальне освітлення класифікаційних і дескрипторних ІПМ, інформаційно-пошукових тезаурусів і лінгвістичних (тобто мовних) аспектів автоматизованих ІПС пояснюється тим, що вони надають вирішальний вплив на функціонування ІПС. Якою б потужною і сучасною ЕОМ в своєму розпорядженні не була, без правильно обраної пошукової мови вся система буде працювати неефективно.

Удосконалення ІПМ багато в чому залежить від досягнень в галузі теорії семантичної інформації і напрямків лінгвістики. Тому поява автоматизованих ІПС послужило поштовхом до інтенсивних досліджень в області цих наук. Дуже заманливо, наприклад, доручити обчислювальній машині таку трудомістку операцію, як реферування документів. Одним із способів реалізації цієї ідеї є виділення машиною в тексті таких пропозицій, які містять найбільш значущі для даної галузі знань терміни (а такими є дескриптори тезауруса цій галузі знань, який зберігається в пам'яті машини). З цих пропозицій формується реферат документа.

2.3. Анотування і реферування як вид інформаційної діяльності

Анотація (від лат. Annotatio - зауваження) - коротка характеристика видання: рукописи, монографії, статті чи книги. Анотація показує відмінні риси та гідності видаваного твору, допомагає читачам зорієнтуватися в їх виборі.

Мета анотації - проінформувати читачів про існування роботи (тексту) певного змісту та характеру. Обсяг анотації зазвичай коливається від 150 до 200 знаків (слів).

За обсягом розрізняють короткі і розгорнуті анотації.

З точки зору методу аналізу та оцінки тексту (першоджерела) розрізняють описові (розкривають тематику без критичної оцінки), рекомендаційні (оцінюють придатність тексту для даної категорії читачів) та довідкові анотації (з критичними зауваженнями).[16, 119]

Приступати до написання анотації можна лише тоді, коли відомо:

- КОМУ? (Кому адресована анотація);

- Про що? (Про що в  анотації говориться);

- НАВІЩО? (З якою метою  написана анотація (проінформувати, переконати прочитати та інше));

Слово реферат латинського походження, що означає – доповідати, оповіщати. Згідно з найдавнішим визначенням, реферат – це стислий виклад змісту наукового документа. Як і анотація, реферат має повну змістову та частково формальну залежність від первинного документа. Науковці розглядають реферат як інтегральну модель документа, семантичні особливості якого він подає у максимально ущі-льненому вигляді. Ця інтегральна модель надає змогу здійснювати інформаційний пошук, орієнтуючись на предмет, тему і методологію проведення роботи, на її результати, галузь застосування тощо. Отже, реферат можна віднести до інтегральних моделей, в яких інформація подається в узагальненому вигляді.[23, 160]

Реферат широко застосовується в науково-інформаційній діяльності і, зокрема, в автоматизованих системах для пошуку документів та інформації, є складовою бібліографічного запису. Він має надати можливість скласти пошуковий образ для будь-якої інформаційної мови без додаткового опрацювання першоджерела, тому інформативність є відмінною функціональною особливістю реферату.

Реферати можуть бути викладом змісту наукової роботи, художньої книги і таке інше.[8, 52]

Розрізняють два види рефератів: продуктивні і репродуктивні. Репродуктивний реферат - відтворює зміст первинного тексту. Продуктивний - містить творче або критичне осмислення реферованого джерела.

Репродуктивні реферати можна розділити ще на два види: реферат-конспект і реферат-резюме. Реферат-конспект містить фактичну інформацію в узагальненому вигляді, ілюстрований матеріал, різні відомості про методи дослідження, результати дослідження та можливості їх застосування. Реферат-резюме містить тільки основні положення даної теми.

У продуктивних рефератах виділяють реферат-доповідь і реферат-огляд.

Реферат-огляд складається на основі кількох джерел і зіставляє різні точки зору з даного питання.

У рефераті-доповіді, поряд з аналізом інформації першоджерела, є об'єктивна оцінка проблеми, цей реферат має розгорнутий характер.

Реферат має певну композицію:

Вступ. У вступі обгрунтовується вибір теми, можуть бути дані вихідні дані реферованому тексту (назва, де опубліковано, в якому році), повідомлені відомості про автора (П.І.Б., спеціальність, вчений ступінь, вчене звання), розкривається проблематика обраної теми.

Основна частина. Зміст реферованого тексту, наводяться основні тези, вони аргументуються.

Висновок. Робиться загальний висновок з проблеми, заявленої в рефераті.

Реферат має наступні ознаки:

1) зміст реферату повністю  залежить від змісту реферованому  джерела;

2) містить точний виклад  основної інформації без спотворень  і суб'єктивних оцінок;

3) має постійні структури.

Реферати пишуться зазвичай стандартною, клішованою мовою, з використанням типових мовних зворотів на кшталт «важливе значення має», «приділяється особлива увага», «піднімається питання», «робимо наступні висновки», «досліджувана проблема», «освітлювані питання» і т. п . До мовних та стилістичних особливостей рефератів відносяться слова і звороти мови, що носять узагальнюючий характер, словесні кліше. Їм, як правило, притаманні невизначено-особисті пропозиції, абстрактні іменники, специфічні і наукові терміни, властиві досліджуваній проблемі, слова-жаргонізми, дієприслівникові і причетні обороти. У рефератів особлива логічність подачі матеріалу і висловлювання думки, певна об'єктивність викладу матеріалу. Все це пов'язано не з убогістю лексики автора, а зі своєрідністю мови рефератів (особливо вузькоспеціалізованої спрямованості, де переважають жаргонізми, специфічні терміни і обороти).[26, 35]

На завершення робота повинна отримати відповідну рецензію з оцінкою. Рецензія складається на основі наступних чинників:

  • рівень ерудованості автора з вивченої теми (сучасність і своєчасність розглянутої проблеми, ступінь знайомства автора роботи з актуальним станом досліджуваної проблематики, повнота цитування джерел, ступінь використання в роботі результатів досліджень і встановлених наукових фактів);

  • особисті заслуги автора реферату (додаткові знання, використані при написанні роботи, що отримані крім запропонованої освітньої програми, новизна поданого матеріалу і розглянутої проблеми, рівень володіння тематикою та наукове значення досліджуваного питання);

  • характер реферату (логічність подачі матеріалу, грамотність автора, правильне оформлення роботи, належна відповідність реферату всім стандартним вимогам).

ВИСНОВОК ДО РОЗДІЛУ 2

Отже, роль наукової обробки документів як один з основних видів інформаційної діяльності потребує значних інтелектуальних зусиль і належить до розряду наукової діяльності. Значення наукової обробки документів настільки значне, що вона є одним з основних критеріїв оцінювання рівня наукової зрілості здобувачів наукового ступеня доктора і кандидата наук, діяльності науково-дослідних інститутів, одним із основних засобів ухвалення науково виважених управлінських рішень і т. ін. Визначальною умовою якості наукової обробки документів є досягнення відповідності змісту вихідних документів інформаційній потребі споживача. Процеси збирання (виявлення, пошуку), наукового перетворення (аналітико-синтетичної обробки) документованої інформації є етапами загальнішого процесу — інформаційної діяльності.

Информация о работе Аналітико-синтетичні засоби обробки інформації