Обзор систем автоматического извлечения знаний из текста
Статья, 16 Декабря 2013, автор: пользователь скрыл имя
Описание работы
XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.
Файлы: 1 файл
Статья.docx
— 696.67 Кб (Скачать файл)ОБЗОР СИСТЕМ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТА
Направление бакалавриата «Прикладная информатика», 4 курс
Научный руководитель доцент,
XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.
Чтобы не быть голословными, представляем вам инфографику «Интернет за минуту в цифрах» [1].
Рис.1 Инфографика «Интернет за минуту в цифрах»
Найти в интернете специализированную
и актуальную информацию становится
всё тяжелее и тяжелее. Именно
тогда на первый план и выходят
системы автоматического
Кратко определим задачи извлечения знаний. К первой задаче относится определение, создание и развитие искусственного интеллекта (ИИ). Ко второй – развитие Data-mining. К третьей задаче относится выявление новой предметной области.
Остановимся подробнее на второй задаче.
Data-mining на практике:
- Розничная торговля
Предприятия в сфере розничной торговли собирают подробную информацию обо всех покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Ниже приведены типичные задачи, решающиеся с помощью Data Mining в этой сфере:
• анализ покупательской корзины;
• исследование временных шаблонов;
• создание прогнозирующих моделей;
- Банковское дело
В банковском деле
используются достижения
• выявление мошенничества с кредитными карточками;
• сегментация клиентов;
• прогнозирование изменений клиентуры.
- Телекоммуникации
Методы Data Mining помогают более эффективно продвигать свои программы маркетинга и ценообразования компаниям в области телекоммуникаций. К типичных мероприятиям относятся:
• анализ записей о подробных характеристиках вызовов;
• выявление лояльности клиентов.
- Страхование
В течение многих лет страховые компании накапливают большой объем данных, тем самым представляя обширное поле деятельности для методов Data Mining:
• выявление мошенничества;
• анализ риска.
Существуют различные компании, занимающиеся разработкой систем автоматического извлечения знаний из текстов. Например, компания Netowl выпускает: Text Analytics Products, Entity Analytics Products; Attensity Text Analytics (Text Analytics). К отечественных компаниям относятся: RCO – Russian context Optimizer, которая специализируется на различных блоках (расширение, аналитика и обработка), и Ай-теко (Программный продукт – «Аналитический курьер»).
Большинство компаний, как
российские, так и зарубежные, занимаются
либо разработкой приложений для
системы автоматического
К возможностям этой системы относятся:
- глобальный тематический мониторинг Интернет-пространства, хранение сообщений в «облаке Big Data»;
- оперативный анализ любых объектов информационного пространства системы через несколько секунд после поступления документов в систему;
- формирование конвейеров анализа проблем из визуальных методов аналитической обработки, применяемых к результату поиска;
- семантический анализ текста, тональность (имиджа, высказываний) об объектах.
- мониторинг социальных медиа;
- обработка запросов на естественном языке;
- тематическое рубрицирование документов;
- кросс-языковой поиск;
- выявление ключевых тем документа;
- ведение профессиональных библиотек пользователей и поиск;
- автоматическое создание аннотаций. [3]
Но существенный минус этого продукта заключается в отсутствии демо-версий, спецификаций и полного набора модулей, и как следствие, отсутствие полного представления о данной системе.
На официальном сайте компаний АЙ-теко представлены некоторые компоненты программы, которые представлены на рис.2 и рис.3
Рис.2 Компонент автоматической коррекции орфографических ошибок
Рис.3 Компонент определения тональности текста
Источники:
[1] Электронный портал: http://www.droidnews.ru/
[2] Википедия- свободная энциклопедия. Электронный ресурс: http://ru.wikipedia.org/
[3] Официальный сайт компании Ай-теко. Электронный ресурс: http://www.i-teco.ru/