Теория поиска информации

Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 22:30, реферат

Описание работы

Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Содержание работы

Введение
Общая характеристика работы
1.Теория поиска информации
1.1 Как работают поисковые машины
1.2 Алгоритмы поиска. Законы Зипфа
1.3 Как поисковые машины могут использовать законы Зипфа
2.Представление базы данных
2.1 Матричное представление базы данных
2.2 Пространственно-векторная модель поисковой системы(ПС)
2.3 Полнота и точность поиска
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
3.2 Информационно-поисковый язык
4 Поисковые системы
4.1 Какая из поисковых машин лучше
4.2 Обзор основных поисковых систем
4.2.1 Google и его поисковые серверы
4.2.2 Яндекс и его поисковые серверы
4.2.3 Alta Vista и его поисковые серверы
4.2.4 Метапоисковые системы
4.2.5 Система поиска в конференциях Usenet News
4.2.6 Скрытый веб
5.Практическая часть
5.1 Сложные запросы в Яндекс
5.1.1 Анализ сложных запросов
5.1.2 Составление запросов
Заключение
Основные результаты работы
Рекомендации по практическому использованию результатов
Список использованных источников

Файлы: 1 файл

Общая характеристика работы.doc

— 340.00 Кб (Скачать файл)

Последовательность действий такова:

  1. Подбираем текст-источник. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из поисковой системы столь же бестолковые документы.
  2. Удаляем из текста стоп-слова (их можно просто вычеркивать).
  3. Вычисляем частоту вхождения каждого термина. Причем делаем это без учета морфологии слов. Так, слова стол и столы будут разными терминами. Не нужно учитывать и регистр, все буквы считаем строчными.
  4. Выписываем на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще).
  5. Выбираем диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен. Вам следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, ведь теперь вы выбираете термины не из текста, а из построенного по определенному закону упорядоченного списка.
  6. Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может оказаться довольно много слов. Все их применить вряд ли удастся. Достаточно взять 10-20 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона).
  7. Составляем запрос, располагая отобранные слова в порядке их следования в списке терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы.
  8. Отправляем запрос поисковой системе.

В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь. Если поисковая машина ранжирует  результаты (а это еще одно необходимое условие), на первых страницах окажутся практически стопроцентно релевантные документы. Самое любопытное, что документ -- источник запроса (если его аналог существует в Интернете) вовсе не обязательно будет возглавлять список.


Информация о работе Теория поиска информации