Системы поиска информации
Реферат, 02 Декабря 2011, автор: пользователь скрыл имя
Описание работы
В первой части рассмотрена история создания самых первых поисковых систем.
Во второй части рассматривается понятие поиска в сети Интернет, также рассматриваются методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.
В третьей части рассматриваются международные поисковые системы на примере Google и Yahoo!.
В последней части рассматриваются русскоязычные поисковые машины и русскоязычные каталоги.
Содержание работы
Список сокращений 3
Введение 4
История 6
Понятие поиска в сети Интернет 7
Методы информационного поиска 7
Средства поиска. Основные характеристики поиска. 8
Роботы-индексировщики 13
Международные поисковые системы 16
Google ……………………………………………………………………16
Yahoo! ……………………………………………………………………17
Русскоязычные поисковые системы 18
Русскоязычные каталоги 23
Заключение 25
Список источников 26
Файлы: 1 файл
Системы поиска информации.doc
— 533.00 Кб (Скачать файл)Список найденных документов перед выдачей пользователю сортируется по количеству совпадений с ключевой фразой в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Для формирования более точного запроса целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.
Максимально детализированный запрос можно создать также и в простой форме с использованием языка запросов Яндекс, который включает множество специальных символов: ~,&,,/,"",,(),|,$, #. Их употребление подробно описано в файле "Синтаксис языка запросов". Снабженные этими символами ключевые слова, вводятся в ту же поисковую строку, что и в первом случае.
Безусловным
достоинством Яндекс является модуль
ранжирования результатов поиска. В его
основе лежит алгоритм анализа местоположения
и повторяемости термина в документе и
анализ внешних ссылок на страницу. Система
производит группировку найденных страниц
по сайтам на этапе формирования списка
результатов и выдает по одному документу
с сервера, который, по ее мнению, наиболее
соответствует запросу. При этом в ссылке
указывается общее число документов с
данного сервера, также содержащих искомый
термин. Яндекс показывает найденные термины
в окружающем словарном контексте, что
позволяет сразу же установить степень
соответствия найденного документа информационной
потребности пользователя.
Rambler
Информационно-поисковая система Rambler (www.rambler.ru) успешно работает с 1996 г. и является одной из лучших информационно-поисковых систем в России и странах СНГ. Система имеет развитый язык запросов и гибкую форму вывода результатов. Rambler индексирует домены ru, su, ua, by, kz, kg, ge, uz и некоторые русскоязычные ресурсы из доменов com, net, org. Ежедневно в базу данных этого поисковика вносятся десятки тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети.
Поисковая система Rambler учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется рейтинг "Top100", группирует результаты поиска по сайтам, ищет по датам. Достаточно удачная архитектура продукта позволяет Rambler иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта"(по данным на 2007 год).
"Паук"
Rambler производит индексирование в новостях
5 раз в день; в сайтах, входящих в Top100, -
1 раз в день; все прочие посещаются не
чаще, чем 1 раз в две недели. Rambler не индексирует
личные странички, находящиеся на публичных
зарубежных серверах (geocities, tripod и других),
а страницы подобных отечественных сайтов
(narod, boom) обходит медленней, чем другие
ресурсы.
Aport
Поисковая система Апорт (www.aport.ru), являющаяся частью информационно-развлекательного портала "Россия ОнЛайн" (http://www.rol.ru). Это проект фирмы «Агама» при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в российской части Internet, на русскоязычных серверах СНГ и мирового Internet. Позволяет искать не только сайты, но и картинки, mp3 файлы, а также производит поиск в серверах знакомств и поиск работы. Апорт имеет свой собственный обширный каталог, разбитый по различным тематическим разделам.
Она относится к числу ведущих поисковых систем российского Интернета. Как и любая другая поисковая система, она имеет свои особенности, как чисто технические, интересные в первую очередь профессионалам в области информационного поиска, так и те, которые важны для обычных пользователей.
Одним
из существенных преимуществ Апорта
является англо-русский и русско-
Система имеет развитый язык запросов и гибкую форму вывода результатов.
Основные свойства поисковой системы Апорт:
– перевод запроса и результатов поиска с русского на английский и наоборот;
– автоматическая проверка орфографических ошибок запроса;
–
более информативный вывод
– возможность поиска в любой грамматической форме;– мощный язык расширенных запросов для профессиональных пользователей;
– поддержка пяти основных кодовых страниц (различных операционных систем) для русского языка;
– технология поиска с использованием ограничений по URL (адресу) и дате документов;
– поиск ведется не только по тексту, но и по заголовкам, комментариям и подписям к картинкам и т.д.;
– сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
– объединение копий документа, находящихся на разных серверах.
Русскоязычные каталоги
Каталог List.Ru – совместный проект популярного бесплатного почтового сервера MAIL.RU.
Russia on the Net – http://www.ru. Один из самых старых каталогов Рунета (был открыт в сентябре 1995 года). Является службой известного московского провайдера – компании Demos. Регистрация ресурсов проводится на двух языках (русский и английский).
Up.ru – http://www.up.ru. Каталог студии Delux. Работает совместно с рейтингом one.ru, что, правда, не влияет на сортировку результатов поиска.
Улитка – http://www.ulitka.ru. Каталог российских интернет-ресурсов "Улитка". Проект продолжает работать и развиваться. Ссылки выстраиваются по рейтингу, который составляется на основе переходов из каталога на эти ресурсы. Проект принадлежит дизайн-студии "Арт-Конструктор".
The List of Russian Web Servers – http://weblist.ru. Cтарейший каталог, один из проектов компании MARK-ITT из Ижевска. Имеется русская и английская версия каталога.
Иван
Сусанин – http://www.susanin.net. Каталог создан
питерской дизайн-студией WebPlus в 1998 году.
Функциональный дизайн с интуитивно-понятной
навигацией и без излишеств. Одно из достоинств
– возможность поиска по словоформам.
Заключение
Появление всемирной паутины World Wide Web стало количественным и качественным скачком в области информационных технологий. Число новых ресурсов и объем информации, которую они содержат, растет лавинообразно, увеличивается количество иголочек в информационном "стоге сена" и, соответственно, размер его самого.
Русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка.
По мнению журнала ЧИП (№2/2002) в Рунете наилучшим является портал Яндекс. Наибольшая среди ИПС информационная база и широкие поисковые возможности позволяют рекомендовать его для поиска в русскоязычной части Internet. Кроме того, Яндекс отличается прекрасной информативной документацией и хорошим набором бесплатных сервисов, среди которых Web-хостинг и электронная почта с Web-доступом.
Но,
несмотря на известность бренда Яндекс
и его популярности, конкуренты не
собираются проигрывать борьбу за пользователя.
Эта конкуренция, без сомнения, приведет
к качественному изменению ИПС,
быть может приведет и к революции.
Но пока эволюционный путь развития ИПС
преобладает, пользователи могут надеяться
на улучшение качества поиска, увеличение
его скорости, повышения его характеристик
и появления большого количества специализированных
поисковых систем.
Список источников
- Кондратьев Г. «Работы в Интернете», СПб:Питер, 2005
- Робот FAQ:
http://info.webcrawler.com/
mak/projects/robots/faq.html - Семенов Ю. Сети Интернет. Архитектура и протоколы. – М.:Сирин, 1998
- Муртазин Э.В. «Интернет», М:ДМК, 2004
- Сайт техподдержки ИПС Яндекс http://yandex.ru.
- Википедия Свободная энциклопедия. http://ru.wikipedia.org/ http://en.wikipedia.org