Поисковые системы Internet. Структура и принципы работы

Автор работы: Пользователь скрыл имя, 19 Октября 2015 в 20:12, курсовая работа

Описание работы

В архивах свободного доступа сети Internet можно найти информацию практически по всем сферам человеческой деятельности, начиная с новых открытий в различных областях науки до прогноза погоды на завтра или курса иностранной валюты на сегодня.
Объектом и предметом исследования являются компьютерная сеть Интернет.
Цель работы: сформировать информационно-наглядное представление о поисковых системах. Дать характеристику поисковых систем и их видов, показать их важность.

Содержание работы

Введение………………………………………………………………………..….4
Глава I. Характеристика компьютерной сети Интернет………………………..5
1.1.История создания Интернета………………………… ……………...5
1.2. Понятие Интернета…………………………………………….….….6
1.3. Структура Интернета…………………………………………………8
1.4. Протоколы сети Интернет……………………………….....………...9 Глава II. Понятие поисковых систем………………..............................…….....13
2.1. Определение поисковых систем……………………………..….....13
2.2. Классификация поисковых систем…………………………….…...16
2.3. Структура поисковых систем ………………………………..……..23
2.4. Принципы работы поисковых систем ………………………….….24
2.5. Перспективы развития поисковых систем …………...……………26
Заключение……………………………………………………………………….30
Список использованных информационных источников………

Файлы: 1 файл

Семестровая Тараненко.docx

— 71.80 Кб (Скачать файл)

Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. «Яndex» означает «Языковой index»,или, если по-английски, «Yandex» — «Yet Another indexer».

В начале 1996года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю — если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

Rambler — старейшая поисковая система российского Интернет, запущена в 1996 году, на сегодня — вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы ,сегодня Рамблер — один из крупнейших порталов русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. По сути сегодня Рамблер — больше, чем просто поисковая система и набор сервисов, это крупная медиа группа. Поисковая машина «Рамблер» начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. «Рамблер» не был первой отечественной поисковой системой, однако в первый год своего существования вынес основной груз поисковых запросов. Вторая версия «Рамблера» начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100(http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет «Рамблер» иметь для поисковика количество серверов в 2 раза меньшее, чем у«Яндекса», и в 3 раза меньшее, чем у «Апорта».

Апорт – третья популярности на сегодня поисковая система с обращением более 16 миллионов посетителей в месяц. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов «Апорт-каталог».

Важнейшими свойствами первой версии «Апорта» являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

Апорт2000" стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая — учет «ранга страницы» (Page Rank), который характеризует ее популярность. Вторая — обработка запроса, ориентируясь на HTML-код страницы. В «Апорт 2000»учитывается также вхождение слов запроса в URL. Среди недокументированных особенностей — больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

Можно отметить и то, что «Апорт» первым устроил поиск по новостным лентам. И, наконец, еще одно первенство «Апорта» — использование платной нулевой строки в выдаче. Однако в «Апорте» нельзя купить ненулевое, а просто более высокое место для своего сайта в результатах поиска. Пользователи «Апорта» мало пользуются расширенным поиском.

Национальная почтовая служба Mail.ru – это не только поисковая система но и один из крупнейших порталов российского Интернета. Ежедневная аудитория Mail.ru — более5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов. Mail.ru — самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящики Mail.ru ежедневно проходит более 25 миллионов писем. Mail.ru занимает лидирующую позицию среди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящик неограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.

В 1998-мгоду программисты, работающие в питерском офисе американской софтверной компании DataArt, создали новое ПО для почтового веб-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Чтобы протестировать сервис, его временно выложили в открытый доступ для российских пользователей, а сервис вдруг стал стремительно набирать популярность.

2.3 Структура поисковых систем

Основой любой поисковой системы является комплекс программ, называемый поисковой машиной (движком). Базу данных для движка собирает программа, именуемая поисковым роботом, краулером или "пауком". Он работает совершенно самостоятельно и, действительно, последовательно обходит весь Интернет по ссылкам в поисках новой информации. Найденные страницы файлов или документы (их текстовую составляющую) робот заносит в специальный index-файл, называемый индексом поисковой системы.

Вторая важная часть поисковой машины – модуль обработки запросов пользователя. Эта программа ведет поиск слов запроса в индексе. Таким образом, на самом деле поисковый запрос обрабатывается в существующей у поисковой системы базе данных. Поскольку индекс никогда не может полностью соответствовать реальному объему информации всего Интернета, поисковая система ведет поиск с лучшим или худшим качеством.

Основными критериями качества поисковой системы являются релевантность результата поиска, полнота индекса, учет морфологии и других особенностей языка запроса. Релевантность означает, насколько уместным выглядит результат поиска относительно запроса, насколько он соответствует запросу. Полнота индекса может быть ограничена алгоритмом работы паука – например, индексироваться при поиске могут не все страницы больших сайтов, частичный объем текстов и т. п. Кроме того, в индекс не попадают данные большинства закрытых для общего пользования сайтов и баз данных, запрос к которым формируется не путем гиперссылок.

Для успешной работы в области поискового продвижения необходимо хотя бы в общих чертах представлять, как устроены поисковые системы.

У нас есть пользователь с определённой проблемой/потребностью. Он становится «клиентом» поисковой системы, как только сформулирует то, что ему надо на естественном для него языке. Поломав голову, что бы попросить у поисковика, человек забивает запрос. На этом этапе могут возникнуть дополнительные задачи для поисковой системы.

Помимо поиска нужного документа, надо разобраться с возможными ошибками, опечатками, омонимами и прочими тонкостями. Но это уже не проблема пользователя: он сделал своё дело и ждёт результата. А тем временем, его запрос попадает в модуль обработки запросов (составляющая поисковой системы). Модуль ищет слова запроса в индексе ПС.

Качество поиска любой системы определяется полнотой индекса. Чем больше в нём информации, тем лучше он сможет подобрать подходящие запросу документы. Сведущие люди называют это релевантностью поиска. От релевантности поиска зависит «счастье» пользователя общая миссия всех поисковых систем. Вернёмся к пользователю.

 

2.4 Принцип работы поисковых систем

Если рассматривать процесс поиска информации в сети, его можно разбить на следующие этапы: сбор информации со страниц сайтов в сети Интернет, индексация сайтов, поиск по запросу и ранжирование результатов. Рассмотрим каждый из этапов отдельно.

Сбор данных. Как только вы запустили свой сайт и дали роботу какой-нибудь поисковой системы понять, что появился новый ресурс, система начинает ходить по страницам и собирать с них данные. Этот процесс называется сбором данных  и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую информацию и добавить новые страницы, если таковые имеются.

Индексация. Робот может ходить по вашему сайту долгое время, однако это не значит, что он сразу появится в поисковой выдаче. Страницам сайта необходимо пройти такой этап, как индексация – составление для каждой страницы обратного (инвертированного) файла индекса. Индекс служит для того, чтобы быстро по нему производить поиск и состоит обычно из списка слов из текста и информации о них.

После того, как прошла индексация сайта или отдельных страниц, они появляются в основной выдаче поисковика и их можно найти по ключевым словам, присутствующим в тексте. Процесс индексации обычно происходит довольно быстро после того, как робот стянет информацию с вашего сайта.

Поиск информации. При поиске, первым делом, анализируется запрос, введенный пользователем, в результате которого вычисляются веса для каждого из слов. Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос. Документы, наиболее схожие с запросом, попадают в результаты поиска.

Ранжирование. После того, как наиболее схожие документы были отобраны из основной коллекции, они должны ранжироваться, чтобы в верхних результатах отражались наиболее полезные для пользователя ресурсы. Для этого используется специальная формула ранжирования, которая для разных поисковиков имеет разный вид, однако для всех из них основными факторами ранжирования являются:

  1. вес страницы;

  1. авторитетность домена;

  1. релевантность текста запросу;

  1. релевантность текстов внешних ссылок запросу;

  1. а также множество других факторов ранжирования.

То есть, при ранжировании документов используются, как внутренние факторы, так и внешние. А также можно их разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от запроса.

 

2.5 Перспективы развития поисковых систем

 

Исследования показывают, что поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции постепенно выводятся из активного использования [14].

Ведущая тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP серверов. Современные системы в среднем индексируют порядка 50 миллионов документов. При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения.

Однако даже более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась как правило названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.

Следующая важнейшая черта - совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Общепринятой становится возможность искать данные на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что, конечно же, повышает релевантность получаемых результатов.

Немаловажное значение имеет также ясно проявляющаяся тенденция совершенствования интерфейса. Графические браузеры типа Netscape Navigator, Internet Explorer и им подобные практически полностью вытеснили текстовой Lynx, что само по себе позволило в значительной степени повысить дружественность интерфейса [14]. Разработчики первых поисковых систем не слишком заботились о комфорте пользователей. В тот период гораздо важнее было просто заставить систему работать. Поэтому желающих воспользоваться услугами поисковых серверов встречали зачастую лишь строки для ввода запроса, без каких-либо экранов помощи или примеров употребления булевых операторов. По этой причине пользователи часто испытывали затруднения, пытаясь точно выразить свой запрос. Системы последнего поколения во многих случаях имеют детализированное многоуровневое меню, которое делает составление запроса максимально простым. За счет его применения пользователи освобождается от необходимости знать принципы работы булевой логики - они просто комбинируют искомые термины с имеющимися условиями поиска. Нынешние поисковые средства предоставляют также детализированную "помощь", примеры составления запросов, файлы "часто задаваемых вопросов". В зависимости от полученных результатов генерируются подсказки и рекомендации, направленные на устранение типичных ошибок, допускаемых при составлении запроса. Таким образом, сегодняшний пользователь уже не должен обладать какими-либо специальными знаниями и опытом для обращения к поисковым средствам.

Еще одной немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка.

Информация о работе Поисковые системы Internet. Структура и принципы работы