Поисковые системы. Составление запросов

Автор работы: Пользователь скрыл имя, 17 Декабря 2011 в 20:06, реферат

Описание работы

Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

Файлы: 1 файл

Реферат.doc

— 155.00 Кб (Скачать файл)

Московский  технический колледж 
 
 
 
 
 
 
 
 
 
 
 

Реферат

«Поисковые  системы.

Составление запросов» 

Студента  группы П-729

Вахтанга  Баргузяна 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Москва 2005 

Поиск информации

   Пополнение  информационных ресурсов Интернета  происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

   За  время существования Интернета  предпринимались различные попытки  организации поисковых средств. Многие из этих попыток оказались  неудачными, другие же привели к  созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Отметим, что поисковые системы часто называют поисковыми машинами или машинами поиска.

   Многие  поисковые системы позволяют  искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска вы можете найти сообщение в группе новостей или какой-то файл. Поэтому чаще применяют вместо термина страница более общий термин – документ. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию.

   Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой  информации, мы найдём нужный нам документ. Вне зависимости от того, какой  поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий.

  1. Вы переходите на начальную страницу поисковой системы или на любую страницу, на которой находятся поля для ввода запроса и кнопка для начала поиска. В последнем случае после нажатия кнопки вы автоматически перейдёте на страницу поисковой системы. Принципиальных отличий между собственно поисковой системой и страницей с полями для ввода запроса, который передаётся поисковой системе, нет. Главное – перейти на страницу, на которой вы можете ввести ваш запрос.
  2. Если система позволяет последовательные уточнения области поиска, то вы переходите в разделы, которые определяют границы поиска информации (например, поиск только в области науки или поиск среди европейских узлов Интернета). В таких системах запрос в главном разделе осуществляет поиск среди всех узлов Интернета. Если же вы, например, перейдёте в раздел «Новости», то поиск по запросу будет выполняться только среди узлов, посвящённых новостям. В том случае, если вы перейдёте в раздел погода, то вы будете искать только среди новостей о погоде. Таким образом, вы сначала определяете границы, в которых следует вести поиск, и только после этого отправляется запрос на поиск информации. Если выбранная вами система поиска не позволяет уточнить запрос, то это действие пропускается.
  3. Вводится запрос на поиск в соответствии с правилами, принятыми в выбранной системе поиска. В простейшем случае это одно или несколько слов, например «Анекдоты», но возможны и сложные запросы с логическими операциями «И», «ИЛИ», «НЕТ».
  4. Если система поиска позволяет, то уточняются некоторые параметры запроса с помощью дополнительных полей, списков, флажков и переключателей, которые могут находиться на странице рядом с полем запроса. В большинстве случаев уточнение параметров не требуется. Уточнение параметров и составление сложных запросов чем-то похоже на программирование и пользуется большей популярностью у программистов, чем у широкого круга людей, не знакомых с программированием.
  5. Нажимается кнопка для начала поиска, и после некоторой паузы вы автоматически попадаете на страницу со списком документов, удовлетворяющих вашему запросу. Длительность паузы зависит от сложности запроса, скорости работы поисковой системы и качества вашей связи с данной системой.
  6. Если ссылок много и они не помещаются на одной странице, то после прочтения первой страницы с результатами поиска вы можете перейти к следующей, и так далее. Таким образом вы просматриваете все найденные ссылки на документы.
  7. После нахождения нужной ссылки вы щёлкаете на ней мышью и переходите на страницу, которую вы разыскивали. Если вы захотите посмотреть другие найденные страницы, то можно вернуться назад, к странице со ссылками на найденные документы, и перейти по другой ссылке.

   Во  многих поисковых системах поле запроса  остаётся на странице во время просмотра  результатов, и вы можете быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный.

   В некоторых  системах списки ссылок отсортированы  таким образом, что в начале списка вы получите ссылки на документы, наиболее удовлетворяющие вашему запросу. Например, если в документе много раз встречаются слова запроса и несколько слов, включённых в запрос, расположены в документе рядом, то такой документ более полно удовлетворяет запросу. Так как большинство систем осуществляет интеллектуальный поиск в Интернете, то степень соответствия запросу, определённая поисковой системой, не всегда будет совпадать с вашими представлениями.

   Следует отметить, что при выполнении запроса  поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует два способа пополнения информации в базы данных поисковых машин:

    1. Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему. Большинство систем позволяют это сделать совершенно бесплатно.
    2. Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине. Роботы запускаются поисковой системой, что бы проверить, существуют ли ранее найденные документы и не появились ли новые.
 

Запросы к поисковым системам

     Если  верить некоторым недавним исследованиям, подавляющее большинство посетителей  поисковиков вообще не применяет  никаких дополнительных инструментов поиска, кроме самых простых запросов. По данным «Артон Консалтинг», полученным в результате анализа деятельности порядка 100 тысяч пользователей «рунетовских» поисковиков, до «расширенного» поиска, не говоря уже о языке запросов, добирается менее двух процентов посетителей. Данные свежие, датированы августом текущего года. Что тут сказать? С одной стороны, 98% людей, похоже, вполне удовлетворены результатами такого поиска, или, по крайней мере, привыкли к нему. Честь и хвала разработчикам поисковиков за такой результат. С другой — возможно, эти пользователи просто не знакомы с продвинутыми инструментами и не подозревают, что теряют хороший кусок полезной информации. 
 

Запросы в Google

(“google.com” “google.ru”) 
 

Языковые  инструменты 

     По  умолчанию Google ищет документы на всех поддерживаемых языках, которых на данный момент уже добрых три десятка. Кроме этого, Google умеет разделять сайты по географическому признаку. Увидеть действие этого инструмента можно уже при знакомстве со стартовой страницей поисковика: Google располагает хорошим выбором «национальных» версий своего интерфейса, на которых предусмотрен переключатель поиска во всех документах или же в определенном подмножестве, выделенном как раз по национальному признаку. При желании проверить работу этой функции можно с помощью whois. При необходимости можно ограничить поиск документами на определенном языке. Самый простой способ — открыть страницу «Языковые настройки» и выставить их по собственному вкусу. Там нет ничего сложного, поэтому останавливаться подробно мы здесь не будем. 

Операторы 

     Язык  запросов — предмет заслуженной гордости создателей Google. Для составления запросов применяются специальные командные слова — операторы. Запросы с использованием операторов можно составлять в строке поиска Google на стартовой странице поисковика. Кроме операторов, в запросе, само собой разумеется, должны присутствовать и те слова или фразы, которые вы, собственно, рассчитываете отыскать. Знакомство с доступными операторами стоит потраченного времени, тем более, что похожие возможности присутствуют и во многих других поисковиках, поэтому впредь нам уже не придется повторяться. Перейдем к делу. Общее правило использования операторов таково: вы указываете оператор, ставите двоеточие, а затем без пробела набираете нужное значение, то есть искомое слово или фразу. Поисковые операторы Google можно разделить на несколько групп. Давайте кратко по ним пройдемся. Первая группа операторов связана с поиском по определенным ресурсам или в заданных частях документа. Ограничить поиск каким-либо конкретным сайтом можно с помощью оператора site. Так, например, запрос google site:nestor.minsk.by/kg/ вернет ссылки на страницы сайта «Компьютерной Газеты», на которых упоминается Google. Именно с помощью данного оператора можно разобраться в данных сайта, собственная поисковая система которого может быть не самой лучшей. Есть здесь и обратная сторона медали: Google мог проиндексировать не все документы ресурса, поэтому, применяя данный способ, стоит помнить про это ограничение. Еще один способ использования оператора site — ограничение результатов поиска определенным доменом. Примеры — site:by, site:ru. 

     Перейдем  от уровня сайта к уровню отдельных  элементов страницы. Google позволяет  искать практически по всем значимым тегам разметки, что представляет особый интерес. Оператор intitle ищет в заголовках страниц, то есть в содержимом тега <title>. Результат, аналогичный применению оператора intitle, можно получить с помощью страницы расширенного поиска Google, если внести в поля поиска свои ключевые слова, после чего выбрать в меню «Показывать результаты, содержащие эти слова» пункт «В заголовке страницы». Особенно хорош данный оператор в сочетании с другими поисковыми признаками. Существует два варианта этого оператора: intitle и allintitle. Разница между ними заключается в том, что первый оператор ищет в заголовках только одно заданное вами слово или же конкретную фразу (в этом случае ее надо будет заключить в кавычки). Если же вы примените allintitle, то также сможете искать сразу несколько слов, однако, в отличие от поиска по фразе, порядок их расположения учитываться не будет. Кавычки в данном случае не понадобятся. Данные операторы можно комбинировать с простым поиском, причем получить такую комбинацию с использованием инструментов расширенного поиска не так-то просто, поскольку, выбрав нужный пункт в меню, вы примените его ко всем словам запроса. Составляя запрос самостоятельно, вы сможете действовать куда более гибко. Вот пример подобного запроса: 

саммит intitle:оон 

     Оператор intext в свою очередь ищет в самом  тексте документа, и только в нем. Это может принести определенную пользу в случае, например, неинформативных или чересчур широких заголовков, зачастую не релевантных основному содержимому страницы.

Еще одна группа операторов так или иначе связана  с обработкой ссылок на страницах. Как и в случае с заголовками, здесь тоже можно составлять прямые запросы или же воспользоваться средствами страницы расширенного поиска. Оператор inanchor обеспечивает поиск в тексте ссылок, расположенных на странице. Оператор inurl ищет заданное слово в самой строке адреса, на который ведет ссылка. Оператор link позволяет отловить документы, в которых содержится ссылка на конкретную страницу, найдя тем самым ресурсы, процитировавшие сведения, взятые с конкретной страницы.  

Марс inanchor:lenta.ru 

Оператор filetype отвечает за поиск по определенным типам файлов (pdf, ps, rtf, doc, xls, ppt и др.) благо Google здесь действительно есть чем похвастаться — набор типов файлов действительно хорош. Наконец, есть группа операторов, предоставляющих ряд дополнительных возможностей Google. Оператор related дает возможность искать страницы, содержание которых подобно контенту уже известной вам страницы (“similar pages”). Пользуясь данным оператором, будьте готовы к тому, что результаты такого поиска не всегда бывают точными. Как известно, Google сохраняет копии индексируемых документов. Получить такую версию можно с помощью оператора cache, после которого указывается URL требуемой страницы. Полезная вещь при работе с часто изменяющимися ресурсами. Еще один служебный оператор — info — выдает сведения о странице, адрес которой вы укажете.  

info:rumodelism.com 

Работа с URL 

Любой запрос к Google можно представить в виде ссылки, ведущей на страницу результатов  поиска. Эти страницы динамические и генерируются при поступлении вашего запроса. Благодаря этому вы можете получить свой список результатов как воспользовавшись веб-интерфейсом Google, так и перейдя по соответствующим образом сконструированной ссылке, причем результат будет совершенно одинаковый. Такую ссылку можно сохранить в закладках браузера или другом нужном месте. Обращаясь к ней время от времени, вы будете получать свежие результаты поиска по данному запросу, что может быть весьма удобно. Давайте вкратце рассмотрим синтаксис такого прямого URL-запроса. Простейшая ссылка-запрос к Google, которая будет искать страницы о самом Google выглядит так: 

www.google.com/search?q=google 

Главный параметр здесь — search?q=, после которого идет сам запрос. В более сложных  вариантах добавляются новые  параметры, указывающие различные поисковые признаки и условия, включенные в запрос. Именно они и выступают в роли своеобразных «кирпичиков», из которых составляется URL запроса. Взаимное расположение дополнительных параметров может быть любым. Это значит, что вы можете ставить их в том порядке, в котором вам удобно — для Google нет никакой разницы, и это стоит учесть. Прямая работа с URL полезна, когда вам периодически приходится делать повторяющиеся сложные запросы. Затраты времени на однократное составление такого запроса и последующую подстановку нужных ключевых слов намного меньше затрат на постоянную работу с расширенным поиском. Меняя переменные части запроса, вы сможете использовать однажды сконструированную сложную ссылку для поиска по разным ключевым словам или другим поисковым признакам. Такой подход используется в некоторых программах, предназначенных для работы с интернет-поисковиками. Некоторые наиболее востребованные параметры, используемые в URL запросов к Google, приведены в таблице. Всего их несколько десятков. Самостоятельно выявить недостающие параметры можно составляя запросы с помощью веб-интерфейса и отслеживая изменения, происходящие в адресе страницы результатов. Поэкспериментируйте, и все быстро станет на свои места. 

Переменная  Значение 

Оператор Описание
Num maxResults Количество  результатов на странице
Filter Фильтр потенциально дублирующихся результатов. Имеет  два значения: 0 (не показывать дубликаты) и 1 (показывать дубликаты)
hl Код языка, используемого Google при показе результатов (не имеет  отношения к переводу страниц или их языку)
restrict Отбор результатов  по географическому признаку. Необходимо указать код страны
lr Отбор результатов  по языковому признаку. Необходимо указать код языка (например, ru)
as_oq Команда найти  хотя бы одно из нескольких заданных слов (аналог оператора ИЛИ)
as_epq Поиск фразы
title Поиск в заголовках
body Поиск в тексте документа
url Поиск в URL на странице
links Поиск в ссылках
as_rq Страницы, подобные указанной
as_lq Страницы, ссылающиеся  на указанный документ
as_ft i Поиск документов указанных форматов. Если ставится ‘i’, то указанные типы документов включаются в запрос, если ‘e’ —  исключаются из запроса. Пример: as_ft i =pdf
as_dt i Поиск только по конкретному домену или сайту. Если указывается ‘i’, указанный адрес включается в запрос, если ‘e’ — исключается из запроса.
as_sitesearch Включить домен  или сайт в поиск

Информация о работе Поисковые системы. Составление запросов