Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Тема: «Знакомство с поисковыми системами. Работа в них. Каталагизаторы».
Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в том числе оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Для автоматизации этой задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. Однако, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.
Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. Однако лучше непосредственно обращаться к поисковым системам, загружая соответствующую страницу.
По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:
Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на соответствующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику). Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.
Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Описание документа делается либо составителями каталога, либо автором. Благодаря этому, содержание страниц, включенных в каталог, наиболее адекватно соответствует рубрике, к которой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.
Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска этой группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос). После этого машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, которые, «по мнению» поискового сервера, соответствуют сформулированным пользователем требованиям (релевантны запросу). В поисковых узлах используются собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders). Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает своему владельцу сведения обо всех страницах для последующей индексации.
В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы). Для каждой ссылки обычно также указываются дата создания документа, его объем, степень соответствия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в соответствии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно это искать в найденном). В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание которой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.
Достоинство автоматизированного поиска состоит в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. Однако сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени соответствия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода», как правило, или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате которого постепенно уточняется форма запроса.
Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в соответствии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, которые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Каждая из метапоисковых систем имеет свой язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в соответствующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.
В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к которой он привык или которую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, которая приводится на одном из сайтов.
1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки). Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.
2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при этом по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылки, как правило, обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.
3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к которому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (это сужает круг поиска без ущерба для качества). Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.
4. Yahoo! (www.yahoo.com) Один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня). Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories). Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и соответствие хорошее.
5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. В то же время никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба этого крупного проекта.
6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля этого года редко выдавал приемлемые результаты. С февраля в этой системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем). На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.
7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и ! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некоторые сомнения вызывает дизайн главной страницы, которая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.
При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.
Под охватом имеется в виду объем базы поисковой машины, который измеряется тремя показателями общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.
Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.
Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.
Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.
Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).
Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.
Это - дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.
Что такое запросы к поисковым машинам? Упрощенно говоря это тот текст, который вы должны написать в поле ввода специальной формы на любой поисковой машине.
Предположим, что в поле ввода текста поисковой машины Yandex вы написали фразу [Любовь зла полюбишь и]. Это и есть запрос к поисковой машине. По этому запросу она будет искать документы, в которых встречаются слова, перечисленные в этом запросе. Если говорить о приведенном примере, то будут найдены документы, содержащие следующие слова: любовь, зла, полюбишь. Причем именно слова, а не точную фразу [Любовь зла полюбишь и] как можно было бы предположить. Конечно, среди всех найденных документов будут и те, которые содержат эту фразу, но будет много и других.
Но как быть, если нужны документы именно с такой фразой и больше никакие? Как добиться, чтобы поисковые машины находили документы в наибольшей степени, отвечающие вашим потребностям?
На эти вопросы отвечают правила составления запросов или, иначе говоря, синтаксис запросов. Синтаксис запросов это набор правил, по которым поисковая машин трактует все, что вы пишите в поле ввода текста. Безусловно, также как в каждом человеческом языке существуют свои правила так же и у каждой поисковой системы свой синтаксис запросов. Сначала рассмотрим некоторые общие правила на примере нескольких поисковых систем: Yandex, AltaVista, Google, Aport, затем более подробно одну из них Yandex.
Все эти пять машин ищут документы, содержащие все слова, которые вы определили в запросе. Но Yandex и AltaVista также находят документы, содержащие часть слов или даже одно слово из запроса. Правда документы, содержащие не все слова, размещаются в конце списка результатов, а в начале списка те, в которых есть все слова.
Yandex и Aport ищут документы, в которых слова запроса встречаются в любой словоформе. Например, по запросу [Любовь зла полюбишь и] будут найдены документы со словами: любви, любовью и т.п. Если нужно найти слово в определенной форме и только в этой, то перед словом (в запросе) нужно поставить знак ! Например: [!Любовь !зла полюбишь и].
Все описываемые машины игнорируют союзы, предлоги и т.п. слова. Например по запросу [Любовь и голуби] союз И будет проигнорирован.
Если группа слов ограничена кавычками ([«Любовь зла полюбишь и»]), то:
Yandex и AltaVista будут искать точно такую же фразу, в тех же словоформах;
Aport будет искать эту фразу, но также и близкую к ней (с другими союзами, с другими словоформами).
Yandex, AltaVista и Aport трактуют этот знак перед словом как указание на необходимость поиска этого слова. Google в принципе действует также, но по замыслу его разработчиков знак + должен использоваться для включения в запрос союзов предлогов и т.п. (которые по умолчанию игнорируются). Пример использования: [«+Любовь зла +полюбишь и»].
Имеет обратное действие (исключает слово из результатов поиска). Google не поддерживает этот знак. Пример использования: [«+Любовь -зла +полюбишь и»].
Указывает на необходимость выбора одного из двух вариантов. Запрос [любовь | ненависть] означает «или любовь или ненависть». Google не поддерживает этот знак.
Отделяют одну часть запроса от другой. Например, запрос [(любовь | ненависть) +чувство] в переводе на «русский» звучит как «найти документы со словами чувство и одно из двух: ненависть или любовь».
Теперь более подробно остановимся на поисковой машине Yandex.
Яндекс поисковая машина, способная по вашему запросу найти наиболее подходящие Web-страницы в русской части сети Интернет. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.
Яндекс не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны Москвы и московской области»), и вы получите результат список страниц, где встречаются эти слова.
Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос идти, то в результате поиска будут найдены ссылки на документы, содержащие слова идти, идет, шел, шла и т.д. На запрос окно будет выдана информация, содержащая и слово окон, а на запрос отзывали документы, содержащие слово отозвали.
При этом поиск не ограничен лишь словами или фразами. Яндекс отыщет всех, кто сослался на вашу страницу, файлы с нужной картинкой, последние новости или товары в электронных магазинах.
Как известно, в хорошем вопросе содержится половина ответа. Мы считаем, что искать и находить нужное в ворохе текстов в сети Интернет умение не только поисковой системы, но и пользователя, задающего запрос.
Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того чтобы воспользоваться широким спектром возможностей, используйте страницу «расширенный поиск», где большая часть настроек Яндекса задается простым образом. Обратите внимание, что, при заполнении нескольких полей, запрос будут составлен таким образом, чтобы все условия выполнялись одновременно (через документное «И» &&). Если вас интересуют операторы языка запросов, обратитесь к странице формального описания.
В этом виде поиска указываются дополнительные условия в специальных полях страницы «расширенный поиск» (подробнее см. в ссылке на первой странице поисковой машины Yandex.ru).
Здесь вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие желательны (то есть могут быть, а могут не быть). Поле «все формы» или «точная форма» указывает Яндексу, надо ли учитывать при запросе все словоформы. «Точная форма» обычно требуется только для поиска цитат.
Зоной поиска слова может быть как текст документа (слова находятся в одном предложении или всем документе), так и его заголовок, аннотация (тэг description), ссылка (подпись URL) или адрес (сам URL). Вариант «во фразе» означает необходимость искать слова в том порядке, в котором они введены. Вы можете задать несколько слов через запятую.
Ограничение выдачи документов по дате. Документы с неизвестной датой в этот список не включаются.
Запрос идет только по страницам указанного сайта или поддиректории (вершины) сайта. Поиск будет проведен среди всех поддиректорий. Здесь же (в соседнем поле) вы можете исключить из поиска страницы определенного сайта. Вы можете внести несколько адресов, перечислив их через пробел.
Таким образом, вы можете сделать поиск по своему личному сайту через Яндекс то есть ограничить поиск только вашим сайтом.
Как узнать, кто ссылается на ваш ресурс? Введите в этом поле адрес вашей страницы, и вы это узнаете. Если адрес вашего сайта начинается с www, то впишите его целиком, включая www. Здесь же вы можете исключить из поиска страницы, где стоит ссылка на определенный адрес.
На основе этой возможности рассчитывается индекс цитируемости. Чтобы исключить все внутренние ссылки (то есть с одних страниц вашего ресурса на другие его страницы), используйте поле сайт/вершина и исключите ресурс из поиска ссылок.
Поиск документов, содержащих картинку с определенным названием или подписью. Файл картинки может называться, например, applegreen.jpg. Тогда найти такие файлы можно запросом: apple. Запрос аналогичен apple*.*. Для поиска в подписи к изображению (тэг alt) впишите запрос в соседнее поле.
Поиск страницы, содержащих файлы объектов: скрипт, объект, апплет, java. В поле указывается имя объекта.
Яндекс умеет определять язык документа. Вы можете задать язык документа, где надо провести поиск: русский (кириллица) или не русский. В базе Яндекса находятся только документы русскоязычного Интернета (по умолчанию в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для русскоязычного поиска.
«Краткая выдача» показывает только список заголовков документов. «Только URL» только адреса найденных страниц.
Вы не хотите углубляться в детали техники поиска? Просто задайте Яндексу вопрос так же, как бы вы его задали библиотекарю или всезнайке-эрудиту. Например, «где раки зимуют», «ярчайшая звезда северного полушария» или «как выбрать компьютер».
Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы «Результат поиска»). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.
Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо «рефераты» возможно больше подойдет «курсовые работы» или «сочинения». Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо «фотографии» попробуйте «фотографии | фото | фотоснимки».
Слово «психология» или «продукты» дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, «психология Юнга» или «продажа и покупка продовольствия». Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы «автомобиль Волга» или «автомобиль ГАЗ» выдадут более подходящие документы, чем «легковые автомобили».
Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, «группа Черный кофе», «телепередача Здоровье».
Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «найти похожие документы». Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение «Запрошенный документ не найден».
Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос «путеводитель по парижу -агентство тур». Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос «+быть или +не быть».
С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.
Вы можете указать Яндексу не перебирать все словоформы слов из запроса при поиске. Например, !лукоморья найдет только страницы, цитирующие строчку из стихотворения Пушкина («У лукоморья дуб зеленый»).
Яндекс умеет искать не только в тексте документа, но и отыскивать картинки по названию файла или подписи. Для этого на первой странице yandex.ru нажмите ссылку «расширенный поиск». Для поиска картинки предусмотрены два поля. В поле «Название картинки» вписываются слова для поиска по названиям картинок, обычно появляющихся, когда к картинке подводится курсор. Например, название картинки «Венера» выдаст все страницы с картинками Венеры (всего, что можно понимать под этим словом). В поле «Подпись к картинке» вписывается название файла, содержащего картинку. Например, запрос dog найдет в сети Интернет все картинки, в имени файла которых встречается слово «dog». С большой вероятностью эти картинки связаны с собаками.
Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка.
Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'.
Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы.
Например, запрос 'орел' найдет и птицу, и город. Запрос 'Орел' - город и те случаи упоминания птицы, когда она написана с большой буквы.
По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак '!'.
Так по запросу '!Лужкову' будут найдены все документы, содержащие словоформу 'Лужкову', а по запросу 'Лужков ~~ !Лужкову' - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу.
Знаки «+» и «-». Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них «+». Если вы хотите исключить какие-либо слова из результата поиска, поставьте перед каждым из них «-».
Например, запрос «частные объявления продажа велосипедов», выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с «+» «частные объявления продажа +велосипедов» покажет объявления о продаже именно велосипедов.
Если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос «путеводитель по парижу -агентство тур».'
Обратите внимание на знак «-». Это именно минус, а не тире и не дефис. Знак «-» надо писать через пробел от предыдущего и слитно с последующим словом, вот так: «рак гороскоп». Если написать «рак-гороскоп» или «рак гороскоп», то знак «-» будет проигнорирован.
Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа '&'.
Например, при запросе 'лечебная физкультура' или 'лечебная & физкультура'), результатом поиска будет список документов, в которых в одном предложении содержатся и слово 'лечебная', и слово 'физкультура'. (Эквивалентно запросу '+лечебная +физкультура')
Между словами можно поставить знак '|', чтобы найти документы, содержащие любое из этих слов. (Удобно при поиске синонимов).
Запрос вида 'фото | фотография | фотоснимок | снимок | фотоизображение' задает поиск документов, содержащих хотя бы одно из перечисленных слов.
Еще один знак, тильда '~', позволит найти документы с предложением, содержащим первое слово, но не содержащим второе.
По запросу 'банки ~ закон' будут найдены все документы, содержащие слово 'банки', рядом с которым (в пределах предложения) нет слова 'закон'.
Чтобы подняться на ступеньку выше, от уровня предложения до уровня документа, просто удвойте соответствующий знак. Одинарный оператор (&, ~) ищет в пределах предложения, двойной (&&, ~~) - в пределах документа.
Например, по запросу 'рецепты && (плавленый сыр)' будут найдены документы, в которых есть и слово 'рецепты' и словосочетание '(плавленый сыр)' (причем '(плавленый сыр)' должен быть в одном предложении. А запрос 'руководство Visual C ~~ цена' выдаст все документы со словами 'руководство Visual C', но без слова 'цена'
Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд.
Например, по запросу «красная шапочка» будут найдены документы с это фразой. (При этом контекст «а шапочка у нее была красная» найден не будет.)
Как Яndex адресует слова? Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими «не в том порядке», равно -1. То же самое относится и к предложениям.
Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.
Например, задав запрос 'поставщики /2 кофе', вы требуете найти документы, в которых содержатся и слово 'поставщики' и слово 'кофе', причем расстояние между ними должно быть не более двух слов и они должны находиться в одном предложении. (Найдутся "поставщики колумбийского кофе", "поставщики кофе из Колумбии" и т.д.)
Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд.
Запрос 'синяя /+1 борода' означает, что слово 'борода' должно следовать непосредственно за словом 'синяя'. (К тому же результату приведет запрос "синяя борода")
В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'.
Запрос 'музыкальное /(-2 4) образование' означает, что 'музыкальное' должна находиться от 'образование' в интервале расстояний от 2 слов слева до 4 слов справа
Практически все знаки можно комбинировать с ограничением расстояния.
Например, результатом поиска по запросу 'вакансии ~ /+1 студентов' будут документы, содержащие слово 'вакансии', причем в этих документах слово 'студентов' не следует непосредственно за словом 'вакансии'.
Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах.
Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно находиться в том же самом, либо в соседнем со словом 'банк' предложении.
Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки.
Например, запрос '(история, технология, изготовление) /+1 (сыра, творога)' задает поиск документов, которые содержат любую из фраз 'история сыра', 'технология творога', 'изготовление сыра', 'история творога'.
ЗАДАНИЕ 28. Проверьте справедливость указанных выше правил по использованию в запросе скобок в поисковых системах Yandex, Rambler, Google, Aport
Можно искать информацию в «зонах» - заголовках (имя «зоны»: Title), ссылках (имя «зоны»: Anchor) и адресе (имя «зоны»: Address).
Синтаксис: $имя_зоны (поисковое выражение).
Запрос '$title CompTek' ищет в заголовках документов слово 'CompTek'.
Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри которых есть одно из слов 'CompTek' или 'Dialogic'.
Можно ограничить поиск информации списком серверов или наоборот исключить сервера из поиска (url). Можно также искать документы, содержащие ссылки на определенные URL (link), и файлы картинок (image). Если вы хотите работать не с конкретным URL (image), а со всеми, начинающимися с данной последовательности символов, используйте "*".
Синтаксис: #имя_элемента=«имя_файла (URL)».
По запросу 'CompTek ~~ #url=«www.comptek.ru*»' будут искаться упоминания компании 'CompTek' везде, кроме ее собственного сервера (www.comptek.ru). А запрос '#link=«www.comptek.ru*»' покажет все документы, которые сослались на сервер компании.
Запрос ' #image=«tort*»' даст ссылки на документы с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы).
Можно также искать по ключевым словам (keywords), аннотациям (abstract) и подписям под изображениями (hint).
Синтаксис: #имя_элемента=(поисковое выражение).
Запросу '#keywords=(поисковая система) | #abstract=(поисковая система)' будут искаться все страницы, в meta тегах которых есть эти слова.
По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с такой подписью.
При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса.
Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих «взвешенное» выражение.
Синтаксис: слово:число или (поисковое_выражение):число
По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'.
Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу 'поисковые (механизмы:5 | машины:5 | аппараты:5)'.
Задание уточняющего слова или выражения применяется для того, чтобы увеличить релевантность документов, содержащих уточняющее выражение.
Синтаксис: <- слово или <- (уточняющее_выражение)
По запросу 'компьютер <- телефон' будут найдены все документы, содержащие слово 'компьютер', при этом первыми будут выданы документы, содержащие слово 'телефон'.
Если ни в одном документе со словом 'компьютер' нет слова 'телефон', результат запроса будет эквивалентен запросу 'компьютер'.
Синтаксис |
Что означает оператор |
Пример запроса |
пробел или & |
логическое И |
лечебная физкультура |
&& |
логическое И (в пределах документа) |
рецепты && (плавленый сыр) |
| |
логическое ИЛИ |
фото | фотография | снимок | фотоизображение |
+ |
обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) |
+быть или +не быть |
( ) |
группирование слов |
(технология | изготовление) (сыра | творога) |
~ |
бинарный оператор И НЕ |
банки ~ закон |
~~ или - |
бинарный оператор И НЕ (в пределах документа) |
путеводитель по парижу ~~ (агентство | тур) |
/(n m) |
расстояние в словах (-назад +вперед) |
поставщики /2 кофе; музыкальное /(-2 4) образование; вакансии ~ /+1 студентов |
«а» |
поиск фразы |
"красная шапочка" (эквивалентно красная /+1 шапочка) |
&&/(n m) |
расстояние в предложениях (-назад +вперед) |
банк && /1 налоги |
Синтаксис |
Что означает оператор |
Пример запроса |
$title (выражение) |
поиск в заголовке |
$title (CompTek) |
$anchor (выражение) |
поиск в тексте ссылок |
$anchor (CompTek | Dialogic) |
#keywords=(выражение) |
поиск в ключевых словах |
#keywords=(поисковая система) |
#abstract=(выражение) |
поиск в описании |
#abstract=(искалка | поиск) |
#image="значение" |
поиск файла изображения |
#image="tort*" |
#hint=(выражение) |
поиск в подписях к изображениям |
#hint=(lenin | ленин) |
#url="значение" |
поиск на заданном сайте (странице) |
#url="www.comptek.ru*" |
#link="значение" |
поиск ссылок на заданный URL |
#link="www.yandex.ru*" |
Контрольные вопросы
Литература