Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Глобальные поисковые системы ( Search Engines)
Берещьян Виктория |
К общим средствам поиска относятся такие системы, как veronika ,jughead ,archie ,Web Crawler ,InfoSeek ,Deja News и ряд других . Все средства эти предоставляют доступ к определенным типам информационных ресурсов (gopherspace, WWW, Usenet, FTP ),и ни одно из них не является совершенным . Ктому же INTERNET непрерывно расширяется и развивается, и появление новых информационных технологий требует постоянно быть в курсе последней информации .Вышеуказанные системы могут дополнять и применяться в сочетании с другими методами поиска (коммерческие базы данных- Dialog, DataStar). Работа поисковых систем основана на использовании так называемых ключевых слов или слов-концепций. Поиск осуществляется в некоторой индексной базе данных (ИБД), содержащей ссылки на соответствующие источники первичной информации, которыми могут быть WWW-страницы, статьи в Usenet или WAIS-индексы. Для создания и поддержки таких баз данных применяются так называемые программы-роботы, задачей которых является регулярный <обход> всего информационного пространства и извлечение из встреченных документов заголовков, выделенных слов и ссылок,оглавлений, начальных абзацев и другой служебной информации. Для поиска в ИБД используются различные алгоритмы поиска и ранжирования документов по степени релевантности, т.е. по мере близости к теме запроса содержащейся в них информации. Одним из таких алгоритмов является TF*IDF- алгоритм, вычисляющий степень релевантности каждого документа по отношению к запросу, содержащему некоторый набор ключевых слов в зависимости от частоты появлений каждого ключевого слова в каждом документе, ее максимального значения, общего количества документов в собрании и количества документов, содержащих ключевое слово. После ввода запроса поисковая система определяет, какие документы, их индексы, хранящиеся в ИБД, обладают максимальной релевантностью, и возвращает пользователю список адресов, указывающих на места нахождения первоисточников, На самом деле неважно, насколько хорош тот или иной алгоритм поиска и ранжирования,т.к. документ,обладающий максимальной степенью релевантности, может и не содержать нужной пользователю информации.Это может быть вызвано чрезмерно большим(малым) количеством ключевых слов в запросе, повторами синонимов и т.п., а также неудачной формулировкой самого запроса вследствие недостаточного понимания предмета поиска. Поэтому применение какой-либо конкретной поисковой системы требует разработки предварительной методики поиска. На сегодняшний день существует ряд поисковых систем, наиболее известными являются Lycos, WebCrawler, InfoSeek для поиска документов, DejaNews. для поиска информации в группах новостей Usenet, Veronika для осуществления поиска в Gopher-пространстве, причем некоторые системы,такие как Yahoo.при необходимости могут <подгружать> другие системы, например Lycos. WebCrawler : Эта поисковая система разработана Брайаном Пинкертоном из Вашингтонского Университета. WebCrawlerсостоит из базы данных, созданной программой-роботом WebCrawler, который периодически <обходит> WWW, собирает и индексируе документы с использованием текстовых ссылок на них. К концу 1994 года база данных WebCrawler содержала около 350000 указателей на Web-страницы. Для определения степени релевантности найденного по ключевому слову документа используется система, аналогичная WAIS. All-in-One Search Page: Эта страница предназначена для осуществления поиска в более чемста базах данных Интернет, включая индексные базы данных WWW, хранилища бесплатных и условно-бесплатных программ, списки адресов электронной почты и словари. Следует отметить, что, несмотря на удобство использования, некоторая часть базы данных не доработана до конца. Автор страницы- Уильям Кросс. Yahoo : Yahoo представляет собой крупнейший предметный каталог ресурсов WWW. Авторы- David Filo и Jerry Jang, оба создали весьма внушительную и вместе с тем довольно забавную систему поиска нужной информации. Название системы было позаимствовано у Джонатана Свифта: йеху, весьма несимпатичные человекоподобные персонажи из страны Гуигнмов(Лошадей), в конце концов довели бедного Ламюэля Гулливера почти до сумасшествия. The WWW Virtual Library: Впечатляющий пример использования действительно всеобъемлющего характера Интернет: свыше 50 предметно-ориентированных каталогов, разработанных и поддерживаемых независимо друг от друга, объединены на сервере W3-консорциума. DejaNews: Великолепное средство для поиска информации в обширнейшем архиве Usenet - по ключевому слову, фамилии автора и дате публикации. Архив обновляется каждые 2 дня и охватывает сотни групп новостей с глубиной в один месяц. Примечательно, что такие слишком уж <неформальные> группы новостей, как alt.*, talk.*, *.binaries, исключены из архива. LYCOS: одна из наиболее мощных и исчерпывающих систем содержит индексы более чем 7 млн.страниц,где хранится свыше 90% содержательного материала Web.Lycos основана в Мальборо(Массачусетсе,США).Будучи абсолютно бесплатной службой для пользователей, она обслуживает более 30 млн. запросов в месяц, что делает ее одной из самых популярных служб на WWW.LYCOS поддерживается на средства Carnegie Mellon University. Point, дочерняя компания LYCOS, является издателем первого обзора on-line и руководства оценки для Internet (Point Survey).В настоящее время Point обрабатывает 6 млн. ответных справок (на запрос) в месяц. Кроме того, недавно образованная и бесплатная служба Point Now обеспечивает обновление новостей и статей со всего мира, представляющих собой интерес , наряду с объявлениями по множеству специализированных предметных областей. LYCOS и Point получают денежные средства от продажи объявлений,LYCOS дополнительно получает доход от лицензий на использование своей технологии и каталога Internet таким компаниям, как , .LYCOS заиндексировала свыше 11млн. страниц по всему миру.Никакой другой каталог или справочник даже не приближается к этому показателю.LYCOS обладает самой быстрой и наиболее мощной технологией поиска и индексирования. Используя технологию сделанных заявок на патент, <паук> LYCOS постоянно производит выборки на Web и объединяет результаты поиска в каталог LYCOS , который еженедельно увеличивается более чем на 300 тыс. страниц.В отличие от других ,LYCOS индексирует и нетекстовые ресурсы Internet , включая графику, звуки, фильм и исполняемые программы, не индексируя недолговечные или изменяющиеся данные. Кроме того, LYCOS игнорирует файлы, начинающиеся на и заканчивающиеся следующими расширениями: AU, AVI, BIN, DAT, DVI, EXE, FLI, GIF, GZ, HDF, HOX, JPEG, LHA,MAC, MPEG, PS, TAR, TGA, TIFF, UU, UUE, WAV, Z или ZIP. Используя свою технологию LYCOS автоматически создает аннотацию из наиболее популярных узлов, позволяя быстро и эффективно определить, какие узлы наиболее адекватны пользовательским запросам. Планируется модернизировать язык механизма поиска, включая больше стандартных операторов, кроме того, будут добавлены в систему коррекция орфографии и семантические средства. |