Телевизоры. Приставки. Проекторы и аксессуары. Технологии. Цифровое ТВ

Организация поиска информации. Данные, хранимые на магнитных дисках. Вид информации и примеры ее использования

Кочеганова Полина

Методы поиска учебной информации в интернет

Важнейшим условием и ведущим фактором, определяющим успешность учебной деятельности с использованием компьютерных технологий, является готовность учащихся к продуктивной деятельности в дидактической компьютерной среде.

Овладение эффективными методами и средствами поиска, обработки и использования учебной информации дает возможность не только интенсифицировать образовательные процессы, но и развивать познавательные интересы учащихся, стремление к продуктивной, творческой деятельности.

Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации.

Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

    Каталоги

Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.

Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.

    Поисковые машины

Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

    Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

    Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

    Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Спайдер - это ключевой инструмент для поиска в Web. Как уиомипалось ранее, спайдер представляет собой программу, которая получает некоторые или все ресурсы с большого числа сайтов, главным образом с целью создания инвертированных индексов, которые позднее будут использоваться поисковыми приложениями. Подобно другим Web-клиенгам, спайдер формирует HTTP-запросы для доступа к ресурсам Web-сайта и осуществляет синтаксический анализ ответов. Главными различиями между спайдером и браузером являются гораздо большее число сайтов, к которым осуществляется обращение и посылаются запросы, отсутствие какого-либо отображения ответов и достаточно необычное использование ответов.

На практике, однако, с сайтов может запрашиваться только часть ресурсов. Многие спайдеры, например, не запрашивают изображения или мультимедийные ресурсы. Это делается, если спайдер используется для построения индекса только текстовых ресурсов.

    Анализ новых ресурсов

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области. Сюда можно отнести, например, работу с социальными сетями, видео-контентом.

Действительно полезные методы поиска учебной информации в Интернет:

    Составление тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов. Не стоит вводить название самой темы.

    Смотрите 2-3-4 страницы поиска

    Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

    Используйте англоязычные ресурсы, даже если не владеете языком. Сегодня технический машинный перевод – это уже не просто набор слов, как было раньше. Хорошие, полезные иностранные сайты переводятся более чем адекватно.

    Используйте специализированные источники поиска учебной информации: e - library , банк диссертаций, киберленинка, сайты архивов и т.д.

Завершая работу, можно прийти к выводу, что в сети Интернет хранится очень большой объем учебной информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет.

Нет такой информации, которую нельзя было бы найти в Интернете, надо просто знать, где и как именно искать.

Список литературы

    Гармашов М. Ю., Коротков А. М. Подготовка учащихся к продуктивной деятельности в дидактической компьютерной среде. - Волгоград, 2001.

    Норенков И.П. Управление знаниями в информационно-образовательной среде. - М.: МЭСИ, 2000.

    Путилов Г.П. Концепция построения информационно-образовательной среды технического вуза. - М.: МГИЭМ, 1999.

    Средства поиска информации в INTERNET // Афанасий-биржа (Тверь). - 28 марта 1997.

    Усков В.Л. Дистанционное инженерное образование на базе Internet / Библиотечка журнала "Информационные технологии", 2000, № 3.

    Демин Игорь Святославович Поиск научной и учебной информации в сети Интернет // Вестник ТГУ. 2008. №9.

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопро-са:

1. что искать – какие источники информации;

2. где искать – места размещение этих источников;

3. как искать – какие инструменты для этого использовать.

Выделим основные источники информации, представленные в Интернете. Это документы WWW, ста-тьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной ин-формации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах дан-ных, энциклопедиях. Заметим, перечисленный список не претендует на полноту.

Теперь отвечаем на вопрос, где эти источники информации размещаются. Это такие популярные ресур-сы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализиро-ванных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Ин-тернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска. Таким образом, мы подходим к понятию автономного инструмента поиска – информационно-поисковой сис-темы.

Информационно-поисковая система (ИПС) –это система,обеспечивающая поиск и отбор необходи-мых данных в специальной базе с описаниями источников информации (индексе) на основе информа-ционно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребно-стям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная ха-рактеристика процедуры поиска – релевантность.

Релевантность –это соответствие результатов поиска сформулированному запросу.

Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на:

‒ локальные;

‒ глобальные;

‒ региональные;

‒ специализированные.

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе от-дельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы , по возможности наиболее полно, описывают ресурсы всего информационного пространства сети Интернет. Специали-зированные ИПС сосредоточены на поиске определенных источников информации:документовWWW,файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределен-ных источников информации. Следовательно, сначала нужно описать информационные ресурсы и соз-дать индекс. Построение индекса начинается с определения начального набора URL источников ин-формации. Затем проводится процедура индексирования.

Индексирование –описание источников информации и построение специальной базы данных(индекса)для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится пер-соналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае про-цедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как

в тематических каталогах библиотек.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого раз-рабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимо-сти от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может ока-заться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии. Для поиска в системах данного типа пользо-вателю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запро-са. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого язы-ка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты. Не последнее значение имеет внешний вид поисковой системы, предстающий перед поль-зователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, ис-ключительно важна форма представления результатов поиска, поскольку пользователю необходимо уз-нать как можно больше о найденном источнике информации, чтобы принять правильное решение о не-обходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с ин-терфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом сис-темы (системой формирования запросов и просмотра результатов поиска).

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса поль-зователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи резуль-татов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитекту-ра индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно бы-ло отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользо-вателя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрез-вычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Web-сайты –те информационные ресурсы,доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описа-нии подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

‒ Заголовки (Title).

‒ Заглавия (H1-H6).

‒ Аннотация (Description).

‒ Списки ключевых слов (KeyWords).

‒ Полные тексты документов.

Поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полно-текстовыми.

Для того, чтобы описать файл в ресурсе FTP используется его URL. Для описания статьи в группе ново-стей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе ин-

дексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфо-логии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Следует отметить достаточную сложность русского языка, слова которого изменяются по числам, па-дежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут

и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический сло-варь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно скло-няется или спрягается.

Итак, обобщенная технология поиска состоит из следующих этапов:

1. Пользователь формулирует запрос.

2. Система проводит поиск документов (или их поисковых образов).

3. Пользователь получает результат (сведения о документах).

4. Пользователь совершенствует или реформирует запрос.

5. Организация нового поиска.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмот-ренных. В общем случае, можно выделить следующие поисковые инструменты для WWW:

‒ поисковые системы;

‒ метапоисковые системы;

‒ программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяют-ся на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог –поисковая система с классифицированным по темам списком аннотаций со ссылками наweb-ресурсы. Классификация, как правило, проводится людьми.

Поисковая машина –поисковая система с формируемой роботом базой данных,содержащей информа-цию об информационных ресурсах.

Метапоисковая система –система,не имеющая своего индекса,способная послать запросы пользова-теля одновременно нескольким поисковым серверам, затем объединить полученные результаты и пред-ставить их пользователю в виде документа со ссылками.

Программа ускоренного поиска –это программа с возможностями метапоисковой системы,устанавли-ваемая на локальном компьютере.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на перво-источник. Среди самых популярных зарубежных каталогов можно упомянуть:

‒ Yahoo (www.yahoo.com),

‒ Magellan (www.mckinley.com),

‒ Российские каталоги:

‒ @Rus (www.atrus.ru)

‒ Weblist (www.weblist.ru)

‒ Созвездие интернет (www.stars.ru).

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Для сужения области поиска возможна сортировка содержимого индекса по кате-гориям. Как правило, поисковые машины поддерживают два режима: режим простого поиска и ре-жим расширенного поиска .

Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно про-сто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моде-лируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение опреде-ленных слов. Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слиш-ком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логи-ческих операторов и операторов, позволяющих ограничить область поиска, а также выбор определен-ной категории документов из представленного списка.

В качестве операторов, устанавливающих отношения между ключевыми словами, большинство поис-ковых систем используют следующие:

AND (И) & –обязательное присутствие всех ключевых слов;

OR (ИЛИ) | –присутствие хотя бы одного из ключевых слов;

NOT (НЕ) ! –отсутствие ключевого слова;

NEAR (ОКОЛО) ~ –определенный интервал между ключевыми словами.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, по-зволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса. Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети стра-ницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область по-иска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

‒ Операторы поиска документов с определенным графическим файлом;

‒ Операторы ограничения по дате искомых страниц;

‒ Операторы близости между словами;

‒ Операторы учета словоформы;

‒ Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что на сегодняшний день не существует стандарта на количество и синтаксис под-держиваемых операторов для различных поисковых систем. Поэтому пользователь, обращаясь к опре-деленной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами со-ставления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка По-мощь (Help), по которой можно перейдете к справочной информации.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установ-кой соответствующих флажков или выбором параметров из списка.

Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на стра-нице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголо-вок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоя-зычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые сис-темы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предло-жить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похо-жести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего време-ни можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Наиболее популярные поисковые машины за рубежом и в России.

Зарубежные поисковые машины:

Google www.google.com

Altavista www.altavista.com

Excite www.excite.com

HotBot www.hotbot.com

Nothern Light www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex www.yandex.ru (или www.ya.ru)

Рэмблер www.rambler.ru

Апорт www.aport.ru

Белорусские поисковые системы:

Система 09 www.09.open.by

Поисковая система Unibel http://search.unibel.by

Система *.BY http://search.promedia.minsk.by/

Белорусский интенет-каталог Акавiта http://akavita.kryvia.net/

Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поиско-вых системах.

Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы)

– системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылка-ми.

Здесь приведены адреса известных метапоисковых систем.

MetaCrawlerwww.metacrawler.com

SavvySearchwww.savvysearch.com

Наконец, рассмотрим последний в списке инструмент поиска – программы ускоренного поиска.

Программа ускоренного поиска –это программа,устанавливаемая на компьютере пользователя и спо-собная:

‒ посылать запросы к нескольким поисковым серверам;

‒ сортировать результаты поиска по релевантности;

‒ удалять дубликаты;

‒ проверять наличие документов в сети.

WebFerret, NewsFerret www.ferretsoft.com

Inforia Quest 99 http://www.inforia.com/quest

Subject Search Spider (SSSpider) www.kryltech.com.

После подробного изучения основных возможностей инструментов обратимся к проблеме эффектив-ности поиска .Основными параметрами эффективности поиска является полнота как отношение числанайденных документов к общему числу релевантных документов (то есть, найдены все документы, со-ответствующие запросу), и точность поиска – отношение числа релевантных документов к общему чис-лу полученных документов (то есть не найдено ничего лишнего, не относящегося к делу). Это и означа-ет понятие релевантности. Немаловажное значение имеет актуальность ссылок на документы, то есть существование в настоящий момент найденных документов в сети, и скорость поиска.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

‒ Свойства и возможности поисковой системы.

‒ Качество формулировки запроса пользователем.

‒ Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:

‒ Количество проиндексированных страниц (объем индекса).

‒ Количество поддерживаемых операторов.

‒ Стандартный оператор, объединяющий несколько ключевых слов. Если стандартным операто-ром является оператор И, поисковая машина автоматически будет искать документы, на которых

обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности

‒ Поиск точной фразы.

‒ Поиск слов с различными окончаниями.

‒ Учет словоформ. В случае автоматического режима учета словоформ система будет искать в до-кументах слово со всеми его изменениями.

‒ Чувствительность к заглавной букве. Если система не различает заглавные и строчные буквы, ре-зультаты поиска будут менее качественными.

‒ Поиск мультимедийных файлов.

‒ Форма представления результатов.

‒ Период обновления индекса. Этот показатель влияет на такой параметр как актуальность най-денных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.

‒ Задержка перед пропиской. Данный параметр указывает на временной интервал перед занесени-ем описания Web-страницы в индекс после просьбы ее автора.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, не-обходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. За-тем необходимо составить набор ключевых слов (при необходимости, на нескольких языках) в виде от-дельных терминов, словосочетаний, профессиональной лексики и клише.

‒ Тестовые запросы из 1-2 ключевых слов или фразы.

‒ Анализ количественного отклика.

‒ Корректировка запроса по релевантности отклика.

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

‒ Поиск общей информации в каталогах. В каталогах вы, как правило, обязательно выйдете на специализированные сервера в искомой области.

‒ Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска ограниченного числа ссылок в каталогах явно недостаточно. Кроме того, узкоспециаль-ная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск в поисковых машинах, обладающих индексами большого объема.

‒ Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной по-исковой машины. Эффективным и простым способом решения проблемы составления качест-венного запроса является использование режима расширенного запроса.

‒ Использование функции поиска в найденном. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поис-ка среди найденных по запросу страниц.

‒ Использование поиска похожих документов.

‒ Использование метапоисковых систем и программ ускоренного поиска информации. Для полу-чения общего обзора документов целесообразно использовать возможности метапоисковых сис-тем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько са-мых релевантных ссылок.

‒ Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web-узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.

‒ Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, ис-пользуя специальные инструменты поиска, которые мы рассмотрим далее.

‒ Подписка на специализированные списки рассылки. Подписавшись на специализированный спи-сок рассылки, вы сможете получать по электронной почте свежую информацию по вашей тема-тике, а также задавать вопросы вашим коллегам-подписчикам.

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструмен-тами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые ин-дексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный ре-жим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сер-вер Altavist а. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах ново-стей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы

WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport,…). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссыл-кам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя файла, например, файл с изображением орла может называться eagle.gif. Или до-гадаться, что фото Билла Гейтса будет иметь соответствующую подпись.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск про-граммного обеспечения для Интернета или для конкретной операционной системы. Эти системы в ко-нечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

White-поиск –поиск адресной информации по заранее известному собственному имени адресата(имячеловека или организации)

Yellow-поиск –поиск собственного имени по дополнительным признакам(по роду деятельности,погеографическому признаку), а затем поиск его адресной информации.

Обычно Yellow Pages системы фактически сразу включают в себя и White Pages – у найденного адреса-та сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также со-держат элементы yellow-поиска – кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофа-мильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, факти-чески white-поиск, называют себя Yellow pages.

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

Поиск людей:

‒ Поиск людей на Yahoo (http://people.yahoo.com).

‒ Система WhoWhere (www.whowhere.com).

‒ Система Bigfoot (www.bigfoot.com).

Поиск организаций:

‒ раздел Желтые страницы (Yellow pages) на поисковых системах

‒ специализированные сервера

‒ www.yellowpages.com – для поиска в США и других странах

РАБОТА С ПОЧТОВЫМ КЛИЕНТОМ

Как упоминалось выше, одним из направлений использования Интернета является обмен информацией.

Рассмотрим основные средства обмена информацией, доступные через глобальную сеть:

Электронная почта ,позволяющая очень быстро отправлять электронные письма на электронные ад-реса пользователей Интернета.

Списки рассылки ,на которые можно подписаться,как на журнал,и затем периодически получать насвой электронный адрес подборку статей на заданную тему. Впоследствии можно отправлять свои со-общения всем подписчикам.

Группы новостей ,которые позволяют публиковать сообщения по интересам на специальных серверахв сети. Сообщения можно читать, подключившись к серверу и выбрав тему для себя. Далее, по жела-

Чрезвычайно популярным ресурсом является IRC , который служит для прямого общения группы лю-дей в режиме реального времени с помощью ввода текста с клавиатуры и немедленного появления его на общей доске.

Разработаны специальные программы для общения в реальном режиме времени, позволяющие после установления связи передавать текст, вводимый с клавиатуры, а также звук, свое изображение и любые файлы. С помощью этих программ можно организовать совместную работу удаленных пользователей с программой, запущенной на локальном компьютере.

‒ С помощью специального оборудования и программного обеспечения через Интернет можно проводить аудио- и видеоконференции, то есть передавать звук и изображение от одного ко мно-гим.

‒ В Интернете есть свои пейджинговые системы, в которых можно зарегистрироваться и получить свой персональный номер. Зная персональный номер другого человека, можно через централь-ный сервер пейджинговой службы отправить ему сообщение с предложением установить соеди-нение и пообщаться. Самой популярной пейджинговой системой в Интернете является система

‒ Интернет-телефонией называется система, позволяющая вести разговор в реальном времени че-рез сеть Интернет.

Приступим к более подробному описанию средств обмена информацией в Интернете. Начнем с самого древнего для сетевого общения средства под названием электронная почта. Введем определение:

Электронная почта –средство обмена информацией,подготовленной в электронном виде,междулюдьми, имеющими доступ к компьютерной сети.

Основными областями применения электронной почты являются ведение личной переписки и работа с некоторыми информационными ресурсами Интернета, такими как списки рассылки, off-line группы но-востей и системы пересылки файлов по электронной почте. Конечно, имея вариант подключения к Ин-тернету в режиме on-line, удобнее для копирования файлов использовать любой FTP-клиент или про-грамму загрузки файлов. Однако иногда для пользователей, имеющих способ подключения по протоко-лу UUCP, единственным способом получить файл с FTP-сервера является заказ его по почте с исполь-зованием специальной службы файлы-почтой. Кроме того, почтовая система не требует вашего непре-менного присутствия в Интернете, поэтому возможность получить архив с программой приличного размера по электронной почте иногда удобнее даже для пользователей, имеющий полноценный доступ ко всем ресурсам Интернета.

Как реализована технология клиент/сервер в случае электронной почты. Серверную часть представля-ет почтовый сервер.

Почтовый сервер –программа,пересылающая сообщения из почтовых ящиков на другие серверы илина компьютер пользователя по запросу его почтового клиента. На почтовом сервере создают почтовые ящики для пользователей с определенным именем и паролем для доступа.

Клиентскую часть сервиса представляет почтовый клиент. Почтовый клиент (мейлер) – программа, помогающая составлять и посылать электронные сообщения, получать и отображать письма на компью-тере пользователя.

Работа с почтой может проводиться в режиме off-line. Это означает, что для получения и отправки поч-ты в назначенный час вы устанавливаете соединение с провайдером. Затем вы даете команду вашему почтовому клиенту, по которой он подключается к вашему почтовому серверу, отсылает подготовлен-ные письма и забирает на локальный компьютер сообщения, пришедшие за истекший период на ваш почтовый ящик. Писать письма и читать полученные с сервера сообщения вы можете в автономном ре-жиме, то есть, без подключения к Интернету.

Теперь рассмотрим почтовые протоколы.

Одним из вариантов подключения к Интернету является подключение по протоколу UUCP. UUCP (протокол копирования с Unix на Unix) использовался для передачи информации по компьютерным се-тям очень давно, до изобретения протокола TCP/IP. UUCP (протокол копирования сUnixнаUnix) – устаревающий протокол для передачи информации по компьютерным сетям. В то время единственным средством общения была электронная почта, которая и передавалась по упомянутому протоколу, досто-инством которого является неприхотливость к ресурсам компьютера, параметрам модема и качеству телефонной линии связи. На сегодняшний день протокол UUCP безнадежно устарел, он не относится к Интернет-протоколам, то есть, не базируется на TCP/IP. Тем не менее, следует упомянуть о программе-

клиенте, разработанной российскими программистами специально для работы с почтой по этому прото-колу – программе, работающей под упра

1 ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

1.1 Поиск информации в Интернет: стратегия и методика

Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы - навсегда прекратят свое существование.

Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).

Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина - собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - каталоги или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.

2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.

При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.

1.2 Поиск с помощью каталогов

1.2.1 Принцип работы, преимущества и недостатки каталогов

Каталоги – это пионеры навигации в Сети. Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Пpи зaгpузкe кaтaлoгa нa экpaн вывoдитcя caмый oбщий пepечeнь oблacтeй чeлoвeчecкoй дeятeльнocти: ИCКУCCTВO, OБPAЗOВAHИE, БИЗHEC, HAУKA, ИГPЫ, CПOPT и т.д. Каталоги имеют иерархическую структуру, то есть пользователь, входя в любой раздел каталога, последовательно видит все более и более дробную его детализацию. Бoльшинcтвo кaтaлoгoв сoздaются путeм дoбaвлeния aвтopaми wеb-cтpaниц cвoeгo сaйтa к сущecтвующeму cпиcку ccылoк.

Поисковые кaтaлoги coздaются вpучную, т.e. инфopмaция в них зaнoсится людьми. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог. Благодаря "человеческому" фактору, информация в каталогах организована достаточно четко, что позволяет в определенных случаях достичь требуемого результата быстрее, чем при помощи поисковых машин. Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. В каталоги попадают лишь лучшие страницы. Поэтому найти достаточно специфическую информацию в каталоге зачастую очень сложно.

Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: региону, стране; алфавиту; популярности.

Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную общую тему, например, «профсоюзное движение», «редакции газет Урала», а не при поиске ответа на конкретный вопрос!

Каталоги могут быть:

· универсальными, которые позволяют производить поиск по различным темам. Информация сгруппирована по разделам. Каждый раздел имеет несколько подразделов. Например, www.ru, referal.ru, www.freeedom.ru.


Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение. 2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ 2.1 Основные требования к поиску К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска. ...

Информацию, используя выделенные тематические разделы (предметные каталоги) в поисковых машинах. Такой способ поиска информации в Интернете осуществляется по виду библиотечного каталога. Например, если необходимо найти информацию о начислении амортизации основных средств, следует обратиться к разделу "Бухгалтерский учет". В нем выбрать раздел "Основные средства". А в разделе "Основные средства" - ...

С использованием флажков, которые расположены на данной странице. Система так же имеет возможность перехода по ссылкам. ГЛАВА 2. УЧЕТ РАСЧЕТОВ И ТЕКУЩИХ ОБЯЗАТЕЛЬСТВ С ПОКУПАТЕЛЯМИ И ЗАКАЗЧИКАМИ При поиске информации по теме «Учет текущих обязательств и расчетов с покупателями и заказчиками» были использованы такие поисковые системы как http://www.altavista.com, http://www.aport.ru, http:// ...

Образовательные ресурсы www.spb. osi.ru/ic/distant Дистанционное обучение в Интернет www.examen.ru Экзамены и тесты www.kbsu.ru/~book/ Учебник информатики Mega. km.ru Энциклопедии и словари Поиск информации в Интернете: подводные камни Проблемы, не лежащие на поверхности, нередко дают о себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен и, ...

Память компьютера содержит информацию, хранимую в виде потока данных. Информация может быть логически организована в файлы, с записями внутри файлов и индивидуальными элементами внутри записей. Когда файлы организованы таким образом в базе данных, каждая запись содержит идентификационный ярлык, или ключ. Это может быть кодовый номер, имя или дата.

В поисках записи компьютер прямо или последовательно, в зависимости от способа хранения данных, вызывает элементы данных и проверяет, содержат ли они нужный ключ. Если данные хранятся на ленте, то файлы организованы последовательно; если данные хранятся на диске или на жестком диске, данные могут быть доступны и прямо и последовательно.

Программа поиска базовой информации. Когда ключ открывает запись, компьютер сканирует память и показывает запись.

Данные, хранимые на магнитных дисках

Дорожки магнитного диска хранят не только данные, но и адреса данных, что открывает компьютеру прямой доступ к информации. В вызове на изображении внизу адреса данных записаны в области счета, а содержание ключевых элементов в ключевой области.

Программа поиска включается, когда введен ключ. В файлах с прямой организацией программа поиска узнает адрес данных из ключа, получает информацию и приказывает оперативной системе считать данные.

Экран поиска информации позволяет оператору получить информацию, просто выбрав элемент из меню, без использования ключа.

Жесткий диск состоит из нескольких круглых пластин, собранных на одной оси. Цилиндр составлен из дорожек, каждая из которых занимает одно и то же место на каждой пластине. Цилиндры нумеруются от внешней стороны к внутренней, а дорожки цилиндров - сверху вниз. Таким образом, адрес одного элемента данных будет цилиндр хх, дорожка уу.

Как осуществляется поиск

1. Последовательный поиск.

Компьютер сканирует данные в строгом порядке. Чем больше количество данных, тем ниже эффективность этого метода.

2. Прямой поиск.

Местонахождение желаемых данных находится при помощи ключа. Поэтому данные должны храниться в области ключа.

3. Двойной поиск.

Данные должны быть организованы в том же порядке, что и ключи. Поиск начинается с проверки срединных данных, что позволяет определить, находятся ли желаемые данные под верхним или под нижним ключом. Это наполовину сужает круг поиска.

Введение. - 4

1. Информационно-поисковая система. - 5

1.1. Документографическая ИПС. - 6

1.2. Фактографическая ИПС. - 8

2. Поисковая система глобальной сети "Интернет". - 9

2.1. Как работают механизмы поиска. - 9

2.2. Технология поиска. - 14

3. Поисковые машины глобальной сети "Интернет". - 18

3.1. Как искать в Интернете - 18

3.2. Поисковые каталоги. - 21

3.3. Поисковые указатели. - 23

4. Сравнительная характеристика двух поисковых

систем на базе Rаmbler.ru и Yandex.ru. - 29

4.1. Rаmbler.ru - 29

4.2. Yandex.ru. - 35

Заключение. - 40

Литература. - 42

Приложение. - 43

Введение


Интернет во многом упростил жизнь современного общества, глобализовал его, увеличил возможности одних людей и уменьшил возможности других. Сегодня гораздо удобнее и выгоднее пользоваться почтовыми услугами через Интернет (к примеру, письмо из Тобольска в Лондон дойдет за 5 секунд).

По моим наблюдениям Интернет стал источником бизнеса, источником мировой культуры, источником обучения, средством массовой информации.

Сегодня любой пользователь в Интернете может за пару секунд получить доступ ко всем мировым биржам, музеям. Любой пользователь может получить образование через Интернет, ознакомится с ведущими мировыми электронными газетами.

Информация стала виртуальным золотом наших дней, и тот добьется быстрого и большего успеха, кто сможет быстрее ее раздобыть. И не важно кто вы, бизнесмен, ищущий новый рынок сбыта или студент, ищущий материал к курсовой работе, обоим нужна информация и Интернет может дать ее им если они будут обладать достаточными знаниями чтобы взять ее.

Мне долго бы пришлось перечислять выгоды Интернета для граждан Земли, но боюсь что нескоро бы закончил.

Я хочу отметить главное в Интернете, некий его “краеугольный камень”, это - информация и главные ее свойства:

1) Широкая доступность

2) Быстрота

У неопытных пользователей есть миф о том, что в Интернете есть все. На самом деле, мой опыт работы в Интернете доказал, что это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным (в смысле полезным или выгодным для себя) опубликовать. Впрочем, река питается ручьями, и благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею занимаются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизированных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим. Так, если в 2000 г. процент индексированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25% . Вывод простой: пространство Web быстрее наполняется, чем систематизируется. К сожалению, у Internet-специалистов нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете.

В связи с вышесказанным, качественный поиск информации в Интернете одна из самых актуальнейших тем в наше время, эта проблема не раз затрагивала и меня.

Тема моей курсовой заинтересовала меня своей нестандартностью и новизной и я хочу постараться раскрыть ее. Моей задачей будет качественная организация поиска информации в сети Интернет.

1. Информационно-поисковая система


Прежде чем дойти до конкретных механизмов поиска в глобальной сети "Интернет" необходимо разобрать теоретическую основу таких вопросы, как "что такое информация?", "Информационные процессы?", "Информационно-поисковая система и ее типы?".

Однозначного ответа что такое информация нет, можно лишь привести часть свойств характеризующий данный термин:

" Информация - это сведения, являющиеся объектом хранения; это содержание сообщения, сигнала, памяти, а также сведения, содержащиеся в сообщении, сигнале, памяти."

Процессы передачи, хранения и переработки информации, всегда играли важную роль в жизни общества. Люди обмениваются устными сообщениями, записками, посланиями. Они передают друг другу просьбы, приказы, отчеты о проделанной работе, описи имущества; публикуют рекламные объявления и научные статьи; хранят старые письма и документы; долго размышляют над полученными известиями или немедленно кидаются выполнять указания начальства. Все это - информационные процессы. Информация всегда связана с материальным носителем, а ее передача - с затратами энергии. Однако одну и ту же информацию можно хранить в различном материальном виде (на бумаге, в виде фотонегатива, на магнитной ленте, ...) и передавать с различными энергетическими затратами (по почте, по телефону, с курьером и т.д.), причем последствия - в том числе и материальные - переданной информации совершенно не зависят от физических затрат на ее передачу. Например, легкое нажатие кнопки опускает тяжелый театральный занавес или взрывает большое здание, красный свет светофора останавливает поезд, а неожиданное неприятное известие может вызвать инфаркт. Поэтому информационные процессы не сводимы к физическим, и информация, наряду с материей и энергией, является одной из фундаментальных сущностей окружающего нас мира. В 20 в. с развитием техники появились новые устройства: средства связи, устройства автоматики, а с 40-х гг. - вычислительной техники. Выяснилось, что эффективность их работы с помощью физических понятий описать невозможно и что существенные характеристики таких устройств нужно описывать совсем другими способами. В результате впервые возникли точное понятие информации и математическая теория информации. Стало ясно, что средства связи, какие бы физические процессы они ни использовали, - это средства передачи информации. Объединение понятий "информация" и "управление" привело Н.Винера в 40-х гг. к созданию кибернетики, которая, в частности, впервые указала на общность информационных процессов в технике, обществе и живых организмах.

Использование понятия информации оказало существенное влияние на развитие современной биологии, особенно таких ее разделов, как нейрофизиология и генетика. И наконец, в связи с развитием вычислительной техники, стимулировавшей информатизацию всего общества, возник комплекс наук о различных аспектах работы с информацией - информатика.

" Информационно-поисковая система - это система, где хранится информационный массив, из которого по требованиям пользователей выдается нужная информация."

Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную (как в библиотеках, когда с запросом к работнику справочного фонда обращается читатель, а работник пользуется системой каталогов). Во втором случае используются ЭВМ, снабженные специальными программными средствами, анализирующими процессы запросов, поиска и выдачи нужных документов. Таким образом, информационно-поисковые системы (ИПС) реализуют вопросно-ответное отношение, что сближает задачи, стоящие перед создателями таких систем, с теми задачами, которые решают создатели человеко-машинных систем.

Информационно-поисковые системы делятся на два типа:

1. Документографическая ИПС.

2. Фактографическая ИПС.

1.1 Документографическая ИПС


В такой ИПС все хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа. Именно так ищут книги по заказам читателя в больших библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По требованию читателя сначала находят карточку в каталоге, а потом по шифру, указанному на ней, отыскивается и сама книга.

Различия документографических ИПС определяются тем, как устроен поисковый образ документа. В простейшем случае это просто его индивидуальное название (например, название, автор, год издания книги). В более сложных случаях нет однозначного соответствия между поисковым образом документа и самим документом. Вполне возможен случай, когда поисковый образ документа соответствует нескольким различным документам и, наоборот, один и тот же документ соответствует не одному, а нескольким поисковым образам.


Такой неоднозначностью обладают, например, поисковые образы документов в дескрипторных системах. "Дескриптор - слово или словосочетание, которое тесно связано с содержанием документа. Совокупность дескрипторов определяет группу документов со сходным содержанием." В последнее время журналы, публикующие научные статьи, требуют от своих авторов, чтобы для каждой статьи они указывали список ключевых слов, которые и играют роль дескрипторов. Если, например, описать статью, которую вы читаете с помощью ключевых слов, то один из возможных списков будет следующим: информационный поиск, информационно-поисковая система, дескриптор, тезаурус, поисковый образ документа.

По набору этих ключевых слов (набору дескрипторов) можно найти данную статью среди всех статей книги, если ввести ее постатейное содержание в какую-либо ИПС дескрипторного типа.

Общая блок-схема ИПС дескрипторного типа показана на рис-1. Эта схема имеет два входа. По одному происходит пополнение хранящегося в системе информационного массива документов, а по второму поступают запросы пользователей.

1.2 Фактографическая ИПС

В отличие от документо-графических ИПС в ИПС такого типа хранятся не документы, а факты, относящиеся к какой-либо предметной области. Хранимые факты могут быть извлечены из различных документов. К примеру необходимо переработав историю восемнадцатого века в базе фактов они связываются между собой системой разнообразных отношений. Такая сеть в ИПС носит название тезауруса предметной области. Запросы поступающие в фактографические ИПС, используют тезаурус для поиска ответов на запросы. Поиск осуществляется методом поиска, по образцу широко применяющемуся в базах знаний систем искусственного интеллекта.

К примеру необходимо переработав историю восемнадцатого века, собрать все сведения о Екатерине-II.

ИПС фактографического типа постепенно приближаются по своей организации и функционированию к развитым базам данных и знаний.

2. Поисковая система глобальной сети "Интернет".


Я не хочу влезать в дебри внутренней работы поисковой системы (на электронном уровне), т.к. это не отвечает целям моей работы, и на мой взгляд эта работа программистов высшего уровня к которому я сейчас стремлюсь.

Я хочу разобрать и разложить по "полочкам", то как мне стала понята технология поиска информации, и сам механизм поиска информации.

2.1 Технология поиска информации в Интернете


Сама технология поиска становится более понятной на рис-2.

1) Для начала пользователь решает такую задачу, что он хочет найти, и где это может находится.

2) Затем заходит в Интернет, в обыкновенное Internet Exploer окно(Браузер).(Рис-3). Если пользователь знает имя сайта на котором находится интересующая его информация, то он просто сообщает его имя и заходит в его.

Пример. Пользователь желает узнать кинопрокат на сегодняшний день и заходит на сайт film.ru.(рис-3).

Это самый примитивный способ поиска информации в Интернете, на этом поиск может и закончится.

информацию о фильме давно вышедшем из проката, к примеру найти фильм "Брат-2" , достаточно в окне



Поиск производится автоматически на базе учета количества найденных слов на сервере. На его компьютер будет передана первая группа найденных ссылок с лучшими показателями по числу найденных вхождений искомых слов.

Часто вместе с ссылкой может быть выведена краткая информация по документу. Если среди найденных документов нет нужных, то можно вывести следующую группу - общее число документов обычно исчисляется тысячами. Для того, чтобы перейти на сервер, на котором находится найденная информация, достаточно просто щелкнуть по ссылке в результате поиска.

Это самый примитивный способ поиска информации в интернете, на этом поиск может и закончится.

Существуют и внутри сайтовые(локальные) системы поиска.

Пример. В том же film.ru есть возможность просмотреть

информацию о фильме давно вышедшем из проката, к

примеру найти фильм "Брат-2" , достаточно в окне

поиска набрать слово Брат-2 .(рис-3)

3) Если пользователь не знает имя сайта где он может найти интересующую его информацию, то он прибегает к помощи какой-нибудь поисковой системы. В сети работает значительное число справочных систем. Зайдя на указанный сервер, он получит на экране форму запроса, в которую надо ввести информацию для поиска. Обычно в форме существует возможность ограничения зоны поиска (например, по тематике). Он можете ввести нужный термин, определить область поиска и попытаться получить ответ.

Поиск производится автоматически на базе учета количества найденных слов на сервере. На его компьютер будет передана первая группа найденных ссылок с лучшими показателями по числу найденных вхождений искомых слов. Часто вместе с ссылкой может быть выведена краткая информация по документу. Если среди найденных документов нет нужных, то можно вывести следующую группу - общее число документов обычно исчисляется тысячами. Для того, чтобы перейти на сервер, на котором находится найденная информация, достаточно просто щелкнуть по ссылке в результате поиска.

Обычно поиск по паре ключевых слов приводит к получению десятков тысяч ссылок на документы, содержащие эти термины. Такой объем результатов редко позволяет эффективно отыскать "жемчужину" среди не имеющих отношения к теме поиска материалов. Что можно посоветовать?

Во-первых, пользователю необходимо сузить зону поиска. Попытаться определить на серверах какого профиля, в какой стране и т.п. наиболее вероятно можно встретить интересуемые материалы. Подумать, какие другие ключевые слова могут характеризовать объекты поиска, использовать несколько ключевых слов.

Если объектом поиска указаны несколько терминов, то поисковая система ищет вхождение каждого слова в документ независимо. То есть, можно результатом поиска получить документ, который содержит только одно слово, но несколько раз. Поэтому при определении терминов, по которым производится поиск, можно и нужно использовать логические операции.

Например, ввод слово_1&слово_2 заставит искать те страницы, где употреблен как первый, так и второй термин.

Во-вторых, необходимо провести поиск по всем известным поисковым системам. В каждой из них используется своя, несколько отличающаяся от других технология поиска. Поэтому абсолютно аналогичные поиски могут привести к различающимся результатам. Большинство поисковых систем бесплатны, поэтому ничто не мешает проводить столько операций поиска, сколько нужно.

В-третьих, очень часто результат может принести поиск документов на основе возможных ссылок на них.

Пользователь должен пытаться определить, какие известные документы могут содержать упоминание его тем. И уже через гипертекстовые связи в документах выйти на желаемый источник. Часто этот путь эффективен. Попытайтесь найти организации (WWW-сервера), имеющие профиль, сходный с темой поиска. Иногда, через ссылки в документах этих серверов можно выйти на нужные материалы.

В-четвертых, попытаться найти конференцию по сходной тематике т.е. просто зайти в какой-нибудь CHAT. Например в www.anekdotov.net.ru. Часто вопрос, "брошенный" в телеконференцию, позволяет получить достаточно справочной информации.

И, наконец, не забывать спросить своих знакомых. Они могут подсказать неожиданное решение.

В любом случае нужно настроиться на то, что поиск может занять достаточно длительный период времени и потребовать от, него немалых усилий.

Пример. Пользователь заходит в поисковую систему Yandex.ru , и в поисковом окне набирает слово Брат-2, дальше происходит поиск всего что может хоть как- нибудь связано с данным словом. Yandex порекомендует обратится ко многим сайтам и в том числе и к film.ru и непосредственно к сайту о самом фильме. (рис-4)

2.2 Как работают механизмы поиска

Поисковая система обычно ищет нужную информацию с помощью трех этапов:

I) Этап: Робот (агент, паук или кроулер) перемещается по Сети и собирает информацию.

II) Этап: Вся информация, собираемая роботами поступает в базу данных в виде ссылок - индексируется.

III) Этап: Запускается поисковый механизм, который пользователи используют как интерфейс для взаимодействия с базой данных. т.е. произошла выдача базой данных гиперссылок и дальше идет обыкновенный перебор нужных ссылок пользователем.

Эти этапы ярко выражены в работе блок-схемы (рис-2)

Два первых являются подготовительными и незаметны для пользователя.

Рассмотрим более подробно этапы поиска информации в

Поисковой системе:

I) Этап. Поисковая система собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузерам. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них URL-адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т.д. Это специальные программы, типа агентов, пауков, кроулеров и роботов, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут оставлять сообщение о вашем посещении сайта. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Роботы извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее.

Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Люди желающие предоставить информацию широкой общественности, или желающие большей посещаемости своего сайта, помещают краткие выдержки о чем этот сайт прямо в индекс, заполняя особую форму для того раздела, в который по их предположению обратится поисковый робот и вытащит в базу данных этот сайт и предоставит ее какому-нибудь пользователю.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым роботами при индексации информации, которую они нашли при перемещении по Сети.

Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

II) Этап: После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы - индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Индексированная база данных - это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке.

“Операция сортировки полученных результатов называется ранжированием.”

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

Тэги, в которых эти слова располагаются.

Местоположение искомых слов в документе.

Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика. База данных выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

III) Этап. Происходит обработка запроса пользователя и выдача ему результатов поиска в виде списка гиперссылок. Затем идет работа пользователя по переработке ссылок, предоставленной базой данных. Когда он щелкает на ссылку к одному из документов, который его интересует, этот документ запрашивается у того сервера, на котором он находится, если информация пользователя на данном сайте его не удовлетворила, он щелкает на другую ссылку. Этот этап может затянутся и оказаться самым сложным для пользователя.


3. Поисковые машины

В Интернете великое множество поисковых машин(поисковых систем), они имеют разные виды, у каждой свои возможности преимущества и недостатки. Пользователя всегда будут одолевать такие вопросы: как искать в Интернете, какая машина лучше. Так что постараюсь ответить на эти вопросы.

3.1 Как искать в Интернете

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

1. Охват и глубина. Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на

количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому - надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе - различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной - обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" - редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок.

Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и

отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов - робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок - проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "Not Found" свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель).

Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рэмблере - варианты перевода на русский язык "advanced search").

Кроме релевантности, существуют важные пользовательские характеристики.

1. Скорость поиска. Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента - надо поискать запросы разной длины, разной "тяжести" слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик - около трех-четырех часов дня).

2. Поисковые возможности (работа с языком документа, язык запросов). Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа - заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

3. Дополнительные удобства. Это - дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.

Поисковые машины состоят из поисковых каталогов и поисковых указателей, многие поисковые указатели содержат в себе и каталоги. Рассмотрим их.

3.1 Поисковые каталоги

Любая книга начинается с содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен. Содержание - это пример каталогизации.

Когда человек выбирает тему, которая ему интересна, по ней он находит номер страницы, где эта тема раскрывается. Алфавитный указатель - пример индексации (по-английски, index - это и есть указатель). Человек находит в указателе нужный термин и получает номер страницы, на которой он встречается.

Каталоги (directories) и отличаются от поисковых систем. Каталоги представляют собой совокупность сайтов, собранных в тематические рубрики. Эти рубрики в свою очередь могут быть разбиты на подрубрики, которые тоже могут иметь еще более мелкие подкаталоги и т.д.

Каталоги с точки зрения пользователя - те же поисковики. Но вот заполняются эти каталоги не "роботами", как на указателях, а самыми что ни на есть живыми людьми. Это очень хорошо для пользователей, так как дает более релевантные результаты по сравнению с поисковыми серверами. От части в поисковом указателе тоже содержится каталог, он представлен в виде оглавлений(гиперссылок) по самым популярным темам.

При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета - Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью


в российской части Интернета в таблице-1.[приложение]

3.3 Поисковые указатели

Поисковые указатели - это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько порядков) больше, чем у каталогов. Количество проиндексированных Web-страниц может измеряться сотнями миллионов.

Работа поискового указателя происходит в три этапа, которые указаны в пункте 2.2.

Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется буквально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В тоже время, популярность - вещь хитрая. Она трудно зарабатывается, но потом и долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популярной является далеко не лучшая система. Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты. При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые лучшие. Поэтому важно не только то, как много Web-страниц проиндексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссылок и насколько корректно представляет результаты поиска.

Сравнительный обзор поисковых систем.

Подробно рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Так как надо просто зайти на сайт выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок.

Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные. Но прежде чем приступать к изучению конкретной системы, необходимо рассмотреть общие концепции, равно относящиеся ко всем поисковым указателям, в качестве примера я буду рассматривать такие популярные, и на мой взгляд самые удобные, поисковые уазатели как Yandex и Rambler .

И начну с рассмотрения основных видов поиска. В основном всего четыре вида поиска.

Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию. Простой поиск в Rambler представлен на

рис-8. При введении фразы: Все смешалось в доме Облонских, поисковые указатели выдают следующие результаты: Rambler 9(документов)

Yandex 2400(документов)

Расширенный поиск. Расширенный поиск всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логическими операторами AND (И), OR(ИЛИ), NOT(НЕ) и другими. Основное достоинство расширенного поиска состоит в том, что как правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно переключить систему в нужный режим (рис-9.)

При введении фразы: Все смешалось в доме Облонских, в расширенном поиске, поисковые указатели выдают следующие результаты: Rambler 9(документов)

Yandex 2400(документов)

Рис-8 Простой поиск в Rambler


Рис-9 Переключение системы в режим расширенного поиска.

Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например “Все

смешалось в доме Облонских”. В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: "Все смешалось в доме Облонских".(Рис-10)

При введении фразы: ”Все смешалось в доме Облонских”, поисковые указатели выдают следующие результаты:

Rambler 0(документов)

Yandex 8(документов)

Рис-10. Контекстный поиск в RAMDLER.RU


Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова,

входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои.

Также необходимо рассмотреть общие правила записи команд поиска.


Общие правила записи команд поиска:

Слова разделенные пробелами

Допустим, пользователю необходимо разыскать Web-страницу, на которых что-то говорится об операционной системе Microsoft Windows. Логично ввести в поле поиска слова Microsoft Windows и ждать результата. Но результат может быть обескураживающим. Одни поисковые системы понимают такую запись как Microsoft И Windows - они дадут то, что пользователь ищет. Другие могут понимать эту запись как Microsoft ИЛИ Windows - тогда будут разысканы все Web-страницы, на которых встречается либо первое слово, либо второе, либо оба вместе. Пользователя, конечно, интересуют только те страницы, на которых оба слова встречаются вместе, но они будут буквально похоронены среди прочих, не нужных ему страниц.

Приступая к работе с незнакомой системой, нужно начинать с проверки, как она обрабатывает группы ключевых слов. Сначала вводится одно слово: Microsoft. Просматривается, сколько результатов выдаст система.

Rambler 28184(документов)

Yandex 1048379(документов)

Затем вводится второе слово: Windows. Опять проверяется количество. Вводятся оба слова: Microsoft Windows.

При введении фразы: Microsoft, поисковые указатели выдают следующие результаты:

Rambler 6641(документов)

Yandex 259276(документов)

Если количество найденных Web-страниц будет больше, чем в первом и во втором случае, значит, система считает, что ключевые слова связаны соотношением ИЛИ (множества объединяются). Если результат будет меньше, чем в каждом из первых испытаний, то система использует соотношение И (множества пересекаются). И в том, и в другом случае придется ознакомиться со справочной информацией, чтобы узнать, как получить противоположный результат. Например, все основные российские поисковые системы по умолчанию между словами ставят оператор И, хотя у системы "Яндекс" есть свои особенности (см. таблицу-2). Там считается, что эти два слова должны одновременно присутствовать не в документе, а в одном предложении. Если достаточно, чтобы они присутствовали в документе, перед каждым словом надо поставить знак <+>. Одновременно возникает обратная задача: как сделать, чтобы разыскивались документы, содержащие одно из заданных - ключевых слов, то есть, как задать соотношение ИЛИ?

"Рамблер": Microsoft OR Windows; (50986 документов)

"Яндекс": Microsoft | Windows; (2034641 документов)

Роль прописных букв

В большинстве поисковых систем “хлеб” не равен “ХЛЕБ”, но “ХЛЕБ”*“хлеб”. Общее правило такое: если клиент ввел строчные символы, то разыскиваются как строчные, так и прописные символы, но если клиент использовал прописные буквы, то ищется точное совпадение только с прописными буквами. Классический пример - Красная Шапочка. Если их ввести именно так, с использованием прописных букв, то будут разысканы только документы, в которых встречается

сочетание Красная Шапочка. Однако если ключевые слова записать как красная шапочка, то будет разыскано больше документов. Через сито отбора пройдут все документы, в которых встречаются сочетания: красная шапочка, Красная шапочка, красная Шапочка и Красная Шапочка. Поэтому не надо злоупотреблять применением прописных букв в запросе и использовать их лишь тогда, когда есть абсолютная уверенность в результате.

Однако некоторые поисковые системы имеют отличия. Так, например, в системе "Рамблер" при индексации все прописные буквы принудительно "понижаются" до строчных. Это означает, что использовать в запросе прописные буквы в этой системе бесполезно.

При введении фразы: Красная Шапочка, поисковые указатели выдают следующие результаты:

Rambler 2921(документов)

Yandex 16458(документов)

Роль зарезервированных слов

Зарезервированные слова - это слова, которые не учитываются при обработке запроса. Во время индексации Web-Страниц программа выбрасывает их из текста, что значительно уменьшает размеры указателей и сокращает время поиска. К зарезервированным словам обычно

относятся неинформативные слова: предлоги, союзы, местоимения, артикли и другие слова малого размера. Так, например, если в системе "Яндекс" задать поиск фразы "Все смешалось в доме Облонских", то будут также разысканы документы, содержащие Что смешалось в доме Облонских? - и Где смешалось? В доме у Облонских? В некоторых системах могут быть зарезервированы слова, которые встречаются исключительно часто и потому не являются информативными. Если, например, система ориентирована на поиск книг, то слово книга для нее не информативное. Слово авто неинформативно для поисковой системы, занимающейся делами автомобильными, а слова компьютер и Интернет неинформативны для систем, ориентированных на поиск информации по вычислительной технике. Особенно важно учитывать роль зарезервированных слов при проведении контекстного поиска т.к. при контекстном поиске необходимо точное соответствие между тем, что заказал пользователь, и тем, что встречается в Web-документах. Если поисковая система на этапе индексации "зачистила" Web-документы от зарезервированных слов, то с контекстным поиском она справиться не может, разве что только "заглянув" в копии Web-страниц, если таковые у нее хранятся, но на это уходит много времени. Поэтому честный контекстный поиск в поисковых системах редкость. В России, например, и Яндекс, и Рамблер только делают вид, что предоставляют возможность контекстного поиска, для этого искомую фразу надо заключить в кавычки. Однако после нехитрых испытаний легко убедиться, что это на самом деле не контекстный поиск, а поиск с точностью до зарезервированных слов. Пример, когда на запрос "Все смешалось в доме Облонских" выдается результат Что смешалось в доме Облонских. В таблице-2 я привожу сравнительную характеристику основных поисковых машин(поисковых систем).[приложение]


4. Сравнительная характеристика двух поисковых систем на базе R а mbler . ru и Yandex . ru


4.1 RAMBLER

Rambler.ru – исторически (до появления Yandex) наиболее популярная поисковая система в России. Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя "Рамблер" примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня "Рамблер" - это популярный портал, лучшая в России классификационно-рейтинговая система плюс рекламная площадка. (Рис-10)

Приемы поиска в системе Рамблер:

Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга).

Однако знание и правильное применение языка запросов поисковой машины поможет сделать поиск на Рамблере быстрым и эффективным.

Регистр

В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Операторы

Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу "собака AND кошка" найдутся только те документы, которые содержат и слово "собака", и слово "кошка".

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу "собака OR кошка" найдутся документы, в которых есть хотя бы одно из слов "собака" или "кошка" (либо оба эти слова вместе). Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу "собака NOT кошка" будут все документы, в которых есть слово "собака" и нет слова "кошка". Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос "информация технологии кредит" будет истолкован как "информация AND технологии AND кредит". На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Каждый из операторов имеет сокращенное обозначение:

Оператор сокращенное обозначение

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу "самолет "заправился" посадка" удовлетворяет документ, содержащий текст "... самолет совершил посадку и заправился...", и не удовлетворяет документ, содержащий ".. самолет совершил посадку, чтобы заправиться...".

Скобки

При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок

позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию. Если запрос без скобок "машина самолет | аэродром" эквивалентен запросу "машина AND самолет OR аэродром" и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова "машина" и "самолет", либо слово аэродром, то запрос со скобками "машина (самолет | аэродром)" равносилен запросу "машина AND (самолет OR аэродром)", что означает "найти документы, содержащие слово "машина" и одно из слов "самолет" или "аэродром"".

Метасимволы

Рамблер пока не поддерживает поиск строк с использованием метасимволов ("*", "?"), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно. Тем не менее, эти операторы зарезервированы для подобного использования в будущем.

Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу "самолет" удовлетворяют все документы, в которых хотя бы раз встретилось слово "самолет" в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Морфология

По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова. Например, при поиске по слову "человек" будут также найдены документы, содержащие слова "человеку", "человеком", "человека" и даже "люди". Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Ограничение расстояния

Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу "красная армия" будут найдены те документы, в которых слова "красная" и "армия" хотя бы один раз встретятся менее чем в 40 словах друг от друга. Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е.равна 1)

Ненайденные слова

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.


Сортировка результатов

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню "Сортировать по..." на странице детального запроса. Можно также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать "От даты... до даты...".

Расстояние между словами

Можно потребовать, чтобы Рамблер возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга. Режим "Ограничить расстояние между словами" может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой последовательности.

Выдача результатов

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню "Выдавать по..." на странице детального запроса позволяет увеличить это число до 30 или 50. Меню "Форма вывода..." позволяет получать описания документов с увеличенной или уменьшенной подробностью.


4.2 YANDEX

Yandex.ru - поисковая машина, способная по запросу найти наиболее подходящие web-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет. Яндекс не требует знания специальных команд для поиска. Яндекс отыщет всех, кто сослался на страницу, файлы с нужной картинкой, последние новости или товары в электронных магазинах. В основе системы "Яндекс" самый большой указатель - примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности "Яндекс" сегодня безусловный лидер (рис.4)

Приемы поиска в системе Яндекс

Прежде чем приступать к описанию языка запросов системы Яндекс, отмечу, что он заметно мощнее и сложнее языков запросов других отечественных поисковых систем. Впрочем, обыкновенному пользователю не надо пугаться. Даже если он очень не любите читать и, тем более, изучать инструкции, то он может работать с системой интуитивно.

В принципе, система Яндекс использует в работе эвристические алгоритмы, которые не совсем строгие математической точки зрения. В результате пользователь может получить разные результаты, например, если будет искать документы со словами Буш Гор выборы и выборы Буш Гор. Зато благодаря этим алгоритмам интуитивный подход к созданию запросов (без чтения инструкций) дает очень хороший результат, к тому же за очень краткое время.

Поиск по одному слову

Когда пользователь вводит искомое слово в поле поиска и нажимает кнопку Найти, то слова разыскиваются с учетом всех возможных словоформ, что особенно важно для русского языка. Например, если введено слово снег, то будут найдены документы, в состав которых входят слова снега, снегов и т. п., но не снежный, заснеженный и т. п. Если же поиск словоформ не требуется, то его можно отменить с помощью восклицательного знака, например!снегом.

Поиск по группе слов

Если слова разделены пробелом, то разыскиваются документы, в которых в одном предложении встречаются все введенные слова. Так, по запросу Буш Гор выборы

система выдает документы с фразами типа... Накануне выборов хакеры взломали сайты Буша и Гора. Среди результатов такого поиска возможны нестрогие соответствия - поисковая система проявляет свой интеллект. Чтобы строго обеспечить появление слов в предложении, надо перед ними поставить знак +, например так: +Буш +Гор +выборы. Знак + должен записываться слитно с тем словом, к которому относится (без пробела). Пробел выполняет роль оператора И, который также можно ввести явно (символ &), например так: +Буш& +Гор& +выборы. Справа и слева от логического оператора должны быть пробелы.

Если же требуется одновременное присутствие слов не только в предложении, но и во всем документе, применяется оператор &&, например: +Буш&& +Гор&& +выборы.

Теперь рассмотрю приемы исключения слов из поиска. Для этого применяются: знак - (строгое исключение из предложения), знак ~ (нестрогое исключение из предложения) и знак ~~ (исключение из всего документа). Так, например, запрос +Буш +Гор ~~выборы позволит

отобрать документы, в которых в одном предложении встречаются слова Буш и Гор, но во всем документе нет слова выборы и его производных (выбор, на выборах, после выборов и т. п.).

В тех случаях, когда надо объединить ключевые слова с помощью оператора ИЛИ, используется символ | (вертикальная черта). Так, например, запрос Буш | Гор&& +выборы отберет документы, в которых упоминается либо Джордж Буш, либо Алъберт Гор, но обязательно

встречается слово выборы.

Поиск с указанием расстояния

Давным-давно в поисковых Системах появился оператор NEAR, позволяющий находить документы, в которых два слова расположены близко друг к другу. Правда, что такое "близко" каждая система понимает по-разному. В поисковой системе Яндекс можно конкретно указать, на каком расстоянии друг от друга эти слова должны находиться.

В документе у каждого слова есть свой номер позиции. Номера позиций двух соседних слов различаются на единицу (номер позиции слова, находящегося справа, больше). Оператор расстояния записывается как /+n, где n - число, соответствующее расстоянию. Например, оператор /+1 соответствует двум словам, идущим подряд, то есть Microsoft/+1 Windows - это то же самое, что и "Microsoft Windows".

Оператор расстояния может иметь и отрицательное значение. Это означает, что второе слово, указанное в запросе, должно в документе располагаться раньше первого. Например запрос Microsoft/-5 Windows может дать ссылку на документ, содержащий фразу об операционных системах, которые заменят Windows, рассказал ответственный представитель компании Microsoft.

При проведении поиска с указанием расстояния можно задавать не точное расстояние между словами, а диапазон, например /(-5 +5). В этом случае будут отобраны документы, в которых слова, указанные в запросе в качестве ключевых, попадают в заданный диапазон. На самом деле, если знак параметра не указан, то это тоже поиск в диапазоне. Так, оператор /5 надо рассматривать на самом деле как диапазон /(-5 +5). Запрос Буш/ 5 Гор разыщет предложения типа: Женщины симпатизировали Бушу, а мужчины - Гору или Гор Буша не слаще.

Система - Яндекс имеет довольно сложные правила языка запросов (по сравнению с Рамблером), но зато у нее обширные возможности. К примеру, расстояния можно измерять не только между словами, но и между предложениями. Эта единица измерения используется, когда в запросе применен двойной знак && или ~~. Так, запрос Буш/+1&&Гор выдаст документы, в которых слова Буш и Гор встречаются либо в одном предложении, либо в соседних.

Использование скобок

Задание на поиск - это, по сути дела, логическое выражение, которое работает как фильтр при просмотре документов, входящих в базу данных поисковой системы. В

логическом выражении точно так же, как и в арифметическом, можно применять круглые скобки. Они служат для управления порядком действий. Характерный пример: Буш&Гор&(выборы | голосование). Такой запрос вернет ссылки на Web-страницы, содержащие предложения, в составе которых есть слова Буш, Гор, выборы или Буш, Гор, голосование.

Управление ранжированием

Цель ранжирования - сделать так, чтобы Web-страницы,

наиболее оптимально соответствующие запросу, отображались в списке результатов как можно раньше. Какие алгоритмы при ранжировании применяет поисковая система, это ее дело. Пользователи либо довольны их работой, либо обращаются к другой поисковой системе. В системе Яндекс есть возможность самостоятельно изменить алгоритм механизма ранжирования с помощью весовых коэффициентов. Такой коэффициент можно присвоить любому ключевому слову или целому выражению, если оно заключено в скобки: Весовые коэффициенты вводятся через двоеточие, например Буш:5 Гор выборы. При таком запросе документы, в которых слово Буш встречается чаще, получают преимущество и отображаются в результирующем списке на более высоких позициях.

Еще один прием управления ранжированием связан с уточняющим словом. Это такое слово, которое не обязательно должно содержаться в отбираемых документах, но если оно там есть, то этот документ получает преимущество при ранжировании. Уточняющее слово вводится после знаков <_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Специальный поиск

Особняком стоят приемы поиска информации, содержащейся в специальных полях заголовков Web-страниц (каждая Web-страница имеет служебные поля в своем заголовке) или поиск специальных элементов, входящих в Web-страницы, например гиперссылок. В системе Яндекс команды специального поиска в полях заголовка начинаются

с символа $, а команды поиска отдельных элементов Web-страниц - со знака #. Все средства специального поиска работают заметно медленнее по сравнению с обычными.

Команда

Описание

Пример

Пояснение

$title (выражение)

Поиск ключевых слов, указанных в выражении, выполняется только в заголовках Web-страниц


$title (Космос)


Разыскиваются только Web-страницы, в заголовках которых имеется слово Космос (рис. 7.10)



Поиск ключевых слов, указанных в выражении, выполняется только в якорях внутренних ссылок Web-страниц


$anchor (вступление)


Внутренние (выражение)


#keywords = (выражение)


#keywords - (новости)



#abstract = (выражение)


Поиск в аннотации Web-страницы

#abstract = (Буш | Гор)


#image = "имя "файла"


Поиск файлов иллюстраций по их имени


#image -"Bush.*"

Если заранее неизвестно, какое расширение может иметь имя файла, применяют подстановочный символ “*”, который замещает любое количество произвольных символов


#hint -(выражение)

Поиск слов в альтернативном тексте иллюстраций


(Буш | Гор)



#url = " URL -адрес"

Поиск сайта или Web-страницы


#uri.= "www.anysite.ru"


Обычно используется для локализации поиска. Например,чтобы ограничить круг поиска одним сайтом или, наоборот, исключить его из области поиска


#link -адрес"

Обычно используется " URL - для выявления Web-страниц, на которых имеются гиперссылки, ведущие к собственной странице


Заключение

Мне удалось полностью раскрыть поставленные вопросы и разобрался в данной теме(как осуществить эффективный поиск в Интернете?). Я убедился на своем опыте, что в наш век высоких технологий эффективный поиск информации не разрешим и остался одной из главнейших проблем. Это я могу объяснить следующим.

Во-первых, это не совершенство самих поисковых машин, ставящих под сомнение вообще какой либо поиск.

Поисковым машинам не хватает упорядоченности, структуры, структурности, структуризации, а также системы, систематизации, систематизированности, роботы большинства поисковых машин приносят огромное число бесполезных гиперссылок,

Во-вторых, неопытность пользователей т.к. искать и находить нужное в ворохе текстов в Интернете - умение не только поисковой системы, но и пользователя, задающего вопрос.

В-третих, алчность пограмистов, и рекламных агенств их нанимающих, желающих чтобы их сайты запрашивались как можно чаще. Эти "алчные" програмисты обманывают роботов и выдают в Интернет сайт в котором якобы есть нужная для пользователя информация, а там рекламные буклеты или автоматическая гиперссылка запрашивающая рекламный сайт или еще хуже платный сайт. Хотя специалисты обслуживающие поисковые машины и борются с таким явлением, оно все равно с каждым днем приобретает все масштабные размеры.

На сегодня, Интернетом используются как справочником 23% пользователей, инструментом исследования 15%, развлечением 14%, и только как источником новостей 12%.

Не мнение оптимистично звучит что 10% пользователей всегда, а 73% часто удается найти нужную информацию.

На такой вопрос какая поисковая машина лучшая и какой я предпочту пользоваться, отвечу таким образом: пользоваться надо той машиной какой удобнее, и мне удобнее пользоваться Яндексом.

Интернет облегчил поиск, и потребовал специфических знаний о поиске, на сегодня он не всегда эффективен, мы находимся только на заре его развития. И поэтому не стоит забывать о старом не менее эффективном поиске информации это книги и библиотеки, этот источник информации оправдывал себя со времен "Александрийской библиотеки", а Интернет только в скором будущем будет более эффективен и станет почти незаменим.

Список использованной литературы


1.Андрей Аликберов "Несколько слов о том, как работают роботы поисковых машин".

#"#">Используется язык поисковой машины Яndex

Поиск по фразе

Префиксы

Итеративный поиск (в результатах)

После входа щелкните More…

замена части слова

* (не всегда корректно)


Таблица-2

Сводная таблица по ведущим поисковым машинам


Я ндекс

Апорт!

AltaVista

Зона поиска, объем базы данных

Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам.

Русская часть Интернета.

Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3

Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео.

Специализи-рованный поиск по университе-там США, Apple, Linux, BSD

Объем базы на начало 2001 года

Более 31 миллионов документов

Более 12 миллионов документов

Более 14 миллионов документов

Более 250 миллионов документов

1,25 миллиарда страниц

Тип индексации

полнотекстовая индексация

полнотекстовая индексация

полнотекстовая индексация

полнотекстовая индексация и индексация по ссылкам

Наличие дополнительных сервисов

Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.).

Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.)

Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.)

Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц.

Синтаксис языка поиска

логическое И

пробел или & (в пределах предложения)&&(в пределах документа)

AND, &, пробел между словами по умолчанию

И, AND, &,+, пробел между словами по умолчанию

AND, & (только при сложном поиске)

по умолчанию для всех слов поиска

логическое ИЛИ

OR (по умолчанию при простом поиске), | (только при сложном поиске)

бинарный оператор И-НЕ

~ (в пределах предложения)

~ ~ (в пределах документа)

не используется

заменяется префиксным оператором "-" (AND - пробел по умолчанию)

AND NOT, ! (только при сложном поиске)

заменяется префиксным оператором "-"

префиксы обязательных (+) и запрещенных (-) слов

не используются

+, - (только при простом поиске)

группирование слов

не используется

расстояние между ключевыми словами при поиске

/(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед)

при расширенном поиске - выдача документов только с минимальным расстоянием между словами

сл2(...), с2(...), w2(...), (- назад, + вперед)

NEAR (в пределах10 слов, только при сложном поиске)

не используется

поиск фразы

символы замены части слова

*, ? (замена любого символа)

* (только в конце слова)

ограничение по языку документа

выбор: любой, кириллица, латиница

выбор: любой, русский, английский

выбор: русский, английский

выбор из 25 языков

выбор из 25 языков

морфология

все склонения и спряжения по умолчанию, ! (поиск точной словоформы)

# (все формы слов), @ (однокоренные слова)

! (указание нормальной формы)

поиск по датам

ограничение поиска по полям

Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов.

Возможности расширенной формы, качество помощи

настройка расширенной формы

настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту

по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова

по документу, заголовку, изображению дате, 5 разделам (сайты, МР3, картинки, товары, новости)

по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр.

настройка вывода результатов

задание числа результатов на странице, формы вывода

задание формы выдачи

задание числа результатов на странице, всех элементов формы вывода

задание числа результатов на странице, всех элементов формы вывода

ранжирование результатов поиска

сортировка по релевантности или дате

по популярности сайта

по терминам, указанным в SORT

по цитируемости (ссылок на страницу с других страниц)

итеративный поиск (в результатах поиска)

Да. Выполняется с помощью установки флажка

Да. Выполняется с помощью переключателя области поиска

Выполняется с помощью установки флажка

Выполняется с помощью

качество раздела помощи

имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях

краткий раздел HELP

подробный справочник по языку запросов, есть много русских синонимов для основных операторов

самый большой из рассмотренных в этой таблице учебник on-line по языку запросов

очень ограниченный раздел HELP

семейный фильтр



Похожие публикации