Организация на търсенето на информация. Данни, съхранявани на магнитни дискове. Тип информация и примери за нейното използване

Кочеганова Полина

Методи за търсене образователна информацияв Интернет

Най-важното условиеи водещият фактор, определящ успеха образователни дейностиизползвайки компютърна технология, е готовността на учениците за продуктивни дейности в дидактическа компютърна среда.

Овладяването на ефективни методи и средства за търсене, обработка и използване на образователна информация дава възможност не само за интензифициране на образователните процеси, но и за развитие на познавателните интереси на учениците и желанието за продуктивна, творческа дейност.

Благодарение на широкото развитие и използване на компютърните технологии информацията от всички области на човешката дейност в момента е достъпна под една или друга форма на електронен носител: наука, производство, търговия, литература, развлечения и др. Интернет е съвместим с различни електронни мрежи и бази данни и позволява удобен достъп до почти всякакъв вид информация.

Информационните ресурси, достъпни в интернет, са огромни. Това са десетки милиони представени по различни начини документи, чийто брой непрекъснато нараства. В зависимост от метода на представяне, вида и естеството на информацията, методите за достъп до нея също се различават, следователно, преди да разгледаме методите за търсене, нека разгледаме класификацията на информационните ресурси.

Въз основа на принципа на организация и използване, инструментите за търсене могат да бъдат разделени на директории (директории, директории) и търсачки.

Каталози

Директориите са директории, съдържащи списъци с интернет адреси, групирани по определени критерии. По правило те са обединени по теми (наука, изкуство, новини и др.), като всяка тема се разклонява на няколко поднива.

Особеността на тези инструменти за търсене на информация е, че създаването на структурата, базата данни и тяхното постоянно актуализиране се извършва „ръчно“ от екип от редактори и програмисти, а самият процес на търсене изисква прякото участие на потребителя, независимо преминаващ от връзка към връзка.

Търсачки

Действието на търсачките е постоянно последователно да изследват всички интернет възли, достъпни за дадена система за търсене, с всичките им връзки и разклонения. Поради постоянно актуализиранеинформация, търсачката редовно се връща след определен период (около месец) към вече проучени възли, за да открие и регистрира промени. Цялата прочетена информация се индексира, т.е. създава се специализирана база данни, в която се кодират всички интернет страници, изследвани от системата.

Когато се получи заявка от потребител, търсачката преглежда цялата индексирана информация и създава списък с документи, които отговарят на задачата за търсене. Намерените документи се класират в зависимост от местоположението на ключовите думи (в заглавието, в началото на текста, в първите абзаци) и честотата на тяхното появяване в текста.

Въпреки сходния принцип на работа, търсачките се различават по езици за заявки, зони за търсене, дълбочина на търсене в документа, класиране и приоритетни методи, така че използването на различни търсачки дава различни резултати.

Повече или по-малко сериозен подход към всеки проблем започва с анализ на възможните методи за решаването му. Търсенето на информация в Интернет може да се извърши чрез няколко метода, които се различават значително както по отношение на ефективността и качеството на търсенето, така и по вида на извличаната информация. В някои случаи е необходимо да се използват много трудоемки методи - резултатът си заслужава.

Могат да се разграничат следните основни методи за търсене на информация в Интернет, които в зависимост от целите и задачите на търсещия се използват самостоятелно или в комбинация помежду си:

Директно търсене чрез хипертекстови връзки

Тъй като всички сайтове в WWW пространството всъщност са свързани помежду си, търсенето на информация може да се извърши чрез последователно разглеждане на свързани страници с помощта на браузър.

Въпреки че този напълно ръчен метод за търсене изглежда напълно анахроничен в мрежа, съдържаща повече от 60 милиона възли, „ръчното“ сърфиране на уеб страници често е единствената опция в последните етапи на търсене на информация, когато механичното „копаене“ отстъпва място на по-задълбочен анализ. Използването на каталози, класифицирани и тематични списъци и всякакви малки справочници също се отнася за този вид търсене.

Използване на търсачки

Днес този метод е един от основните и всъщност единственият метод при извършване на предварително търсене. Резултатът от последното може да бъде списък с мрежови ресурси, които подлежат на подробно разглеждане.

Обикновено използването на търсачките се основава на използването на ключови думи, които се предават на сървърите за търсене като аргументи за търсене: какво да търсите. Ако е направено правилно, генерирането на списък с ключови думи изисква предварителна работа по съставянето на тезаурус.

Търсете с помощта на специални инструменти

Този напълно автоматизиран метод може да бъде много ефективен за извършване на първоначални търсения.

Spider е ключов инструмент за търсене в мрежата. Както бе споменато по-рано, паяк е програма, която извлича някои или всички ресурси от голям брой сайтове, предимно с цел създаване на обърнати индекси, които по-късно ще бъдат използвани от приложения за търсене. Подобно на други уеб клиенти, паякът генерира HTTP заявки за достъп до ресурсите на уеб сайта и анализира отговорите. Основните разлики между паяка и браузъра са много по-големият брой сайтове, до които се осъществява достъп и се изпращат заявки, липсата на показване на отговори и доста необичайното използване на отговорите.

На практика обаче само част от ресурсите могат да бъдат поискани от сайтове. Много паяци, например, не изискват изображения или медийни ресурси. Това се прави, ако паякът се използва само за изграждане на индекс на текстови ресурси.

Анализ на нови ресурси

Търсенето в новосъздадени ресурси може да е необходимо при извършване на повтарящи се цикли на търсене, търсене на най-новата информация или за анализиране на тенденциите в развитието на обекта на изследване във времето.

Друг възможна причинаМоже да се окаже, че повечето търсачки актуализират своите индекси със значително забавяне, причинено от огромните обеми данни, които се обработват, и това забавяне обикновено е по-голямо, колкото по-малко популярна е темата, която ви интересува. Това съображение може да бъде много важно, когато извършвате търсене в силно специализирана предметна област. Това може да включва например работа с социални мрежи, видео съдържание.

Наистина полезни методи за намиране на образователна информация в Интернет:

Съставяне на тезаурус

За да използвате ефективно търсачките, имате нужда от списък с ключови думи, организиран, като се вземат предвид семантичните връзки между тях, т.е. тезаурус. При съставянето на тезаурус е необходимо да се предвиди обработката на синоними, омоними и морфологични вариации на ключови думи. Не трябва да въвеждате името на самата тема.

Вижте 2-3-4 страници за търсене

Избор на търсачки

Последователността на използване на търсачките се установява в съответствие с намаляването на очакваната ефективност на търсене при използване на всяка машина.

Общо са известни около 180 сървъра за търсене, които се различават по региони на покритие, принципи на търсене (и, следователно, във входния език и естеството на възприеманите заявки), обема на индексната база, скоростта на актуализиране на информацията, възможност за търсене на „нестандартна“ информация и други подобни. Основните критерии за избор на сървъри за търсене са размерът на индексната база на сървъра и степента на развитие на самата търсачка, тоест нивото на сложност на заявките, които възприема.

Използвайте ресурси на английски език, дори ако не говорите езика. Днес техническият машинен превод вече не е просто набор от думи, както беше преди. Добрите, полезни чужди сайтове се превеждат повече от адекватно.

Използвайте специализирани източници за търсене на образователна информация:д- библиотека, банка за дисертации, киберленинка, архивни сайтове и др.

Завършвайки работата, можем да стигнем до извода, че много голямо количество образователна информация по различни теми се съхранява в Интернет под формата на статии в електронни вестници, доклади, справочници, графични изображения, аудио и видео файлове и много други. Когато пътувате в Интернет, можете да намерите всякаква информация, с други думи, ако някакви данни някога са били въведени в компютър, тогава най-вероятно те могат да бъдат намерени някъде в огромните простори на Интернет.

Няма информация, която да не може да се намери в интернет, просто трябва да знаете къде и как да търсите.

Библиография

Гармашов М. Ю., Коротков А. М. Подготовка на учениците за продуктивни дейности в дидактическа компютърна среда. - Волгоград, 2001.

Норенков И.П. Управление на знанията в информационната и образователна среда. - М.: МЕСИ, 2000.

Путилов Г.П. Концепцията за изграждане на информационна и образователна среда за технически университет. - М.: MGIEM, 1999.

Инструменти за търсене на информация в ИНТЕРНЕТ // Afanasy-exchange (Tver). - 28.03.1997г.

Усков В.Л. Интернет-базирано дистанционно инженерно обучение / Журнална библиотека " Информационни технологии", 2000, № 3.

Демин Игор Святославович Търсене на научна и образователна информация в Интернет // Бюлетин на TSU. 2008. № 9.

Нека разгледаме формулировката на задачата за търсене в общ вид. За да направим това, трябва да отговорим на три въпроса:

1. какво да търсите – какви източници на информация;

2. къде да търсите - местоположението на тези източници;

3. как да търсите - какви инструменти да използвате за това.

Нека подчертаем основните източници на информация, представена в Интернет. Това са WWW документи, статии в новинарски групи и пощенски списъци, файлове във файлови библиотеки, директории с адресна информация на организации и хора ( електронна поща, адрес, телефон), статии в тематични бази данни, енциклопедии. Моля, имайте предвид, че горният списък не претендира за пълен.

Сега отговаряме на въпроса къде се намират тези източници на информация. Това са популярни интернет ресурси като WWW, новинарски групи, пощенски списъци и FTP сървъри.

Разбира се, можете да търсите необходимите източници на информация ръчно, да намерите адреси от специализирани списания по компютърни науки и Интернет и да използвате специални хартиени указатели с адреси, класифицирани в категории. Въпреки това, за такова променящо се пространство като Интернет, е необходимо да се научите как да използвате специални инструменти, чиято цел е да събират данни за информационни ресурси и да предоставят на потребителите услуга за бързо търсене. Така стигаме до концепцията за автономен инструмент за търсене - система за търсене на информация.

Информация система за търсене (IPS) е система, която осигурява търсене и избор на необходимите данни в специална база данни с описания на източниците на информация (индекс) въз основа на езика за търсене на информация и съответните правила за търсене.

Основната задачавсякакви IPS е търсене на информация, подходяща за информационните нужди на потребителя. Много е важно да не загубите нищо в резултат на търсенето, тоест да намерите всички документи, свързани с искането, и да не намерите нищо излишно. Затова се въвежда качествена характеристика на процедурата по търсене – релевантност.

Уместност– това е съответствието на резултатите от търсенето с формулираната заявка.

Основните показатели на IPS за WWW са пространствен мащаб и специализация.

По пространствен мащаб IPS могат да бъдат разделени на:

- местни;

- глобален;

- регионален;

- специализирани.

Локални търсачкиможе да бъде проектиран за бързо търсене на страници в мащаб на един сървър. Регионален IPS описват информационни ресурси на определен регион, например рускоезични страници в Интернет. Глобални търсачки , възможно най-пълно, описват ресурсите на цялото информационно пространство на Интернет. Специализирани системи за търсене на информация фокусирани върху търсенето на конкретни източници на информация: WWW документи, файлове, адреси и др.

Нека разгледаме по-отблизо основните задачи, които разработчиците на IPS трябва да решат. Както следва от определението, системите за търсене на информация за WWW извършват търсене в собствена база данни (индекс), описваща разпределени източници на информация. Следователно първо трябва да опишете информационните ресурси и да създадете индекс. Изграждането на индекса започва с определяне на първоначалния набор от URL адреси на източници на информация. След това се извършва процедурата по индексиране.

Индексиране– описание на източниците на информация и изграждане на специална база данни (индекс) за ефективно търсене.

В някои системи за извличане на информация описанието на източниците на информация се извършва от персонал за извличане на информация, тоест от хора, които пишат кратко резюме на всеки ресурс. След това по правило анотациите се сортират по теми (съставяне на тематичен каталог). Разбира се, описанието, съставено от човек, ще бъде напълно адекватно на източника. В този случай обаче процедурата за описание отнема значителен период от време, така че генерираният индекс по правило има ограничен обем. Но търсете в подобна системаможе да се извърши толкова лесно, колкото

в тематичните каталози на библиотеките.

При друг вид система за търсене на информация процедурата за описание на информационните ресурси е автоматизирана. За целта се разработва специална програма-робот, която чрез определена технология обхожда ресурсите, описва ги (индексира) и анализира връзките от текущата страница, за да разшири областта за търсене. Как една програма може да опише документ? Най-често списък с думи, които се намират в текста и други части на документа, просто се съставя, като се вземат предвид честотата на повторение и местоположението на думата, тоест на думата се присвоява вид коефициент на тежест в зависимост от неговото значение. Например, ако дадена дума е в заглавието на уеб страница, роботът ще отбележи този факт за себе си. Тъй като описанието е автоматизирано, необходимото време е малко и индексът може да бъде много голям по размер.

Следователно следващата задача за втория тип система за търсене на информация е разработването на индексиращ робот. Индексиращ робот – програма, която служи за сканиране на интернет и поддържане на индексната база данни актуална. За търсене в системите от този типПотребителят ще трябва да се научи как да съставя заявки, в най-простия случай състоящи се от няколко думи. След това IRS ще търси в своя индекс документи, чиито описания съдържат думи от заявката. За по-добро търсене е необходимо да се разработи специален език за заявки за потребителя. В зависимост от дизайнерските характеристики на модела на индекса и поддържания език за заявки се разработват механизъм за търсене и алгоритъм за сортиране на резултатите от търсенето. Тъй като индексът е голям, броят на намерените документи може да е доста голям. Затова е изключително важно как търсачкаще извърши търсене и ще сортира резултатите. Не на последно място важно външен видтърсачката, представена на потребителя, така че една от задачите е да се разработи удобен и красив интерфейс. И накрая, формата на представяне на резултатите от търсенето е изключително важна, тъй като потребителят трябва да научи колкото е възможно повече за източника на намерена информация, за да вземе правилното решение за необходимостта да го посети.

За достъп до сървъра за търсене потребителят използва стандартна клиентска програма за World Wide Web, тоест браузър. По адреса начална страницаПотребителят на IPS работи с интерфейса на системата за търсене, който служи за комуникация между потребителя и търсачката на системата (системата за генериране на заявки и преглед на резултатите от търсенето).

Основният компонент на информационната система е търсачката, която служи за преобразуване на заявката на потребителя във формална системна заявка, търсене на връзки към информационни ресурси и предоставяне на резултати от търсенето на потребителя.

Както бе споменато по-рано, търсенето се извършва в специална база данни, наречена индекс. Архитектурата на индекса е проектирана по такъв начин, че търсенето да се извършва възможно най-бързо, като в същото време е възможно да се проследи стойността на всеки от намерените ресурси. Някои системи съхраняват заявките на потребителя в неговата лична база данни, тъй като отстраняването на грешки на всяка заявка отнема много време и е изключително важно да се съхраняват заявки, на които се отговаря задоволително.

уебсайтове– тези информационни ресурси, до които IPS осигурява достъп.

Както знаете, уеб страницата е сложен документ, състоящ се от много елементи. Когато се описва такъв документ от програма-робот, е необходимо да се вземе предвид в коя част на уеб страницата е намерена дадената дума. Източниците за индексиране на WWW документи са:

‒ Заглавия.

‒ Заглавия (H1-H6).

‒ Резюме (Описание).

‒ Списъци с ключови думи (KeyWords).

‒ Пълни текстове на документи.

Търсачките, които описват абсолютно целия текст на WWW документ, се наричат пълнотекстови.

За да се опише файл във FTP ресурс, се използва неговия URL адрес. За да се опише статия в новинарска група, източниците за индексиране са полетата Тема и Ключови думи.

По време на процедурата за индексиране речникът често се нормализира (намаляване на думата до нейната основна форма); някои неинформативни думи, например съюзи или предлози, се игнорират. Всяка система за извличане на информация има свой собствен списък от така наречените стоп думи, които се игнорират по време на процеса на обработка.

дексинг. В системи с много променливи езици, например руски, се взема предвид морфологията. Отчитането на морфологията означава умение за работа с различни формидуми от определен език. Трябва да се отбележи, че руският език е доста сложен, думите на който се променят според числата, падежите, родовете и времената и често по неочаквани начини. Например: отива, отива, отива, върви

и т.н. Всички съществуващи IPS, като се вземе предвид морфологията на руския език, използват „Граматически речник на руския език“, съставен от Андрей Анатолиевич Зализняк. Речникът включва 90 000 речникови статии, като за всяка дума е дадена информация дали се сгъва и как точно се сгъва или спряга.

Така, технология за обобщено търсене се състои от следните стъпки:

1. Потребителят формулира заявка.

2. Системата търси документи (или техните изображения за търсене).

3. Потребителят получава резултата (информация за документи).

4. Потребителят подобрява или реформира заявката.

5. Организация на ново търсене.

От гореизложеното следва, че основните инструменти за търсене на информация в WWW са системите за търсене на информация. В интернет обаче има инструменти за търсене, които имат фундаментални разлики от обсъжданите. IN общ случай, могат да се разграничат следните инструменти за търсене на WWW:

- търсачки;

- метатърсачки;

‒ програми за ускорено търсене.

Централното място по право принадлежи на търсачките, които от своя страна са разделени на директории, автоматични индекси (търсачки) и индексни директории. Само търсачките почти напълно притежават възможностите и свойствата на системите за търсене на информация.

Каталог– търсачка със списък от анотации, класифицирани по теми с връзки към уеб ресурси. Класификацията обикновено се извършва от хора.

Търсачка– система за търсене с генерирана от робот база данни, съдържаща информация за информационни ресурси.

Метатърсачка– система, която няма собствен индекс, способна да изпраща потребителски заявки едновременно до няколко сървъра за търсене, след което да комбинира получените резултати и да ги представя на потребителя под формата на документ с връзки.

Програма за ускорено търсенее програма с възможности за метатърсачка, която е инсталирана на вашия локален компютър.

Основната разлика между системите за метатърсене и програмите за ускорено търсене от системите за извличане на информация е липсата на собствен индекс. Но те са отлични в използването на резултатите от други търсачки.

Нека да разгледаме характеристиките на системите с директории.

Търсенето в каталога е много удобно и се извършва чрез последователно изясняване на теми. Въпреки това директориите поддържат възможността за бързо търсене на конкретна категория или страница с помощта на ключови думи с локална търсачка. Базата данни с връзки (индекс) на директорията обикновено има ограничен обем и се попълва ръчно от персонала на директорията. Някои директории използват автоматична актуализацияиндекс. Резултатът от търсенето в каталога е представен като списък, състоящ се от Кратко описание(анотации) на документи с хипертекстова връзка към първоизточника. Сред най-популярните чуждестранни каталози можем да споменем:

‒ Yahoo (www.yahoo.com),

‒ Магелан (www.mckinley.com),

‒ Руски каталози:

‒ @Рус (www.atrus.ru)

‒ Уеблист (www.weblist.ru)

‒ Constellation Internet (www.stars.ru).

Отличителна черта на търсачките е фактът, че базата данни, съдържаща информация за уеб страници, статии в Usenet и др., се генерира от програма робот. Търсенето в такава система се извършва по заявка, съставена от потребителя, състояща се от набор от ключови думи или фраза, оградена в кавички. Индексът се генерира и поддържа актуален чрез индексиращи роботи. За да стесните областта за търсене, можете да сортирате съдържанието на индекса по категория. Обикновено търсачките поддържат два режима: прост режим на търсене И режим на разширено търсене .

Нека разгледаме обобщените възможности за формиране на заявка в режим на просто търсене. Можете просто да въведете една или повече думи, разделени с интервал; търсенето на думи с всички възможни окончания се моделира със символа * в края на думата. Много системи ви позволяват да търсите фрази или фрази; за да направите това, трябва да го поставите в кавички. Възможно е задължително включване или изключване на определени думи. Основният проблем при търсене с помощта на примитивно съставена заявка (под формата на списък с ключови думи) е, че търсачката ще намери всички страници, на които посочените думи се появяват във всяка част от документа. По правило броят на намерените страници ще бъде твърде голям. За да подобрите качеството на търсенето в режим на просто търсене, е допустимо да използвате логически оператори и оператори, които ви позволяват да ограничите областта за търсене, както и да изберете конкретна категория документи от представения списък.

Повечето търсачки използват следното като оператори, които установяват връзки между ключови думи:

‒ И (И) &– задължителното присъствие на всички ключови думи;

‒ ИЛИ (ИЛИ) |– наличието на поне една от ключовите думи;

‒ НЕ (НЕ)!– липса на ключова дума;

‒ БЛИЗО ~– определен интервал между ключовите думи.

Много търсачки включват специални оператори в своя език за заявки, които ви позволяват да търсите в определени области на документ, например в заглавието му, или да търсите документ по известна част от неговия адрес. Интересна опция е да търсите документи в мрежата, които препращат към страница с URL адрес, който сте посочили. По този начин можете да намерите страници в Интернет, които имат връзки към вашия уеб сайт. Някои системи ще ви позволят да ограничите областта за търсене в рамките на определен домейн.

Допълнителните специални оператори включват:

‒ Оператори за търсене на документи с определен графичен файл;

‒ Оператори, ограничаващи датата на търсените страници;

‒ Оператори за близост между думите;

‒ Word form счетоводни оператори;

‒ Оператори за сортиране на резултатите (по уместност, свежест, старост).

Трябва да се отбележи, че днес няма стандарт за броя и синтаксиса на поддържаните оператори за различни търсачки. Следователно потребителят, когато влиза в определена търсачка, трябва преди всичко да се запознае с нейните правила за съставяне на заявки. По правило на началната страница ще има връзка за помощ, която ще ви отведе до помощна информация.

Разширен или подробен режим на заявка в различни системиимплементирани индивидуално, но най-често това е форма, в която споменатите оператори и ключови елементи се имплементират чрез просто поставяне на отметки в съответните квадратчета или избиране на параметри от списък.

Нека разгледаме начините за представяне на резултатите от търсенето търсачки. Най-често броят на намерените документи надхвърля няколко десетки, а в някои случаи може да достигне стотици хиляди! Следователно, като форма на издаване, се съставя списък с документи от 5-10-15 единици на страница с възможност за преминаване към следващата част в долната част на страницата. Заглавието и URL (адресът) на намерения документ трябва да бъдат посочени, понякога системата показва степента на релевантност на документа като процент.

Описанието на документа най-често съдържа първите няколко изречения или откъси от текста на документа с подчертани ключови думи. Като правило се посочва датата на актуализиране (проверка) на документа, неговият размер в килобайти; някои системи определят езика на документа и неговото кодиране (за рускоезични документи).

Какво можете да направите с получените резултати? Ако заглавието и описанието на документа отговарят на вашите изисквания, можете незабавно да отидете до неговия оригинален източник, като използвате връзката. По-удобно е да направите това в нов прозорец, за да можете допълнително да анализирате резултатите от търсенето. Много търсачки ви позволяват да търсите в намерените документи и можете да прецизирате заявката си, като въведете допълнителни термини. Ако интелигентността на системата е висока, може да ви бъде предложена услугата за търсене на подобни документи. За да направите това, избирате документ, който особено харесвате, и го насочвате към системата като модел за следване. Автоматизирането на определянето на сходство обаче е много нетривиална задача и често тази функция не работи според очакванията. Някои търсачки ви позволяват да пресортирате резултатите. За да ви спести време, можете да запазите резултатите от търсенето си като файл на вашия локален диск за по-късно изучаване офлайн.

Най-популярните търсачки в чужбина и Русия.

Чужди търсачки:

Google www.google.com

Алтависта www.altavista.com

Excite www.excite.com

HotBot www.hotbot.com

Северно сияние www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Бърз www.alltheweb.com

Руски търсачки:

Yandex www.yandex.ru (или www.ya.ru)

Рамблер www.rambler.ru

Апорт www.aport.ru

Беларуски търсачки:

Система 09 www.09.open.by

Търсачката Unibel http://search.unibel.by

Система *.BY http://search.promedia.minsk.by/

Беларуски интернет каталог Akavita http://akavita.kryvia.net/

Моля, имайте предвид, че различните търсачки описват различен брой източници на информация в Интернет. Следователно не можете да ограничите търсенето си само до една от посочените търсачки.

Сега нека се запознаем с инструментите за търсене, които не създават собствен индекс, но могат да използват възможностите на други търсачки. Това са метатърсачки (услуги за търсене)

– системи, които могат да изпращат потребителски заявки до няколко сървъра за търсене едновременно, след което да комбинират получените резултати и да ги представят на потребителя под формата на документ с връзки.

Ето адресите на известните метатърсачки.

MetaCrawlerwww.metacrawler.com

SavvySearchwww.savvysearch.com

И накрая, нека да разгледаме последния инструмент за търсене в списъка - програми за ускорено търсене.

Програма за ускорено търсенее програма, инсталирана на компютъра на потребителя и способна на:

‒ изпращайте заявки до няколко сървъра за търсене;

‒ сортиране на резултатите от търсенето по уместност;

‒ премахване на дубликати;

‒ проверете наличността на документи в мрежата.

WebFerret, NewsFerret www.ferretsoft.com

Inforia Quest 99 http://www.inforia.com/quest

Паяк за търсене на теми (SSSpider) www.kryltech.com.

След подробно проучване на основните възможности на инструментите, нека се обърнем към проблема ефективност на търсенето .Основните параметри на ефективността на търсенето са пълнота като съотношение на броя на намерените документи към общия брой на съответните документи (т.е. намерени са всички документи, съответстващи на заявката), и точност на търсенето - съотношението на броя на съответните документи към общия брой получени документи (т.е. не е намерено нищо излишно или неуместно). Ето какво означава понятието релевантност. От не малко значение е уместността на връзките към документите, тоест текущото съществуване на документи, намерени в мрежата, и скоростта на търсене.

По този начин могат да бъдат идентифицирани следните фактори, влияещи върху ефективността на търсенето:

‒ Свойства и възможности на търсачката.

‒ Качеството на формулирането на заявката на потребителя.

‒ Как можете да оцените качеството на инструмента за търсене? Търсачките обикновено се сравняват въз основа на следните параметри:

‒ Брой индексирани страници (обем на индекса).

‒ Брой поддържани оператори.

‒ Стандартен оператор, който комбинира няколко ключови думи. Ако стандартният оператор е оператор AND, търсачката автоматично ще търси документи, в които

Всички въведени ключови думи ще присъстват. В противен случай (оператор OR) документите ще бъдат намерени с всички ключови думи и с всяка поотделно

‒ Търсене на точна фраза.

‒ Търсене на думи с различни окончания.

‒ Отчитане на словоформите. В случай на автоматичен режим на отчитане на словоформи, системата ще търси в документите думата с всички нейни промени.

‒ Чувствителност към Главна буква. Ако системата не прави разлика между главни и малки букви, резултатите от търсенето ще бъдат с по-ниско качество.

‒ Търсене на мултимедийни файлове.

‒ Форма за представяне на резултатите.

‒ Период на актуализиране на индекса. Този индикатор засяга такъв параметър като уместността на намерените връзки. Колкото по-често се актуализира индексът, толкова по-рядко ще се появяват остарели връзки в резултатите от търсенето.

‒ Забавяне преди регистрация. Този параметър показва интервала от време преди въвеждане на описанието на уеб страница в индекса след заявка от нейния автор.

Сега нека да разгледаме как най-добре да подготвим потребителя за създаване на заявка. На първо място е необходимо да се извърши цялостен лексикален анализ на информацията, която ще търсите. След това е необходимо да се състави набор от ключови думи (ако е необходимо на няколко езика) под формата на отделни термини, фрази, професионална лексика и клишета.

‒ Тестови заявки от 1-2 ключови думи или фрази.

‒ Анализ на количествения отговор.

‒ Коригиране на заявката въз основа на уместността на отговора.

Въз основа на горното можем да подчертаем следните ефективни техники за търсене:

‒ Търсене на обща информация в каталози. В директориите по правило определено ще бъдете свързани със специализирани сървъри в областта, която търсите.

‒ Търсене на тясно специализирана информация в търсачките. За извършване на по-обширно търсене ограниченият брой връзки в директориите очевидно не е достатъчен. В допълнение, тясно специализирана информация в каталозите може просто да липсва. Ето защо е необходимо да се търси в търсачки, които имат големи индекси.

‒ Използвайте оператори или формуляр за разширена заявка, за да стесните областта за търсене. За да извършите качествено търсене, трябва да се запознаете с езика на заявките на конкретна търсачка. Ефективно и по прост начинРешението на проблема със съставянето на висококачествена заявка е да се използва разширен режим на заявка.

‒ Използване на функцията за търсене в намереното. Повечето търсачки поддържат възможността за търсене в резултатите, които получават. Като правило, за да направите това, трябва да активирате специалното квадратче за отметка Търсене в намерени и да въведете допълнителни думи за повторно търсене сред страниците, намерени за заявката.

‒ Използване на търсенето на подобни документи.

‒ Използване на метатърсачки и програми за ускорено извличане на информация. За да получите общ преглед на документите, препоръчително е да използвате възможностите на системите за метатърсене или програмите за ускорено търсене. Напомняме ви, че тези инструменти за търсене изпращат вашата заявка до няколко търсачки едновременно и получават няколко от най-подходящите връзки от всяка машина.

‒ Разгледайте секцията Връзки на специализирани сайтове. Авторите на много специализирани уеб сайтове натрупват свои колекции от връзки по темата на сайта. Често ще намерите много полезни източници в тези колекции, което ви спестява времето, прекарано в самостоятелно търсене с помощта на инструментите, обсъдени по-горе.

‒ Търсене на отговори на въпроси в дискусионни групи. Ако желаете, можете да се свържете със специализирана дискусионна група с конкретен въпрос за помощ. намирам желаната групаМожете да използвате специални инструменти за търсене, които ще разгледаме по-късно.

‒ Абонамент за специализирани пощенски списъци. Като се абонирате за специален пощенски списък, можете да получавате най-новата информация по вашата тема по имейл, както и да задавате въпроси на вашите колеги абонати.

Нека обсъдим проблема с намирането на такъв източник на информация като статиите в дискусионните групи. Инструменти за търсене в този случай могат да бъдат разглежданите WWW търсачки, които индексират не само WWW пространството, но и статии в дискусионните групи и имат специален режим на търсене в този конкретен ресурс. Търсенето в дискусионни групи се поддържа например от сървъра за търсене Altavist. Трябва да се отбележи, че WWW търсачките много бързо индексират новинарски групи и съдържат информация за статии, които действително съществуват в Интернет. За търсене в новинарски архиви съществувам специализирани системи, най-известната от които е системата Deja (www.deja.com). Тази система ви позволява да търсите отделни статии, съдържащи въведения термин, както и да търсите конкретни дискусионни групи, посветени на обсъждането на дадена тема. Можете да се регистрирате в Deja и да се абонирате за определени дискусионни групи.

Сега нека да разгледаме инструментите, които ви позволяват да търсите файлове. Много търсачки

WWW започна да предоставя услуга за търсене на мултимедийни файлове (Altavista, Aport,...). За да направите това, изобщо не е необходимо да знаете специални оператори, а просто отидете от началната страница, като използвате връзките Изображения, MP3/Аудио или Видео към специален режим на търсене. Търсенето се извършва по възможно име на файл или по текст в коментар към линк към мултимедиен файл. Можете да предвидите името на файла, например файл с изображение на орел може да се нарича eagle.gif. Или познайте, че снимката на Бил Гейтс ще има съответен подпис.

Относно търсенето софтуер, в световната мрежаИма сървъри за уеб търсене с колекции от Shareware, някои от които са специализирани в търсене на софтуер за Интернет или за специфичен операционна система. Тези системи в крайна сметка ще ви отведат до определен сървър, от който можете да изтеглите желаното софтуер. Струва си да се споменат сървърите Archie, които също предоставят услуга за търсене на файлове на FTP сървъри, но използването на уеб сървъри е много по-удобно.

Нека разгледаме инструментите за търсене за намиране на адресна информация. Нека представим концепцията за бяло и жълто търсене.

Бяло търсене– търсене на адресна информация, като се използва предварително известното собствено име на адресата (име на лице или организация)

Жълто-търсене– потърсете собственото си име, като използвате допълнителни характеристики (по вид дейност, географски характеристики), след което потърсете информацията за неговия адрес.

Обикновено системите Yellow Pages всъщност незабавно включват White Pages - намереният адрес се вижда веднага с неговия телефонен номер и пощенски адрес. В допълнение, някои жълти страници ви позволяват просто да търсите в азбучен списък на техните абонати (бяло търсене). От друга страна, белите страници също съдържат жълти елементи за търсене - в допълнение към посочване на собственото ви име, те обикновено ви позволяват да посочите името на града, щата и други данни, които стесняват търсенето (което е необходимо в случай на много съименници). Може би това е причината много онлайн телефонни указателикоито всъщност извършват бели търсения, наричат себе си Жълти страници.

Ето адресите на уеб системи за търсене на адресна информация за хора и организации.

Търсене на хора:

‒ Търсене на хора в Yahoo (http://people.yahoo.com).

‒ Система WhoWhere (www.whowhere.com).

‒ Система Bigfoot (www.bigfoot.com).

Търсене на организации:

‒ Раздел Жълти страници на търсачките

‒ специализирани сървъри

‒ www.yellowpages.com – за търсене в САЩ и други страни

РАБОТА С ПОЩЕН КЛИЕНТ

Както бе споменато по-горе, едно от приложенията на Интернет е обменът на информация.

Нека разгледаме основните средства за обмен на информация, достъпни чрез глобалната мрежа:

електронна поща, което ви позволява да изпращате много бързо имейликъм електронните адреси на интернет потребителите.

Пощенски списъци, за който можете да се абонирате, да харесате списание и след това периодично да получавате подбрани статии по дадена тема по имейл. Впоследствие можете да изпращате вашите съобщения до всички абонати.

Дискусионни групи, които ви позволяват да публикувате съобщения въз основа на интереси на специални сървъри в мрежата. Съобщенията могат да се четат, като се свържете със сървъра и изберете тема за себе си. Освен това, ако желаете

Изключително популярен ресурс е IRC , който служи за директна комуникация между група хора в реално време чрез въвеждане на текст от клавиатурата и веднага излизане на обща дъска.

Разработено специални програмиза комуникация в реално време, което позволява след установяване на връзка да предава текст, въведен от клавиатурата, както и звук, вашето изображение и всякакви файлове. С помощта на тези програми можете да организирате работим заедноотдалечени потребители с програма, работеща на локалния компютър.

‒ С помощта на специално оборудване и софтуер можете да провеждате аудио и видео конференции чрез интернет, тоест да предавате звук и изображение от един към много.

‒ Интернет има свои собствени системи за пейджинг, където можете да се регистрирате и да получите своите личен номер. Познавайки личния номер на друго лице, можете да му изпратите съобщение чрез централния сървър на услугата за пейджинг с предложение за установяване на връзка и комуникация. Най-популярната система за пейджинг в Интернет е системата

‒ Интернет телефонията е система, която ви позволява да провеждате разговор в реално време през интернет.

Нека стигнем до повече Подробно описаниесредства за обмен на информация в Интернет. Нека започнем с най-старото средство за мрежова комуникация, наречено имейл. Нека въведем определението:

електронна поща– средство за обмен на информация, подготвена в електронен вид между хора с достъп до компютърна мрежа.

Основните области на приложение на електронната поща са водене на лична кореспонденция и работа с някои информационни ресурсиИнтернет, като пощенски списъци, офлайн новинарски групи и системи за прехвърляне на файлове по електронна поща. Разбира се, като имате възможност за онлайн свързване към интернет, е по-удобно да използвате всеки FTP клиент или програма за изтегляне на файлове, за да копирате файлове. Въпреки това, понякога за потребители, които имат метод на свързване, използващ протокола UUCP, единственият начин да получат файл от FTP сървър е да го поръчат по пощата, използвайки специална услуга за електронна поща. В допълнение, пощенската система не изисква вашето абсолютно присъствие в Интернет, така че възможността да получавате архив с приличен размер с програма по електронна поща понякога е по-удобна дори за потребители, които имат пълен достъп до всички интернет ресурси.

Как се прилага клиент/сървър технологията в случай на имейл. Сървърната част е представена от пощенски сървър.

Пощенски сървър– програма, която препраща съобщения от пощенски кутии към други сървъри или към компютъра на потребителя по искане на неговия имейл клиент. На мейл сървъра се създават пощенски кутии за потребители с конкретно потребителско име и парола за достъп.

Клиентската част на услугата е представена от имейл клиент. Пощенски клиент (mailer) е програма, която помага за съставяне и изпращане на електронни съобщения, получаване и показване на писма на компютъра на потребителя.

Работата с пощата може да се извършва офлайн. Това означава, че за да получавате и изпращате поща в определеното време, вие установявате връзка с доставчика. След това давате командата на вашите пощенски клиент, чрез който се свързва с вашия пощенски сървър, изпраща подготвени писма и взима от локален компютърсъобщения, получени през изминалия период до вашия Пощенска кутия. Можете да пишете писма и да четете съобщения, получени от сървъра в офлайн режим, тоест без интернет връзка.

Сега нека да разгледаме пощенските протоколи.

Една от опциите за свързване с интернет е свързването с помощта на UUCP протокола. UUCP (протокол за копиране от Unix към Unix) се използва за прехвърляне на информация през компютърни мрежи преди много време, преди изобретяването на протокола TCP/IP. UUCP (протокол за копиране от Unix към Unix) – остарял протокол за предаване на информация през компютърни мрежи. По това време единственото средство за комуникация беше имейлът, който се предаваше чрез споменатия протокол, чието предимство е неговата непретенциозност към компютърните ресурси, параметрите на модема и качеството телефонна линиякомуникации. Днес протоколът UUCP е безнадеждно остарял, той не принадлежи към интернет протоколите, тоест не се основава на TCP/IP. Струва си обаче да се спомене програмата-

клиент, разработен от руски програмисти специално за работа с поща, използвайки този протокол - програма, работеща под контрола

1 ОБЩИ ПРИНЦИПИ ЗА ОРГАНИЗИРАНЕ НА ТЪРСЕНЕ НА ИНФОРМАЦИЯ В ИНТЕРНЕТ

1.1 Търсене на информация в Интернет: стратегия и методология

Търсенето на информация е една от най-честите и в същото време най-трудните задачи, с които се сблъсква всеки потребител в Интернет. Причината за трудностите, които възникват при търсене на информация в интернет, се определя от два основни фактора. Първо, броят на източниците в Интернет е изключително голям. Второ, масивът от информация в Интернет е не само колосален по обем, но и изключително динамичен. За половин минута, която прекарваме в четене на първите редове на този раздел, около сто нови или променени документа ще се появят във виртуалната вселена, десетки ще бъдат преместени на нови адреси, а няколко ще престанат да съществуват завинаги.

Необходимостта и важността на проблема за извличане на информация доведе до формирането на цяла индустрия в самия Интернет, чиято задача е именно да подпомага потребителя при неговата навигация във виртуалното пространство. Тази индустрия се състои от специални услуги за търсене или услуги. Условно те могат да бъдат разделени на директории (директории) и търсачки (търсачки).

Тези разновидности са много сходни на външен вид, тъй като всяка директория по правило има своя собствена търсачка и всяка търсачка има своя собствена директория. Принципите на тяхната работа обаче се основават на напълно различни подходи и технологии. Всеки от тези инструменти има определени предимства, като основната разлика между тях е човешко участие/неучастие. Търсачките пускат софтуерни „паяци“ в мрежата, които пътуват от страница на страница и индексират пълния текст на всяка страница. Директориите се формират от човешки редактори, които четат страници, отсяват неподходящите и класифицират възлите по теми. Освен това всеки тип услуга за търсене се използва за решаване на конкретен тип проблем. Правилният изборИнструментът до голяма степен определя стратегията на търсенето и в крайна сметка резултата от търсенето.

Приготвяме се да започнем извличане на информацияв интернет винаги трябва да помните няколко основни момента. Първо, никакви средства за навигация - каталози или търсачки - не покриват целия актуален информационен масив на Интернет. Според някои оценки дори такива признати лидери в онлайн търсенето като Google отразяват не повече от една трета от общото съдържание на мрежата. Причината за това е постоянното колосално нарастване на обема на информацията в Интернет, която въпреки всички усилия на навигационните услуги съдържа огромен брой слепи петна.

В допълнение към бързия растеж и промяна в местоположението на документите, повечето търсачки имат вътрешни ограничения за отразяване на материали от един сайт и за обема на индексираната част от страницата. Роботизираните програми често не навлизат по-дълбоко в сървъра извън определена директория, което също намалява броя на отразените материали.

В същото време много големи сайтове имат собствена система за търсене, която отразява целия им информационен масив. След като идентифицирате такива сървъри с помощта на директории, можете да извършите по-подробно изследване на тях с помощта на локален механизъм за търсене. По този начин, за да се постигнат най-пълни резултати, директориите и търсачките трябва да се използват в комбинация помежду си.

Има и редица Общи изискванияза дейности по търсене, спазването на които повишава ефективността и спестява време, прекарано в търсене на данни.

1. За да търсите материали по изключително тясна, специфична тема, трябва да започнете с каталози.

2. За да получите по-пълни резултати за сложна заявка, се препоръчва да извършите търсене поотделно във всяка търсачка. Търсачките имат голямо разнообразие в отразяването на документи и тяхното последователно използване значително разширява обхвата на материала.

3. Когато търсите документи за определена държава или на определен език, трябва да се даде предпочитание на национални/регионални инструменти за търсене.

4. Заявката трябва да бъде генерирана възможно най-точно, като се използват всички възможности на механизма за генериране на заявки. Времето, изразходвано за подробна компилация на инструкции за търсене, се изплаща при анализиране на резултатите от търсенето. При прецизно формиране на заявката процентът на информационния шум ще бъде много по-малък.

При систематичен достъп до инструменти за търсене е необходимо постоянно да се следят новини, свързани с услугата за търсене. Като цяло в заобикалящия ни свят и още повече в дигиталния свят няма нищо вечно. Всяка търсачка преминава през периоди на раждане, просперитет и упадък. Не се страхувайте да спрете да използвате любимата си, но остаряла търсачка и да преминете към нови инструменти за търсене, които имат по-голяма ефективност.

1.2 Търсене с помощта на директории

1.2.1 Принцип на действие, предимства и недостатъци на каталозите

Директориите са пионерите на уеб навигацията. Каталогът представя данни, структурирани по теми под формата на йерархични структури. При зареждане на каталога на екрана се показва най-общия списък от области на човешката дейност: ИЗКУСТВО, ОБРАЗОВАНИЕ, БИЗНЕС, НАУКА, ИГРИ, СПОРТ и др. Директориите имат йерархична структура, тоест потребителят, влизайки във всеки раздел от директорията, последователно вижда все по-подробни подробности. Повечето директории са създадени от автори, добавящи уеб страници на техния сайт към съществуващ списък с връзки.

Директориите за търсене се създават ръчно, т.е. информацията се въвежда в тях от хора. Висококвалифицирани редактори лично преглеждат информационното пространство на WWW, избират това, което считат за обществено интересно, и го въвеждат в каталога. Благодарение на „човешкия“ фактор, информацията в каталозите е организирана доста ясно, което в някои случаи ви позволява да постигнете желания резултат по-бързо от използването на търсачките. Основният проблем на директориите за търсене е изключително ниската степен на покритие на WWW ресурсите. само най-добрите страници. Следователно намирането на доста специфична информация в каталога често е много трудно.

В допълнение към основните раздели, много директории имат допълнителни, в които сайтовете са класифицирани на различен принцип: регион, държава; азбука; популярност.

Особеността на каталозите е, че те са по-ефективни при търсене на колекции от информация по определена обща тема, например „профсъюзно движение“, „редакции на вестници в Урал“, отколкото при търсене на отговор на конкретен въпрос!

Директориите могат да бъдат:

· универсални, които ви позволяват да търсите по различни теми. Информацията е групирана в секции. Всеки раздел има няколко подраздела. Например www.ru, referal.ru, www.freedom.ru.

В Windows всяко DOS приложение има собствено ръководство за потребителя, което изисква всяко приложение да се изучава отделно. 2 ОСНОВНИ ТЕХНИКИ ЗА ТЪРСЕНЕ НА ИНФОРМАЦИЯ В ИНТЕРНЕТ 2.1 Основни изисквания за търсене Към резултатите от търсенето се прилагат изисквания за пълно покритие на ресурсите, достоверност на получената информация, минимални разходивреме и максимална скорост на търсене. ...

Информация, използваща специални тематични секции (предметни каталози) в търсачките. Този метод за търсене на информация в Интернет се осъществява чрез разглеждане на библиотечния каталог. Например, ако трябва да намерите информация за изчисляването на амортизацията на дълготрайни активи, трябва да се обърнете към раздела „Счетоводство“. В него изберете секцията "Дълготрайни активи". А в раздел "Дълготрайни активи" -...

Използване на квадратчетата за отметка, разположени на тази страница. Системата има и възможност за следване на връзки. ГЛАВА 2. СЧЕТОВОДНО ОТЧИТАНЕ НА РАЗРЕШЕНИЯ И ТЕКУЩИ ЗАДЪЛЖЕНИЯ С КУПУВАЧИ И КЛИЕНТИ Когато търсите информация по темата „Счетоводно отчитане на текущи задължения и разплащания с купувачи и клиенти“, търсачки като http://www.altavista.com, http:/ /www.aport.ru, http:// ...

Образователни ресурси www.spb. osi.ru/ic/distant Дистанционно обучениев Интернет www.examen.ru Изпити и тестове www.kbsu.ru/~book/ Учебник по информатика Мега. km.ru Енциклопедии и речници Търсене на информация в Интернет: клопки Проблемите, които не лежат на повърхността, често се усещат само „ретроспективно“, след определен етап издирвателна работазавършен и...

Паметта на компютъра съдържа информация, съхранена като поток от данни. Информацията може да бъде логически организирана във файлове, със записи във файлове и отделни елементи в записи. Когато файловете са организирани по този начин в база данни, всеки запис съдържа идентификационен етикет или ключ. Това може да е кодов номер, име или дата.

При търсене на запис компютърът директно или последователно, в зависимост от това как се съхраняват данните, извиква елементите от данни и проверява дали те съдържат желания ключ. Ако данните се съхраняват на лента, файловете се организират последователно; Ако данните се съхраняват на диск или твърд диск, данните могат да бъдат достъпни както директно, така и последователно.

Програма за търсене на основна информация.Когато ключът отвори запис, компютърът сканира паметта и показва записа.

Данни, съхранявани на магнитни дискове

пътеки магнитен дисксъхраняват не само данни, но и адреси на данни, което позволява на компютъра директен достъп до информация. В извикването на изображението по-долу адресите на данните са записани в областта за преброяване, а съдържанието на ключовите елементи в областта на ключа.

Програма за търсенесветва при въвеждане на ключа. Във файлове с директна организация програмата за търсене открива адреса на данните от ключа, получава информацията и нарежда операционна системачетете данни.

Екран с информация за търсенепозволява на оператора да получава информация чрез просто избиране на елемент от меню, без да използва клавиш.

HDDсе състои от няколко кръгли плочи, сглобени на една ос. Цилиндърът е съставен от писти, всяка от които заема едно и също място на всяка плоча. Цилиндрите са номерирани отвън навътре, а следите на цилиндрите са номерирани отгоре надолу. Така адресът на един елемент от данни ще бъде цилиндър xx, писта yy.

Как се извършва търсенето

1. Последователно търсене.

Компютърът сканира данните в строг ред. как повече количестводанни, толкова по-ниска е ефективността на този метод.

2. Директно търсене.

Местоположението на желаните данни се намира с помощта на ключ. Следователно данните трябва да се съхраняват в ключовата област.

3. Двойно търсене.

Данните трябва да бъдат организирани в същия ред като ключовете. Търсенето започва с проверка на средните данни, за да се определи дали желаните данни са под горния или долния клавиш. Това стеснява търсенето наполовина.

Въведение. - 4

1. Система за търсене на информация. - 5

1.1. Документографски IPS. - 6

1.2. Фактически IRS. - 8

2. Търсачка на глобалния интернет. - 9

2.1. Как работят търсачките. - 9

2.2. Технология за търсене. - 14

3. Търсачки на глобалната Интернет. - 18

3.1. Как да търсим в интернет - 18

3.2. Търсене в директории. - 21

3.3. Индекси за търсене. - 23

4. Сравнителна характеристика на две търсачки

системи, базирани на Rambler.ru и Yandex.ru. - 29

4.1. Rambler.ru - 29

4.2. Yandex.ru. - 35

Заключение. - 40

Литература. - 42

Приложение. - 43

Въведение

Интернет направи живота по-лесен по много начини. модерно общество, глобализира го, увеличи възможностите на някои хора и намали възможностите на други. Днес е много по-удобно и изгодно да използвате пощенски услуги чрез интернет (например писмо от Тоболск до Лондон ще стигне до Лондон за 5 секунди).

Според моите наблюдения Интернет се превърна в източник на бизнес, източник на световна култура, източник на образование и средство за масова комуникация.

Днес всеки потребител в Интернет може да получи достъп до всички световни фондови борси и музеи за няколко секунди. Всеки потребител може да се образова чрез Интернет и да се запознае с водещите световни електронни вестници.

Информацията се превърна във виртуалното злато на нашите дни и тези, които могат да я получат по-бързо, ще постигнат по-бърз и по-голям успех. И без значение кой сте, бизнесмен, който търси нов пазар, или студент, който търси материал за курсова работа, и двамата се нуждаят от информация и Интернет може да им я даде, ако имат достатъчно знания, за да я приемат.

Ще ми отнеме много време да изброявам ползите от интернет за гражданите на Земята, но се страхувам, че няма да свърша скоро.

Искам да отбележа основното нещо в Интернет, неговият „крайъгълен камък“, това е информацията и нейните основни свойства:

1) Широка наличност

2) Скорост

Неопитните потребители имат мит, че Интернет има всичко. Всъщност моят опит в Интернет доказа, че това не е така. Материалите за публикуване в Интернет се подготвят от живи хора и затова можете да намерите там само това, което те смятат за необходимо (в смисъл на полезно или полезно за себе си) да публикуват. Реката обаче се захранва от потоци и благодарение на тяхната креативност днес в интернет вече са се оформили около два милиарда уеб страници. В резултат на това каталогизирането на наличните в мрежата ресурси се превърна в сериозен проблем. Въпреки факта, че хиляди организации работят по него, проблемът не само не е по-близо до разрешаването му, но и става все по-остър. Процентът на каталогизираните (или индексираните) ресурси постоянно намалява. През последните две години този спад стана катастрофален. Така че, ако през 2000 г. процентът на индексираните ресурси е бил близо 40%, то само за една следваща година той е спаднал до 25%. Изводът е прост: уеб пространството се запълва по-бързо, отколкото се систематизира. За съжаление, интернет специалистите нямат причина да вярват, че нещо ще се промени към по-добро в близко бъдеще. В резултат на това търсенето на информация в световната мрежа може да се счита за най-трудната задача в интернет.

Във връзка с горното, висококачественото търсене на информация в Интернет е една от най-належащите теми в нашето време, този проблем ме е засягал повече от веднъж.

Темата на моята курсова работа ме заинтересува поради своята оригиналност и новост и искам да се опитам да я разкрия. Моята задача ще бъде да организирам ефективно търсене на информация в Интернет.

1. Система за търсене на информация

Преди да стигнете до конкретни механизми за търсене в Интернет, е необходимо да разберете теоретична основавъпроси като "какво е информация?", "Информационни процеси?", "Система за търсене на информация и нейните видове?".

Няма ясен отговор какво е информация; можем само да дадем някои от свойствата, които характеризират този термин:

" Информация - това е информация, която е обект на съхранение; това е съдържанието на съобщението, сигнала, паметта, както и информацията, съдържаща се в съобщението, сигнала, паметта."

Процесите на предаване, съхранение и обработка на информация винаги са играли важна роляв живота на обществото. Хората обменят устни съобщения, бележки, съобщения. Те си предават молби, заповеди, отчети за свършената работа, описи на имуществото; публикувайте реклами и научни статии; пазете стари писма и документи; Дълго обмислят новините, които получават, или веднага бързат да изпълнят инструкциите на началниците си. Всичко това - информационни процеси. Информацията винаги е свързана с материален носител, а предаването му изисква енергия. Една и съща информация обаче може да се съхранява в различни материални форми (на хартия, под формата на фотонегатив, на магнитна лента, ...) и да се предава с различни енергийни разходи (по пощата, по телефона, по куриер и др. ), Освен това последствията - включително материални - от предадената информация са напълно независими от физическите разходи за нейното предаване. Например, с леко натискане на бутон се спуска тежка театрална завеса или се взривява голяма сграда, червен светофар спира влак, а неочакваната неприятна новина може да причини инфаркт. Следователно информационните процеси не могат да бъдат сведени до физически, а информацията, наред с материята и енергията, е една от основните единици на заобикалящия ни свят. През 20 век С развитието на технологиите се появиха нови устройства: комуникационни средства, устройства за автоматизация, а от 40-те години на миналия век. - компютърна технология. Оказа се, че ефективността на тяхната работа не може да се опише с физически концепции и че основните характеристики на такива устройства трябва да бъдат описани по съвсем различни начини. В резултат на това за първи път възниква точното понятие за информация и математическата теория на информацията. Стана ясно, че средствата за комуникация, независимо какви физически процеси използват, са средства за предаване на информация. Комбинацията от понятията „информация“ и „управление“ доведе Н. Винер през 40-те години. до създаването на кибернетиката, която по-специално за първи път посочи общността на информационните процеси в технологиите, обществото и живите организми.

Използването на концепцията за информация има значително влияние върху развитието на съвременната биология, особено нейните клонове като неврофизиология и генетика. И накрая, във връзка с развитието на компютърните технологии, които стимулират информатизацията на цялото общество, възниква комплекс от науки за различни аспекти на работата с информация - компютърни науки.

" Система за търсене на информация - това е система, в която се съхранява информационен масив, от който се предоставя необходимата информация според изискванията на потребителя."

Търсенето на информация по искане на потребителя се извършва автоматично или ръчно (както в библиотеките, когато читателят прави заявка до служителя на референтната колекция и служителят използва каталожната система). Във втория случай се използват компютри, оборудвани със специален софтуер, който анализира процесите на заявки, търсения и издаване необходими документи. По този начин системите за търсене на информация (IRS) реализират връзка въпрос-отговор, което доближава задачите, пред които са изправени създателите на такива системи, до задачите, които се решават от създателите на системи човек-машина.

Системите за извличане на информация са разделени на два вида:

1. Документографски IRS.

2. Фактически IRS.

1.1 Документографски IRS

В такава система за търсене на информация всички съхранявани документи се индексират по някакъв специален начин. На всеки документ (статия, доклад, протокол и др.) се присвоява индивидуален код, който съставлява изображението за търсене на документа. Търсенето е в ходне от самите документи, а от техните изображения за търсене, които съдържат информация (адрес) за местоположението на документа. Така се търсят книгите по поръчка на читатели в големите библиотеки (в малките библиотеки обикновено библиотекарят сам търси книги). По желание на читателя те първо намират карта в каталога, а след това с кода, посочен на нея, се намира самата книга.

Разликите между документографските системи за извличане на информация се определят от това как е структурирано изображението за търсене на документа. В най-простия случай това е просто индивидуалното му име (например заглавие, автор, година на издаване на книгата). В по-сложни случаи няма едно към едно съответствие между търсеното изображение на документа и самия документ. Напълно възможно е изображение за търсене на документ да съответства на няколко различни документа и, обратно, един и същ документ да съответства не на едно, а на няколко изображения за търсене.

Например изображенията за търсене на документи в дескрипторните системи имат такава неяснота. "Дескрипторът е дума или фраза, тясно свързана със съдържанието на документ. Набор от дескриптори дефинира група от документи с подобно съдържание." Напоследък списанията, публикуващи научни статии, изискват от авторите си да предоставят списък с ключови думи за всяка статия, които служат като дескриптори. Ако, например, опишете статията, която четете, като използвате ключови думи, тогава един от възможните списъци ще бъде следният: извличане на информация, система за извличане на информация, дескриптор, тезаурус, изображение за търсене на документ.

Използвайки набор от тези ключови думи (набор от дескриптори), можете да намерите тази статия сред всички статии в книгата, ако въведете нейното съдържание статия по статия във всеки IRS от дескрипторен тип.

Общата блокова схема на дескриптора тип IPS е показана на фиг. 1. Тази схема има два входа. Информационният масив от документи, съхранявани в системата, се попълва един по един, а вторият получава потребителски заявки.

1.2 Фактически IRS

За разлика от документно-графичните информационни системи, информационните системи от този тип съхраняват не документи, а факти, свързани с всяка предметна област. Съхранените факти могат да бъдат извлечени от различни документи. Например, необходимо е да се преработи историята на осемнадесети век в база данни с факти, те са свързани помежду си чрез система от различни взаимоотношения. Такава мрежа в IRS се нарича тезаурус на предметната област. Запитванията, получени от системите за извличане на фактическа информация, използват тезаурус, за да намерят отговори на запитвания. Търсенето се извършва с помощта на метод за търсене, подобен на този, широко използван в базите знания на системите с изкуствен интелект.

Например, необходимо е да се преработи историята на осемнадесети век и да се събере цялата информация за Екатерина II.

IRS от фактически тип постепенно се доближават по своята организация и функциониране към развитите бази данни и знания.

2. Търсачка на глобалния интернет.

Не искам да влизам в плевелите вътрешна работатърсачка (на електронно ниво), т.к това не отговаря на целите на моята работа, а според мен това е работа на програмисти Най-високо нивокъм което се стремя сега.

Искам да разглобя и изложа в подробности как започнах да разбирам технологията за извличане на информация и самия механизъм за извличане на информация.

2.1 Технология за търсене на информация в Интернет

Самата технология за търсене става по-разбираема на фиг. 2.

1) Като начало потребителят решава следния проблем: какво иска да намери и къде може да се намира.

2) След това отива в интернет, в обикновен прозорец на Internet Explorer (браузър) (Фиг.-3). Ако потребителят знае името на сайта, където се намира информацията, която го интересува, той просто съобщава името му и отива на него.

Пример. Потребителят иска да разбере за разпространението на филми днес и отива на уебсайта film.ru (фиг. 3).

Това е най-примитивният начин за търсене на информация в интернет и търсенето може да свърши дотук.

информация за филм, който беше пуснат преди много време, например, за да намерите филма „Брат-2“, е достатъчно в прозореца

Често, заедно с връзка, може да се покаже кратка информация за документа. Ако сред намерените документи няма необходими, тогава може да се покаже следващата група - общият брой документи обикновено е в хиляди. За да отидете на сървъра, където се намира намерената информация, просто щракнете върху връзката в резултата от търсенето.

Това е най-примитивният начин за търсене на информация в интернет и търсенето може да свърши дотук.

Съществуват и системи за вътрешно (локално) търсене на сайта.

Пример. В същия film.ru е възможно да се види

информация за филм, който отдавна не е по кината, до

Например, намерете филма "Брат-2", точно в прозореца

търсене въведете думата Brother-2 (Фигура-3)

3) Ако потребителят не знае името на сайта, където може да намери информацията, която го интересува, тогава той прибягва до помощта на някоя търсачка. Има значителен брой хора, които работят онлайн помощни системи. След достъп до посочения сървър, той ще получи на екрана формуляр за заявка, в който трябва да въведе информация за търсенето. Обикновено във формата е възможно да се ограничи областта за търсене (например по тема). Той може да въведе желания термин, да определи областта за търсене и да се опита да получи отговор.

Търсенето се извършва автоматично въз основа на броя думи, намерени на сървъра. Първата група от намерени връзки с най-добри показатели по отношение на броя на намерените срещания на търсените думи ще бъдат прехвърлени на неговия компютър. Често, заедно с връзка, може да се покаже кратка информация за документа. Ако сред намерените документи няма необходими, тогава може да се покаже следващата група - общият брой документи обикновено е в хиляди. За да отидете на сървъра, където се намира намерената информация, просто щракнете върху връзката в резултата от търсенето.

Обикновено търсенето на двойка ключови думи ще доведе до десетки хиляди връзки към документи, съдържащи тези термини. Такъв обем от резултати рядко позволява ефективно намиране на „перла“ сред материали, които не са свързани с темата на търсенето. Какво можете да препоръчате?

Първо, потребителят трябва да стесни областта за търсене. Опитайте се да определите на кой профил сървъри, в коя държава и т.н. най-вероятно можете да намерите материалите, които ви интересуват. Помислете какви други ключови думи могат да характеризират обектите за търсене, използвайте няколко ключови думи.

Ако обектът за търсене указва няколко термина, тогава търсачката търси всяка дума в документа независимо. Тоест резултатът от търсенето може да доведе до документ, който съдържа само една дума, но няколко пъти. Следователно, когато дефинирате термините за търсене, можете и трябва да използвате логически операции.

Например, въвеждането на word_1&word_2 ще ви принуди да търсите онези страници, където се използват както първият, така и вторият термин.

Второ, необходимо е да се извърши търсене във всички известни търсачки. Всеки от тях използва своя собствена, малко по-различна технология за търсене. Следователно напълно сходни търсения могат да доведат до различни резултати. Повечето търсачки са безплатни, така че нищо не ви пречи да извършвате толкова търсения, колкото са ви необходими.

Трето, много често резултатът може да бъде получен чрез търсене на документи въз основа на възможни връзки към тях.

Потребителят трябва да се опита да определи кои известни документи могат да съдържат препратки към неговите теми. И чрез хипертекстови връзки в документите, достигайте до желания източник. Често този начин е ефективен. Опитайте се да намерите организации (WWW сървъри), които имат профил, подобен на темата за търсене. Понякога чрез връзки в документите на тези сървъри можете да получите достъп до необходимите материали.

Четвърто, опитайте се да намерите конференция на подобни теми, т.е. просто отидете на някой ЧАТ. Например в www.anekdotov.net.ru. Често въпрос, "хвърлен" в дискусионна група, ще предостави достатъчно основна информация.

И накрая, не забравяйте да попитате приятелите си. Те могат да предложат неочаквано решение.

Във всеки случай трябва да сте подготвени за факта, че търсенето може да отнеме доста дълъг период от време и да изисква значителни усилия.

Пример. Потребителят влиза в търсачката Yandex.ru и в прозореца за търсене въвежда думата Brother-2, след което се извършва търсене на всичко, което по някакъв начин може да бъде свързано с тази дума. Yandex ще препоръча да се обърнете към много сайтове, включително film.ru и директно към сайта за самия филм. (Фиг.-4)

2.2 Как работят търсачките

Търсачката обикновено търси подходяща информация чрез три стъпки:

I) Етап: Робот (агент, паяк или робот) навигира в интернет и събира информация.

II) Етап: Цялата информация, събрана от роботите, влиза в базата данни под формата на връзки и се индексира.

III) Етап: Стартира се търсачка, която потребителите използват като интерфейс за взаимодействие с базата данни. тези. базата данни генерира хипервръзки и след това потребителят просто търси в необходимите връзки.

Тези етапи са ясно изразени в работата на блоковата схема (фиг. 2)

Първите две са подготвителни и невидими за потребителя.

Нека разгледаме по-подробно етапите на търсене на информация в

Търсачка:

I) Етап. Търсачката събира информация от световната мрежа. За да направите това, използвайте специални програми, подобни на браузърите. Те могат да копират дадена уеб страница на индексен сървър за търсене, да я прегледат, да намерят всички хипервръзки, които са в нея, да отидат до посочените в тях URL адреси, да копират ресурсите, които са намерени там, отново да намерят хипервръзките, които са там и т.н. d. Това са специални програми, като агенти, паяци, роботи и роботи, които търсят страници в Интернет, извличат хипертекстови връзкина тези страници и автоматично индексират информацията, която открият, за да изградят база данни. Всяка търсачка има свой собствен набор от правила, които определят как да се събират документи. Някои следват всяка връзка на всяка страница, която намерят, и след това на свой ред изследват всяка връзка на всяка нова страница и т.н. Някои игнорират връзки, които водят до графични и звукови файлове, анимационни файлове; други са инструктирани първо да разгледат най-популярните страници.

Агенти - най-„интелигентният“ инструмент за търсене. Те могат да правят повече от просто търсене: могат да оставят съобщение за вашето посещение на сайта. Още сега те могат да търсят сайтове на конкретна тема и да връщат списъци със сайтове, сортирани по техния трафик. Агентите могат да обработват съдържанието на документа и да намират и индексират други видове ресурси, не само страници. Те също могат да бъдат програмирани да извличат информация от съществуващи бази данни. Каквато и информация да индексират агентите, те я предават обратно в базата данни на търсачката.

Общите търсения на информация в Интернет се извършват от програми, известни като паяци. Паяци отчетете съдържанието на намерения документ, индексирайте го и извлечете обобщена информация. Те също разглеждат заглавия, някои връзки и изпращат индексираната информация до базата данни на търсачката.

Обхождащи машини сканирайте заглавките и върнете само първата връзка.

Роботите могат да бъдат програмирани да следват различни връзки с различна дълбочина на вмъкване, да извършват индексиране и дори да проверяват връзки в документ. Поради естеството си, те могат да заседнат в цикли, така че изискват значителни мрежови ресурси, за да следват връзки. Има обаче методи, предназначени да попречат на роботите да търсят сайтове, чиито собственици не искат те да бъдат индексирани.

роботи извличане и индексиране различни видовеинформация. Някои, например, индексират всеки отделна думав срещания документ, докато други индексират само най-важните 100 думи във всяка, индексират размера на документа и броя на думите в него, заглавието, заглавията и подзаглавията и т.н.

Типът на конструирания индекс определя какви търсения могат да бъдат направени от търсачката и как ще бъде интерпретирана получената информация.

Хората, които искат да предоставят информация на широката общественост или които искат повече трафик към техния сайт, поставят кратки откъси за това, което представлява този сайт, директно в индекса, като попълват специален формуляр за секцията, в която предполагат, че роботът за търсене ще свържете се и изтеглете този сайт в базата данни и го предоставете на някой потребител.

Когато някой иска да намери налична информация в Интернет, той посещава страницата на търсачката и попълва формуляр, описващ информацията, от която се нуждае. Тук могат да се използват ключови думи, дати и други критерии. Критериите във формата за търсене трябва да съответстват на критериите, използвани от роботите, когато индексират информацията, която намират, докато навигират в мрежата.

Индексираната информация се изпраща в базата данни на търсачката по същия начин, както е описано по-горе.

II) Етап: След копиране на търсените уеб ресурси на сървъра на търсачката, започва вторият етап от работата - индексирането. По време на индексирането се създават специални бази данни, с помощта на които можете да определите къде и кога е намерена определена дума в Интернет. Индексираната база данни е вид речник. Това е необходимо, за да може търсачката да отговаря много бързо на заявките на потребителите.

Базата данни намира предмета на заявката въз основа на информацията, предоставена в попълнения формуляр и показва съответните документи, изготвени от базата данни. За да определи реда, в който ще се показва списъкът с документи, базата данни прилага алгоритъм за класиране. В идеалния случай документите, които са най-подходящи за заявката на потребителя, ще бъдат поставени първи в списъка.

„Операцията за сортиране на получените резултати се нарича класиране.“

Различните търсачки използват различни алгоритми за класиране, но основните принципи за определяне на уместността са следните:

Броят на думите за заявка в текстовото съдържание на документа (т.е. в html кода).

Тагове, в които се намират тези думи.

Местоположението на думите за търсене в документа.

Делът на думите, по отношение на които се определя уместността, в общия брой думи в документа.

Тези принципи важат за всички търсачки. И представените по-долу се използват от някои, но доста известни (като AltaVista, HotBot).

Време - колко време е страницата в базата данни на търсачката. Първоначално това изглежда като доста безсмислен принцип. Но ако се замислите колко сайтове има в интернет, които живеят максимум месец! Ако сайтът съществува от доста дълго време, това означава, че собственикът е много опитен в тази тема и потребителят би бил по-подходящ за сайт, който разказва на света за поведението на масата от няколко години, отколкото такъв, който се появи преди седмица със същата тема.

Индекс на цитиране - колко връзки към тази страницаводи от други страници, регистрирани в базата данни на търсачката. Базата данни извежда подобно класиран списък от HTML документи и го връща на потребителя, който е направил заявката. Избират и различни търсачки различни начинипоказване на получения списък - някои показват само връзки; други показват връзки с първите няколко изречения, съдържащи се в документа или заглавието на документа заедно с връзката.

III) Етап. Заявката на потребителя се обработва и резултатите от търсенето му се предоставят под формата на списък с хипервръзки. След това работата на потребителя е да обработи връзките, предоставени от базата данни. Когато щракне върху връзка към един от документите, които го интересуват, този документ се изисква от сървъра, на който се намира; ако информацията на потребителя в този сайт не го удовлетворява, той щраква върху друга връзка. Този етап може да отнеме много време и да се окаже най-труден за потребителя.

3. Търсачки

В интернет има много търсачки (търсачки), те имат различни видове, всяка със своите предимства и недостатъци. Потребителят винаги ще бъде преодолян от такива въпроси: как да търсите в Интернет, коя кола е по-добра. Така че ще се опитам да отговоря на тези въпроси.

3.1 Как да търсите в Интернет

При търсене в Интернет са важни два компонента - пълнота (нищо не се губи) и точност (нищо излишно не се намира). Обикновено всичко това се нарича с една дума - релевантност, тоест съответствието на отговора на въпроса.

1. Покритие и дълбочина.Под покритие имаме предвид обема на базата данни на търсачката: който се измерва по три показателя – общ обем индексирана информация, брой уникални сървъри и брой уникални документи. Под дълбочина имаме предвид дали има ограничение за

брой страници или дълбочина на вложени директории на един сървър.

Как да проверите:Някои машини пишат статистики за роботи на уебсайта си. Но можете да го проверите сами - трябва да зададете няколко заявки за търсене, състоящи се от една дума (за да изключите влиянието на езика на заявката, включително различни интерпретации на интервала), и в същото време да погледнете статистиката на резултатите, произведени от машината - обикновено в началото на списъка се посочва колко общо документа са намерени. Освен, че думите трябва да са от различни области, е добре да се вземат думи с различно „тегло” – редки, „средни” и „тежки” (честота) и да се сравнява намереното количество. Тежките думи, по-специално, тестват пълния текст (индексиране на всички думи в документа) на търсачката.

По-трудно е да проверите дълбочината на обхождане на робота - за да направите това, трябва да вземете някои сайтове, например с разклонена архивна структура, и да проверите дали документи, които могат да бъдат достигнати само с 6 щраквания върху връзките са индексирани.

2. Скорост на обхождане и уместност на връзките.

Скоростта на обхождане на мрежата показва колко бързо се индексира новодобавен ресурс и колко бързо се актуализира информацията в базата данни. Важен показател за качеството на търсачката (нейния робот) е не само „улавянето“ на нови територии: но и

проследяване на състоянието на вече обхванатите. Сървърите изчезват и се появяват, страниците на тях се актуализират. Връзките, които търсачката произвежда в списъка с това, което намира, трябва, първо, да съществуват и, второ, тяхното съдържание трябва да съответства на заявката.

Как да проверите:Обективна информация може да бъде получена чрез анализиране на сървърни регистрационни файлове - роботът на търсачката обикновено се представя с името на своята машина (или подобно), така че можете да видите колко често посещава сървъра, колко страници преглежда и т.н. За съжаление, обикновено само дневникът на вашия собствен сайт е достъпен за проучване, така че експерименталният метод остава.

За да определите скоростта на обхождане, трябва да създадете някъде страница с текст, да я добавите към търсачките и да видите колко бързо ще започне да се появява. Или променете съществуваща страница. За да определите уместността на връзките, проверете документите поне на първата страница от намерения списък за няколко заявки. Съобщението „Не е намерено“ показва, че документът вече не съществува.

3. Качество на търсенето(субективен показател).

Всяка търсачка има свой собствен алгоритъм за сортиране на резултатите от търсенето. Колкото по-близо до върха на списъка е документът, от който се нуждаете, толкова по-добре работи уместността.

Как да проверите:Само чрез експеримент. Препоръчително е да правите заявки с различна дължина за сравнение. Можете също да използвате език за заявки, а тези, които не желаят да четат описанието, могат да използват разширената страница за заявки („разширено търсене“ в Aport и Yandex, „подробна заявка“ в Rambler - опции за превод на руски „разширено търсене“).

Освен уместността, има важни потребителски характеристики.

1. Скорост на търсене.Ако търсачката реагира бавно, тя ще бъде неефективна. Струва си да се добави, че скоростта, видима за потребителя, зависи не само от самата търсачка, но и от интернет каналите.

Как да проверите:Чрез експериментиране трябва да търсите заявки с различна дължина, различна „тежест“ на думите и в различни часове на деня (натоварването на сървъра е значително неравномерно през целия ден, пикът е около три или четири часа следобед) .

2. Възможности за търсене (работа с език за документи, език за заявки).Друга точка за сравнение е какво точно и как търсачката въвежда в индекса. Търсачката за пълен текст индексира всички думи в текста, видими за потребителя. Наличието на морфология прави възможно намирането на търсените думи във всички склонения или спрежения. Освен това в HTML езикИма тагове, които също могат да се обработват от търсачка (заглавия, връзки, надписи за снимки и др.). Почти всички машини имат език за заявки под формата на стандартни логически оператори (И, ИЛИ, НЕ). Някои хора знаят как да търсят фрази или думи на дадено разстояние - това често е важно за получаване на разумен резултат. Допълнителна функцияе търсене в области на документи - заглавия, връзки, ключови думи (META KEYWORDS) и др. Допълнителна характеристика на езика за заявки е заявка на естествен език, която не изисква познаване на оператори.

Как да проверите:Обикновено тази информация се публикува на сървъра на търсачката (в Помощ), но се препоръчва да се проверява при реални заявки, тъй като понякога желаното се представя за реалност.

3. Допълнителни удобства.Това са допълнителни функции, които търсачката предоставя на потребителите. Това включва всички видове опции за търсене (специализирани страници, търсене на подобни документи, ограничаване на областта за търсене), както и списък с намерени сървъри, и търсене по дата и сървър, както и удобен интерфейс на търсачката и възможност за персонализиране.

Как да проверите:Информацията може да бъде частично публикувана на сървъра на търсачката, но е най-добре да се опитате да работите с тези функции сами.

Търсачките се състоят от директории за търсене и индекси за търсене,Много индекси за търсене също съдържат директории. Нека да ги разгледаме.

3.1 Търсене в директории

Всяка книга започва със съдържание и завършва с азбучен указател. Въпреки факта, че се намират на различни места в книгата и изглеждат напълно различно, те имат една и съща задача: да ви помогнат да намерите точно този раздел в книгата, който е необходим в момента. Съдържанието е пример за каталогизиране.

Когато човек избере тема, която го интересува, той използва нея, за да намери номера на страницата, където се обсъжда тази тема. Азбучен индекс е пример за индексиране (на английски индексът е индекс). Човек намира желания термин в индекса и получава номера на страницата, на която се появява.

Директориите са различни от търсачките. Директориите са колекция от сайтове, събрани в тематични секции. Тези заглавия от своя страна могат да бъдат разделени на подзаглавия, които също могат да имат още по-малки поддиректории и т.н.

От гледна точка на потребителя директориите са същите като търсачките. Но тези каталози са пълни не с „роботи“, както на знаците, а с най-живите хора. Това е много добре за потребителите, тъй като дава по-подходящи резултати в сравнение с търсачките. Отчасти индексът за търсене съдържа и каталог, представен е под формата на съдържание (хипервръзки) на най-популярните теми.

Когато каталогизира ресурс, опитен редактор внимателно го преглежда и определя към коя област на знанието принадлежи. този ресурс, установява своята категория в тази индустрия и въвежда ресурса в каталога. Най-голямата директория в интернет е Yahoo (www.yahoo.com). В него работят повече от 150 квалифицирани редактори. Това е голяма организация, но нейните усилия са достатъчни само за поддържане на директория с приблизително 1 милион ресурса. По-нататъшното разширяване е ограничено от необходимостта

в руската част на Интернет в таблица 1. [приложение]

3.3 Индекси за търсене

Индексите за търсене са автоматизирани системи. Те са в състояние да функционират без човешка намеса и следователно познанията им за истински интернет ресурси са много (няколко порядъка) по-големи от тези за директориите. Броят на индексираните уеб страници може да бъде стотици милиони.

Индексът за търсене работи на три етапа, които са посочени в параграф 2.2.

Конкретните препоръки за избор на индекс за търсене остаряват много бързо. Ситуацията в интернет се променя буквално пред очите ни. Едва ли минават шест месеца без нещо да се промени в търсачките. Системата, която беше най-добрата вчера, може да не е най-добрата днес и много лоша утре. В същото време популярността е сложно нещо. Трудно се печели, но трае дълго. В резултат на това много често се сблъскваме със ситуация, в която най-популярното далеч не е най-добрата система. Ще помогнем на читателя да се научи как самостоятелно да проверява различните търсачки и да избира тези, които дават най-добри резултати. При проверка размерът на индекса за търсене не е критичен. Не се нуждаем от милиони връзки, а само от две или три, но за предпочитане най-добрите. Следователно е важно не само колко уеб страници е индексирала търсачката, но и кога за последно е направила това, колко често впоследствие е проверявала уместността на връзките и колко правилно представя резултатите от търсенето.

Сравнителен преглед на търсачките.

Няма нужда да се говори подробно за това как да се използват директории за търсене. Тъй като просто трябва да отидете на сайта, да изберете категорията, която ви интересува, да изберете раздел в нея и така нататък, докато се отвори списък с конкретни връзки.

Много по-интересно е да се разгледат техниките за използване на индекси за търсене, особено след като тези техники са различни за различните индекси. Но преди да започнете да изучавате конкретна система, е необходимо да разгледате общите понятия, които се прилагат еднакво за всички индекси за търсене; като пример ще разгледам такива популярни и според мен най-удобните индекси за търсене като Yandex и Rambler.

И ще започна с разглеждане на основните видове търсене. По принцип има само четири вида търсене.

Всички индекси за търсене прилагат няколко алгоритми за търсене. Те включват: просто търсене, разширено търсене, контекстно търсене и специално търсене.

Просто търсене.С просто търсене в полето за заявка се въвеждат една или повече думи, които могат да характеризират съдържанието на документа. Ако това е една дума, тогава, като правило, отговорът е толкова голям брой връзки, че не е ясно какво да правим. Ако са въведени няколко думи, резултатът зависи от това как са въведени думите, което от своя страна зависи от конкретната използвана система. Методите за просто търсене в различните търсачки като правило са различни и преди да ги използвате, препоръчително е да прочетете инструкциите. Просто търсене в Rambler е представено на

Фиг.-8. Когато въведете фразата: Всичко е объркано в къщата на Облонски, индексите за търсене дават следните резултати: Rambler 9 (документи)

Yandex 2400 (документи)

Подробно търсене.Разширеното търсене винаги включва заявка от група думи. При разширените търсения в повечето случаи е разрешено свързване на ключови думи с логическите оператори И (И), ИЛИ (ИЛИ), НЕ (НЕ) и други. Основното предимство на разширеното търсене е, че правилата за писане на ключови думи и логически оператори в различните системи са еднакви или много сходни. Следователно, след като овладеете усъвършенстваните техники за търсене, можете да ги използвате навсякъде. Просто трябва първо да превключите системата в желания режим (фиг. 9.)

Когато въведете фразата: Всичко е объркано в къщата на Облонски, в разширеното търсене индексите за търсене дават следните резултати: Rambler 9 (документи)

Yandex 2400 (документи)

Фиг.-8 Просто търсене в Rambler

Фиг.-9 Превключване на системата в режим на разширено търсене.

Контекстно търсене.Това е много полезен вид търсене, който, за съжаление, не се прилага във всички индекси за търсене. Системите, които го поддържат, трябва да бъдат особено ценени. Контекстното търсене изисква точно съвпадение на фраза или група от думи, например „Всички

смесени в къщата на Облонски. В повечето търсачки, които включват този метод, ключовата фраза трябва да бъде оградена в кавички: „Всичко е объркано в къщата на Облонски.“ (Фиг. 10)

Когато въведете фразата: „Всичко е объркано в къщата на Облонски“, индикаторите за търсене дават следните резултати:

Rambler 0 (документи)

Yandex 8 (документи)

Фиг.-10. Контекстно търсене в RAMDLER.RU

Специално търсене.С помощта на специални команди за търсене се търси допълнителна информация. Например, такива команди ви позволяват да определите колко често хипервръзки, сочещи към ресурс, се намират в Интернет; с тяхна помощ можете да намерите ключови думи,

включени в заглавките на уеб страници и др. По правило специалните команди за търсене в различните търсачки са различни.

Също така е необходимо да се разгледа Общи правилазаписи на команди за търсене.

Общи правила за писане на команди за търсене:

Думи разделени с интервали

Да приемем, че потребител трябва да намери уеб страница, която казва нещо за работата Microsoft система Windows. Логично е да въведете думи в полето за търсене Microsoft Windowsи изчакайте резултата. Но резултатът може да бъде обезсърчаващ. Някои търсачки разбират такъв запис като Microsoft И Windows - те ще дадат това, което потребителят търси. Други може да разберат този запис като Microsoft ИЛИ Windows - тогава ще се търсят всички уеб страници, които съдържат или първата дума, или втората, или и двете. Потребителят, разбира се, се интересува само от онези страници, на които и двете думи се появяват заедно, но те ще бъдат буквално заровени сред други страници, от които той не се нуждае.

Когато започвате да работите с непозната система, трябва да започнете, като проверите как тя обработва групи от ключови думи. Първо въведете една дума: Microsoft. Можете да видите колко резултата ще произведе системата.

Rambler 28184 (документи)

Yandex 1048379 (документи)

След това се въвежда втората дума: Windows. Отново се проверява количеството. Въведени са и двете думи: Microsoft Windows.

Когато въведете фразата: Microsoft, индексите за търсене дават следните резултати:

Rambler 6641 (документи)

Yandex 259276 (документи)

Ако броят на намерените уеб страници е по-голям, отколкото в първия и втория случай, това означава, че системата счита, че ключовите думи са свързани чрез връзка ИЛИ (множествата са комбинирани). Ако резултатът е по-малък от всеки от първите тестове, тогава системата използва връзката И (множествата се пресичат). И в двата случая ще трябва да се запознаете обща информацияза да научите как да получите обратния резултат. Например, всички големи руски търсачки по подразбиране използват оператора И между думите, въпреки че системата Yandex има свои собствени характеристики (вижте Таблица 2). Там се смята, че тези две думи трябва да присъстват едновременно не в документа, а в едно изречение. Ако е достатъчно да присъстват в документа, всяка дума трябва да бъде предшествана от знак<+>. В същото време възниква обратният проблем: как да се гарантира, че се търсят документи, съдържащи една от дадените ключови думи, тоест как да се зададе съотношението ИЛИ?

"Rambler": Microsoft ИЛИ Windows; (50986 документа)

"Yandex": Microsoft | прозорци; (2034641 документа)

Ролята на главните букви

В повечето търсачки „хляб“ не е равно на „ХЛЯБ“, а „ХЛЯБ“*„хляб“. Общото правило е: ако клиентът е въвел малки букви, тогава се търсят и малки, и главни букви, но ако клиентът е използвал главни букви, тогава се намира точно съвпадение само с главни букви. Класически пример е Червената шапчица. Ако ги въведете точно по този начин, като използвате главни букви, тогава само документи, които съдържат

комбинация от Червената шапчица. Въпреки това, ако ключовите думи са написани като червена шапка, тогава ще бъдат намерени повече документи. През ситото за селекция ще преминат всички документи, съдържащи следните комбинации: червена шапчица, Червена шапчица, червена шапчица и Червена шапчица. Следователно не е необходимо да злоупотребявате с използването на главни букви в заявката и да ги използвате само когато има абсолютна увереност в резултата.

Някои търсачки обаче са различни. Така например в системата Rambler, по време на индексирането, всички главни букви са принудително „понижени“ до малки букви. Това означава, че използването на главни букви в заявка не е полезно в тази система.

Когато въведете фразата: Червената шапчица, индексите за търсене дават следните резултати:

Rambler 2921 (документи)

Yandex 16458 (документи)

Ролята на запазените думи

Запазените думи са думи, които не се вземат предвид при обработката на заявка. Докато индексира уеб страниците, програмата ги премахва от текста, което значително намалява размера на индексите и намалява времето за търсене. Към запазени думи обикновено

Те включват неинформативни думи: предлози, съюзи, местоимения, членове и други малки думи. Така че, например, ако търсите фразата „Всичко беше объркано в къщата на Oblonskys“ в системата Yandex, тогава ще бъдат търсени и документи, съдържащи Какво беше объркано в къщата на Oblonskys? - и къде се обърка? В къщата на Облонски? Някои системи могат да запазват думи, които се срещат изключително често и следователно не са информативни. Ако например системата е фокусирана върху търсенето на книги, тогава думата книга не е информативна за нея. Думата auto е неинформативна за система за търсене, занимаваща се с автомобилни въпроси, а думите компютър и интернет са неинформативни за системи, фокусирани върху търсене на информация за компютърни технологии. Особено важно е да се вземе предвид ролята на запазените думи, когато се извършва контекстно търсене, защото контекстното търсене изисква точно съответствие между това, което потребителят е поръчал и това, което се появява в уеб документите. Ако системата за търсене „очисти“ уеб документите от запазени думи на етапа на индексиране, тогава тя не може да се справи с контекстното търсене, освен може би чрез „разглеждане“ на копия на уеб страници, ако съхранява такива, но това отнема много време. Следователно честното контекстно търсене в търсачките е рядкост. В Русия, например, и Yandex, и Rambler само се преструват, че предоставят възможности за контекстно търсене; за това фразата за търсене трябва да бъде поставена в кавички. След някои прости тестове обаче е лесно да се провери, че това всъщност не е контекстно търсене, а точно търсене на запазени думи. Пример, когато заявката „Всичко беше объркано в къщата на Oblonskys“ дава резултат Какво беше объркано в къщата на Oblonskys. В таблица 2 предоставям сравнително описание на основните търсачки (търсачки). [Приложение]

4. Сравнителна характеристика на две търсачки на базаРАmbler. ruИЯндекс. ru

4.1 RAMBLER

Rambler.ru исторически (преди появата на Yandex) е най-популярната търсачка в Русия. Тя започна работа по-рано от другите и за дълго времебеше лидер в размера на индекса за търсене и качеството на услугите за търсене. Уви, днес тези постижения са в миналото. Въпреки факта, че размерът на индекса за търсене на Rambler е приблизително равен на 12 милиона уеб страници, той не е бил правилно актуализиран от дълго време и дава остарели резултати. Днес Rambler е популярен портал, най-добрата система за класификация и рейтинг в Русия, плюс рекламна платформа. (Фиг.-10)

Методи за търсене в системата Rambler:

Език за търсене

Заявката за търсене може да се състои от една или повече думи и може да съдържа препинателни знаци. Можете да създавате прости заявки, без да навлизате в тънкостите на езика на заявките. Така че, ако въведете няколко думи в лентата за търсене без препинателни знаци и логически оператори, ще бъдат намерени документи, съдържащи всички тези думи (и на ограничено разстояние една от друга).

Но познаването и правилното използване на езика за заявки в търсачката ще ви помогне да направите търсенето в Rambler бързо и ефективно.

Регистрирам

Като цяло случаят на писане на думи за търсене и оператори няма значение, тоест къща и DOM, Not и nOt се възприемат еднакво. И само понякога, за да се подобри качеството на търсенето, регистърът на думите заявка за търсенесе взема предвид.

Например, ако заявката се състои от две, три или четири думи, всяка от които е написана с главна буква, тогава се предполага търсене на собствено име и ограничението на разстоянието между думите на заявката автоматично се променя от стойността по подразбиране на стойност (n-1)*2, където n е броят на думите за заявка. Това ви позволява да намерите група от думи за заявка, в които няма повече от една „допълнителна“ дума или препинателен знак, например „Баден-Баден“, „А. Пушкин“, „Фьодор Михайлович Достоевски“.

Оператори

Заявка от няколко думи може да съдържа оператори. В документа няма търсене по оператори, те служат само като инструкции към търсачката. Всички оператори на търсачката са двоични, т.е. имат лява и дясна страна, всяка от които също е заявка (състояща се от една дума по подразбиране). Скобите и кавичките се използват за промяна на обхвата на операторите (групиране на множество думи на заявка в аргумент на оператор). Две заявки, свързани с оператора И (логическо И), образуват сложна заявка, която се удовлетворява само от тези документи, които едновременно удовлетворяват и двете заявки. С други думи, заявката „куче И котка“ ще намери само документи, които съдържат както думата „куче“, така и думата „котка“.

Сложна заявка, състояща се от две заявки, свързани с оператора ИЛИ (логическо ИЛИ), се удовлетворява от всички документи, които удовлетворяват поне една от тези две заявки. Заявката „куче ИЛИ котка“ ще намери документи, които съдържат поне една от думите „куче“ или „котка“ (или и двете думи заедно). Операторът NOT (логическо И) създава заявка, на която отговарят документи, които отговарят на лявата страна на заявката и не отговарят на дясната. Така резултатът от търсене на заявката „куче НЕ котка“ ще бъдат всички документи, които съдържат думата „куче“ и не съдържат думата „котка“. Ако операторът не е изрично указан, се използва операторът И по подразбиране: намират се само документи, съдържащи всички думи на заявката. По този начин заявката „кредит за информационни технологии“ ще се тълкува като „информация И технология И кредит“. На страницата за разширено търсене операторът по подразбиране може да бъде заменен с ИЛИ (Думи за заявка за търсене: поне една).

Всеки оператор има съкращение:

Съкращение на оператора

Заявка от няколко думи, осеяни с оператори, ще бъде интерпретирана според техния приоритет. Операторите AND и NOT традиционно имат по-висок приоритет, така че при обработката на заявка от няколко думи тя първо се групира от операторите AND и NOT и едва след това от операторите OR. Можете да промените реда на групиране, като използвате скоби.

Цитати

Можете да използвате двойни кавички, за да търсите кавички. Думите за заявка, затворени в двойни кавички, се търсят в документи в точния ред и във формата, в която се появяват в заявката. По този начин двойните кавички могат да се използват и за просто търсене на дума в дадена форма (думите се намират във всички форми по подразбиране). Например заявката „самолетът „зареден с гориво“ кацна“ се удовлетворява от документ, съдържащ текста „... самолетът кацна и се зареди с гориво...“, и не се удовлетворява от документ, съдържащ „.. самолетът кацна на зареждам...”.

Скоби

Когато конструирате заявки, понякога става необходимо да комбинирате думите на заявката в групи, които ще бъдат аргументите на някой оператор. Такива групи са оградени в скоби. Частта от заявката, затворена в скоби, сама по себе си е заявка и подлежи на правилата на езика за заявки. Използване на скоби

ви позволява да създавате вложени заявки и да ги предавате на оператори като аргументи, както и да замените приоритетите на операторите по подразбиране. Ако заявката без скоби „автомобил самолет | летище“ е еквивалентна на заявката „кола И самолет ИЛИ летище“ и в съответствие с приоритетите на операторите означава „намиране на документи, съдържащи думите „автомобил“ и „самолет“ или думата летище, тогава заявката с в скоби „автомобил (самолет | летище)“ е еквивалентна на заявката „кола И (самолет ИЛИ летище)“, което означава „намерете документи, съдържащи думата „автомобил“ и една от думите „ самолет” или „летище”.

Метазнаци

Rambler все още не поддържа търсене на низове с помощта на метасимволи ("*", "?"), които обикновено се използват съответно за означаване на "всеки подниз" и "произволен единичен знак". Тези оператори обаче са запазени за подобна бъдеща употреба.

Използване на език за заявки

Всяка заявка, адресирана до търсачката Rambler, се обработва в съответствие с правилата на езика на заявката. Някои думи и знаци се третират като оператори на език за заявки и се обработват по специален начин. Всъщност езикът на заявките описва определена формула, която се използва по време на търсенето - всеки от документите се „съвпада“ с него и резултатът от търсенето е само тези документи, които го удовлетворяват. Например, заявката „самолет“ се удовлетворява от всички документи, в които думата „самолет“ се появява поне веднъж под произволна форма. Заявка с няколко думи се удовлетворява от документи, съдържащи всяка от тези думи във всякаква форма (при определени условия). Дали даден документ отговаря на по-сложна заявка се определя от логиката на операторите и конструкциите на езика за заявки.

Морфология

За всяка дума за заявка търсенето се извършва, като се вземат предвид правилата за флексия на съответния език. Rambler разбира и различава думите на руски и английски езици- по подразбиране търсенето се извършва във всички форми на думата. Например, търсенето на думата "лице" също ще намери документи, съдържащи думите "лице", "мъж", "лице" и дори "хора". За да търсите само една конкретна форма на дума, трябва да я поставите в двойни кавички или да използвате търсенето на точната фраза в разширеното търсене.

Безопасни думи

Някои думи и символи са изключени от заявката по подразбиране поради ниското им информационно съдържание. Това са така наречените стоп думи - най-често срещаните думи в руския и английския език, например предлози, частици и членове. Наличието на тези думи може да забави вашето търсене и да повлияе отрицателно на пълнотата на вашите резултати. Възможно е да посочите необходимостта от тези думи в заявка, като оградите заявката в двойни кавички или използвате търсенето на точна фраза в разширеното търсене.

Ограничение на разстоянието

Ако една заявка е съставена от една или няколко думи без използване на оператори и конструкции на езика на заявката, тогава ще бъдат намерени документи, които съдържат всички думи на заявката. Освен това за всяка заявка винаги има така нареченото ограничение на контекста - положително число, по подразбиране равно на разстояние от 40 думи. Документ, съдържащ всички думи за заявка, ще бъде върнат само ако разстоянието в думи между срещанията на думите за заявка е по-малко от това число. Например, заявката „червена армия“ ще намери онези документи, в които думите „червена“ и „армия“ се появяват поне веднъж, на по-малко от 40 думи една от друга. Стойността на контекстното ограничение може да бъде променена чрез конструкцията „(число, заявка)“, където число е всяко положително число, заявка е всяка заявка, която е правилна от гледна точка на търсачката, състояща се от повече от една дума (очевидно ограничението на разстоянието между думите в случай на заявка с една дума няма смисъл). По този начин заявката „(2, червена армия)“ ще намери само онези документи, в които няма нито една дума между думите „червена“ и „армия“ поне веднъж (тъй като само в случай на непосредствена близост разликата в поредните номера на думите по-малко от 2, т.е. равно на 1)

Неоткрити думи

Ако заявката се състои от няколко думи и някои от тях изобщо не могат да бъдат намерени в Интернет, тогава резултатите от търсенето се връщат за частична заявка, от която думите, които не са намерени в Интернет, са изключени. В този случай съответната диагностика се показва на страницата с резултати от търсенето.

Сортиране на резултатите

По подразбиране намерените документи се сортират по уместност (съответствие със заявката). Можете обаче да поискате най-новите (или, обратно, най-старите) документи да бъдат поставени в горната част на списъка. За да направите това, изберете подходящата настройка в менюто "Сортиране по..." на страницата с подробна заявка. Можете също така да ограничите търсенето си до документи, създадени през определен период от време: за да направите това, трябва да посочите „От дата... до дата..." на страницата с подробни заявки.

Разстояние между думите

Можете да изискате Rambler да върне само онези документи, в които думите от заявката са на минимално разстояние една от друга. Режимът "Ограничаване на разстоянието между думите" може да бъде активиран в подробна заявка. Всички правила, изброени по-горе, могат да се използват заедно едно с друго в необходимата последователност.

Предоставяне на резултати

По подразбиране резултатите от търсенето се връщат в партиди от 15 документа. Менюто "Извеждане от..." на страницата с подробна заявка ви позволява да увеличите този брой до 30 или 50. Менюто "Изходна форма..." ви позволява да получавате описания на документи с повишена или намалена детайлност.

4.2 YANDEX

Yandex.ru е търсачка, която при поискване може да намери най-подходящите уеб страници в руската част на Интернет. Yandex обхожда стотици хиляди уеб страници всеки ден, търсейки промени или нови връзки. Колекцията от връзки непрекъснато нараства. Yandex не изисква познаване на специални команди за търсене. Yandex ще намери всички, които са се свързали към страницата, файлове с желаната снимка, последните новини или продукти в електронните магазини. Системата Yandex се базира на най-големия индекс - приблизително 27 милиона уеб страници, но това не е само въпрос на размер. Това не е просто указател към ресурси, а указател към най-актуалните ресурси. По отношение на уместността Yandex днес е безспорен лидер (фиг. 4)

Техники за търсене в системата Yandex

Преди да започна да описвам езика на заявките на системата Yandex, ще отбележа, че той е значително по-мощен и по-сложен от езиците за заявки на други местни търсачки. Средният потребител обаче не трябва да се страхува. Дори ако наистина не обича да чете и особено да изучава инструкции, той може да работи със системата интуитивно.

По принцип системата Yandex използва евристични алгоритми, които не са напълно строги от математическа гледна точка. В резултат на това потребителят може да получи различни резултати, например ако търси документи с думите Буш Гор избори и Буш Гор избори. Но благодарение на тези алгоритми, интуитивният подход за създаване на заявки (без четене на инструкции) дава много добри резултати и то за много кратко време.

Търсене по една дума

Когато потребителят въведе търсената дума в полето за търсене и щракне върху бутона Намери, думите се търсят, като се вземат предвид всички възможни словоформи, което е особено важно за руския език. Например, ако се въведе думата сняг, тогава ще бъдат намерени документи, които съдържат думите сняг, сняг и т.н., но не и сняг, сняг и т.н. Ако търсенето на словоформи не е необходимо, то може да бъде отменено с удивителен знак, например! сняг.

Търсене по група думи

Ако думите са разделени с интервал, тогава се търсят документи, в които всички въведени думи се срещат в едно изречение. И така, по искане на изборите на Буш Гор

системата издава документи с фрази като... В навечерието на изборите хакери хакнаха сайтовете на Буш и Гор. Сред резултатите от такова търсене са възможни свободни съвпадения - търсачката показва своята интелигентност. За да гарантирате стриктно появата на думите в изречението, трябва да поставите знак + пред тях, например: +Буш +Гор +избори. Знакът + трябва да се пише заедно с думата, за която се отнася (без интервал). Интервалът действа като оператор И, който също може да бъде въведен изрично (символът &), например: +Буш& +Гор& +избори. Трябва да има интервали отдясно и отляво на логическия оператор.

Ако се изисква едновременно присъствие на думи не само в изречение, но и в целия документ, се използва операторът &&, например: +Bush&& +Gore&& +избори.

Сега ще разгледам техники за изключване на думи от търсенето. За да направите това, използвайте знака - (строго изключване от изречението), знака ~ (нестрого изключване от изречението) и знака ~~ (изключване от целия документ). Така например искането +Буш +Гор ~~избори ще позволи

изберете документи, в които думите Буш и Гор се срещат в едно изречение, но в целия документ няма дума избори и нейните производни (избор, на изборите, след изборите и т.н.).

В случаите, когато е необходимо да комбинирате ключови думи с помощта на оператора OR, се използва символът |. (вертикална лента). Например заявката Bush | Gore&& +изборите ще изберат документи, които споменават Джордж У. Буш или Албърт Гор, но трябва

Появява се думата избори.

Търсене по разстояние

Преди много време в търсачките се появи операторът NEAR, който ви позволява да намерите документи, в които две думи са разположени близо една до друга. Вярно е, че всяка система разбира какво е „близо“ по различен начин. В търсачката Yandex можете конкретно да посочите на какво разстояние една от друга трябва да се намират тези думи.

В документа всяка дума има собствен номер на позиция. Номерата на позициите на две съседни думи се различават с единица (номерът на позицията на думата вдясно е по-голям). Операторът за разстояние се записва като /+n, където n е числото, съответстващо на разстоянието. Например операторът /+1 съвпада с две последователни думи, така че Microsoft/+1 Windows е същото като „Microsoft Windows“.

Операторът за разстояние може да има и отрицателна стойност. Това означава, че втората дума, посочена в заявката, трябва да се появи преди първата в документа. Например, заявка Microsoft/-5 Windows може да предостави връзка към документ, съдържащ фраза за операционни системи, които ще заменят Windows, каза изпълнителен директор на Microsoft.

Когато извършвате търсене с индикация за разстояние, можете да посочите не точното разстояние между думите, а диапазон, например /(-5 +5). В този случай ще бъдат избрани документи, в които думите, посочени в заявката като ключови думи, попадат в посочения диапазон. Всъщност, ако знакът на параметъра не е посочен, това също е търсене в диапазона. Така че операторът /5 всъщност трябва да се разглежда като диапазон /(-5 +5). Заявката Bush/5 Gore ще намери изречения като: Жените симпатизираха на Буш, а мъжете - Гор или Гор Буш не е по-сладък.

Системата Yandex има доста сложни правила на езика за заявки (в сравнение с Rambler), но има широки възможности. Например разстоянията могат да се измерват не само между думите, но и между изреченията. Тази мерна единица се използва, когато в заявката се използва двоен знак && или ~~. Така заявката Bush/+1&&Gore ще върне документи, в които думите Bush и Gore се срещат в едно и също изречение или в съседни.

Използване на скоби

Задачата за търсене е по същество булев израз, който действа като филтър при преглед на документи, включени в базата данни на търсачката. IN

В логически израз, точно както в аритметичен израз, можете да използвате скоби. Те служат за контрол на реда на действията. Типичен пример: Буш&Гор&(избори | гласуване). Тази заявка ще върне връзки към уеб страници, съдържащи изречения, съдържащи думите Буш, Гор, избори или Буш, Гор, гласуване.

Управление на класирането

Целта на класирането е да гарантира, че уеб страниците

онези, които най-добре отговарят на заявката, се показват в списъка с резултати възможно най-рано. Какви алгоритми използва търсачката при класирането си е нейна работа. Потребителите или са доволни от работата си, или се обръщат към друга търсачка. В системата Yandex можете независимо да промените алгоритъма на механизма за класиране, като използвате тегловни коефициенти. Този коефициент може да бъде присвоен на всеки ключова думаили целият израз, ако е ограден в скоби: Коефициентите на тежест се въвеждат чрез двоеточие, например Буш:5 Гор избори. С тази заявка документите, в които думата Буш се среща по-често, получават приоритет и се показват на по-високи позиции в получения списък.

Друга техника за управление на класирането е свързана с квалифициращата дума. Това е дума, която не е задължително да се съдържа в избраните документи, но ако я има, тогава този документ получава предимство при класиране. Уточняващата дума се въвежда след знаците<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Специално търсене

Особено внимание заслужават техниките за търсене на информация, съдържаща се в специални полета в заглавките на уеб страниците (всяка уеб страница има служебни полета в заглавката си) или търсене на специални елементи, включени в уеб страниците, като хипервръзки. В системата Yandex започват специални команди за търсене в полетата на заглавката

със символа $, а командите за търсене на отделни елементи от уеб страниците – със знака #. Всички специални инструменти за търсене работят значително по-бавно от обикновените.

Екип	Описание	Пример	Обяснение
$title (израз)	Търсенето на ключови думи, посочени в израза, се извършва само в заглавията на уеб страниците	$title (интервал)	Търсят се само уеб страници, които имат думата Space в заглавията си (фиг. 7.10)
	Търсенето на ключови думи, посочени в израза, се извършва само в котвите на вътрешни връзки на уеб страници	$anchor (въведение)	Домашни (израз)
#ключови думи = (израз)		#ключови думи - (новини)
#абстракт = (израз)	Търсене в анотация на уеб страница	#abstract = (Буш \| Гор)
#image = "име на файл"	Търсете файлове с илюстрации по техните имена	#image -"Буш.*"	Ако не е известно предварително какво разширение може да има името на файла, използвайте заместващия знак „*“, който замества произволен брой произволни знаци
#hint- (израз)	Намерете думи в илюстрации на алтернативен текст	(Буш \| Гор)
#url = " URL адрес-адрес"	Потърсете сайт или уеб страница	#uri.= "www.anysite.ru"	Обикновено се използва за локализиране на търсенията. Например, за да ограничите търсенето до един сайт или, обратно, да го изключите от зоната за търсене
#връзка - адрес"			Често използван " URL адрес- за идентифициране на уеб страници, които имат хипервръзки, водещи към вашата собствена страница

Заключение

Успях напълно да отговоря на поставените въпроси и да разбера тази тема (как да провеждам ефективно търсене в Интернет?). От собствен опит се убедих, че в нашия век на високи технологии ефективното търсене на информация не може да бъде решено и остава един от основните проблеми. Мога да обясня това по следния начин.

Първо, не съвършенството на самите търсачки поставя под съмнение всяко търсене.

Търсачките нямат подреденост, структура, структура, структуриране, както и система, систематизация, систематизация, роботите на повечето търсачки носят огромен брой безполезни хипервръзки,

Второ, неопитността на потребителите, защото... търсенето и намирането на това, което ви трябва в купчина текстове в интернет е умение не само на търсачката, но и на потребителя, който задава въпроса.

Трето, алчността на програмистите и рекламните агенции, които ги наемат, които искат сайтовете им да бъдат търсени възможно най-често. Тези „алчни“ програмисти мамят роботите и пускат уебсайт в интернет, който уж съдържа необходимата информация, но има рекламни брошури или автоматична хипервръзка, изискваща рекламен сайт или, още по-лошо, платен сайт. Въпреки че специалистите, обслужващи търсачките, се борят с това явление, то все още става все по-разпространено с всеки изминал ден.

Днес Интернет се използва като справка от 23% от потребителите, инструмент за проучване от 15%, забавление от 14%, а само като източник на новини от 12%.

Не е оптимистично мнението, че 10% от потребителите винаги, но 73% често успяват да намерят необходимата информация.

На този въпрос коя търсачка е най-добрата и коя бих предпочел да използвам, ще отговоря по следния начин: трябва да използвате машината, която е по-удобна, а за мен е по-удобно да използвам Yandex.

Интернет направи търсенето по-лесно и изисква специфични познания за търсенето, днес то не винаги е ефективно, ние сме едва в зората на неговото развитие. И затова не бива да забравяме за старото не по-малко ефективно търсене на информация - книги и библиотеки, този източник на информация е оправдан от времето на „Александрийската библиотека“, а Интернет ще бъде по-ефективен в близко бъдеще и ще стане почти незаменим.

Списък на използваната литература

1. Андрей Аликберов „Няколко думи за това как работят роботите на търсачките.“

#"#">Използван е езикът на търсачката Yandex

Търсене по фраза

Префикси

Итеративно търсене (в резултатите)

След като влезете, щракнете върху Още...

замяна на част от дума

* (не винаги правилно)

Таблица 2

Обобщена таблица на водещите търсачки
	азиндекс			Износ!	AltaVista
Област за търсене, обем на база данни	Руската част на интернет. Търсете в страниците на уебсайта от секцията каталог, по регион. Специално търсене на новини, продукти, снимки.	Руската част на интернет.		Руската част на интернет. Специализирано търсене на новини, продукти, снимки, MP3	Специализирано търсене на новини, продукти, развлечения, аудио (MP3) и видео.	Специализирано търсене за американски университети, Apple, Linux, BSD
Базов обем в началото на 2001г	Повече от 31 милиона документа	Повече от 12 милиона документа		Повече от 14 милиона документа	Повече от 250 милиона документа	1,25 милиарда страници
Тип индексиране	пълнотекстово индексиране	пълнотекстово индексиране			пълнотекстово индексиране	пълнотекстово индексиране и индексиране чрез връзки
Наличие на допълнителни услуги	Системата съчетава търсачка и каталог, както и редица допълнителни проекти (Zakladki.Ru, Narod.Ru, система за интелигентен избор на продукти, CY и др.).			Системата съчетава търсачка, каталог и допълнителни услуги (онлайн пазаруване и др.)	Системата съчетава търсачка, каталог и редица допълнителни услуги (хостинг, регистрация на име на домейн, превод и др.)	Системата съчетава търсачка и каталог, съдържащ 15 секции и 1,5 милиона уеб страници.
Синтаксис на езика за търсене
логично И	интервал или & (в рамките на изречение)&& (в рамките на документ)		И, &, интервал между думите по подразбиране	И, И, &,+, интервал между думите по подразбиране	И, & (само за сложни търсения)	по подразбиране за всички думи за търсене
логическо ИЛИ					ИЛИ (по подразбиране за просто търсене), \| (само за сложни търсения)
двоичен NAND оператор	~ (в изречение) ~ ~ (в рамките на документа)		не се използва	заменен с префиксния оператор "-" (И е интервал по подразбиране)	И НЕ, ! (само за сложни търсения)	заменен с префиксния оператор "-"
префикси на задължителни (+) и забранени (-) думи			не се използва		+, - (само за просто търсене)
групиране на думи						не се използва
разстояние между ключовите думи при търсене	/(n m) - с думи, &&/(n m) - с изречения (- назад, + напред)		с разширено търсене - показване на документи само с минимално разстояние между думите	sl2(...), с2(...), w2(...), (- назад, + напред)	БЛИЗО (в рамките на 10 думи, само за сложни търсения)	не се използва
търсене по фраза
символи за заместване на думи			*, ? (заменете произволен знак)	* (само в края на думата)
езиково ограничение на документа	избор: всякакви, кирилица, латиница		избор: всеки, руски, английски	избор: руски, английски	избор от 25 езика	избор от 25 езика
морфология	всички склонения и спрежения по подразбиране, ! (търсене на точна дума)		# (всички форми на думи), @ (думи със същия корен)	! (индикация за нормална форма)
търсене по дати
ограничаване на търсенето по полета			Търсете в заглавия, адреси, имена на документи (само с разширено търсене). Търсете подобни документи.
Разширени възможности за формуляри, качество на помощта
настройка на разширена форма	настройка на речников филтър, настройки по дата, по сайт, връзка, изображение, специален обект		по документ, дата, И, ИЛИ режими, разстояние между думите, съкращаване на думи	по документ, заглавие, изображение, дата, 5 секции (уебсайтове, MP3, снимки, продукти, новини)	чрез булев въпросник, дата, сайт, връзка, изображение, текст и др.
настройка на изхода на резултатите			задаване на брой резултати на страница, изходна форма	уточняване на формата за издаване	задаване на броя резултати на страницата, всички елементи на изходната форма	задаване на броя резултати на страницата, всички елементи на изходната форма
класиране на резултатите от търсенето			сортиране по уместност или дата	по популярност на сайта	съгласно условията, посочени в SORT	по цитиране (връзки към страница от други страници)
итеративно търсене (в резултатите от търсенето)	да Извършва се чрез поставяне на отметка в квадратчето		да Извършва се с помощта на превключвателя за обхват на търсене	Извършва се чрез поставяне на отметка в квадратчето	Извършва се с помощта на
раздел за качество на помощ	има подробно описание на езика за заявки, синтактична таблица и раздел за търсене в категории		раздел за кратка ПОМОЩ	подробен справочник за езика на заявките, има много руски синоними за основни оператори	най-големият онлайн урок за език за заявки, обсъждан в тази таблица	много ограничен раздел ПОМОЩ
семеен филтър