телевизори. Конзоли. Проектори и аксесоари. Технологии. Цифрова телевизия

Организация на търсене на информация в Интернет. Системи за търсене на информация. Синтаксис на езика за търсене. Търсене на информация в Интернет: капани

Паметта на компютъра съдържа информация, съхранена като поток от данни. Информацията може да бъде логически организирана във файлове, със записи във файлове и отделни елементи в записи. Когато файловете са организирани по този начин в база данни, всеки запис съдържа идентификационен етикет или ключ. Това може да е кодов номер, име или дата.

При търсене на запис компютърът директно или последователно, в зависимост от това как се съхраняват данните, извиква елементите от данни и проверява дали те съдържат желания ключ. Ако данните се съхраняват на лента, файловете се организират последователно; Ако данните се съхраняват на диск или твърд диск, данните могат да бъдат достъпни както директно, така и последователно.

Програма за търсене на основна информация.Когато ключът отвори запис, компютърът сканира паметта и показва записа.

Данни, съхранявани на магнитни дискове

пътеки магнитен дисксъхраняват не само данни, но и адреси на данни, което позволява на компютъра директен достъп до информация. В извикването на изображението по-долу адресите на данните са записани в областта за преброяване, а съдържанието на ключовите елементи в областта на ключа.

Програма за търсенесветва при въвеждане на ключа. Във файлове с директна организация програмата за търсене открива адреса на данните от ключа, получава информацията и нарежда операционна системачетете данни.

Екран с информация за търсенепозволява на оператора да получава информация чрез просто избиране на елемент от меню, без да използва клавиш.

HDDсе състои от няколко кръгли плочи, сглобени на една ос. Цилиндърът е съставен от писти, всяка от които заема едно и също място на всяка плоча. Цилиндрите са номерирани отвън навътре, а следите на цилиндрите са номерирани отгоре надолу. Така адресът на един елемент от данни ще бъде цилиндър xx, писта yy.

Как се извършва търсенето

1. Последователно търсене.

Компютърът сканира данните в строг ред. как повече количестводанни, толкова по-ниска е ефективността на този метод.

2. Директно търсене.

Местоположението на желаните данни се намира с помощта на ключ. Следователно данните трябва да се съхраняват в ключовата област.

3. Двойно търсене.

Данните трябва да бъдат организирани в същия ред като ключовете. Търсенето започва с проверка на средните данни, за да се определи дали желаните данни са под горния или долния клавиш. Това стеснява търсенето наполовина.

Търсене на информация в глобалната интернет: обща информация

Въз основа на принципа на организация и използване, инструментите за търсене могат да бъдат разделени на:

    Каталози . Директориите са директории, съдържащи списъци с интернет адреси, групирани по определени критерии. По правило те са обединени по теми (наука, изкуство, новини и др.), като всяка тема се разклонява на няколко поднива. Някои директории за търсене:

Име

Ау!

www.au.ru

Атрус (изисква се регистрация)

www.atrus.ru

List.ru

www.list.ru

съзвездие

www.stars.ru

Охлюв

www.ulitka.ru

Иван Сусанин

www.susanin.ru

    Търсачки автомобили . За подробно търсене на документи се използват специализирани системи за търсене – търсачки. Когато се получи потребителска заявка, търсачката извежда списък с документи, които отговарят на задачата за търсене. Намерените документи се класират в зависимост от местоположението на ключовите думи (в заглавието, в началото на текста, в първите абзаци) и честотата на тяхното появяване в текста. Използването на различни търсачки дава различни резултати. Най-често срещаните търсачки:

Име

азиндекс

www. yandex. ru

Апорт

www.aport.ru

РАмблър

www.rambler.ru

Жъгъл

www.google.ru

Мейл

www. поща.ru

аз xo

www.yahoo.com

А ltavista

www.altavista.com

Заявката за търсене може да се състои от една или повече думи и може да съдържа различни препинателни знаци. Що се отнася до регистъра, в общ случай, случай на писане на думи за търсене и операториняма значение , тоест думите „абстракт“, „Абстракт“, резюме, „АБСТРАКТ“ и „ReferAt“ ще се възприемат еднакво. Това с пълна сила важи и за латинската азбука. И така, "Yдs" и "yES", и дори "yes", "yes" и "YES" те са еднакви за търсене.

Практическа работа "Търсене на информация в глобалната Интернет"



Скривайки аромата в пъпките,

Люлякът цъфти.

Май цъфти, което означава

Днес е празник - Първи май!

    Запазване стихотворение:


  1. Извършете търсене празнични снимки:


  2. Вижте резултатите от търсенето разположени на 1 страница. Отидете на страница 2: превъртете колелото на мишката, за да стигнете до дъното на прозореца на браузъра и щракнетеЛ KM на връзката към страницата2 .

    Изберете снимката, която харесвате и щракнете върху неяЛ КМ.

В нов прозорец ще видите същата снимка, само увеличена. Вдясно от него ще има информация за размера на изображението и сайтовете, на които се намира.

    Копирайте снимката :

    1. щракнетеП КМ от снимката;

      изберете отборКопиране на снимка ;

      затворете прозореца на браузъра, като щракнете върху бутонаБлизо .

    Поставете снимка за документи:

    1. отиди до прозореца текстов редактор(трябва да има поздравително стихотворение);

      Закачете курсора с щракванеЛ KM след последния знак от стихотворението (това е! ) и натиснете клавишаВъведете за преместване на курсора на нов ред;

      щракнетеП KM;

      в локалното меню изберете командатаПоставете .

    Запазете документа във вашата лична папка под иметоЧестито на *** от *** . Вместо първото *** въведете името на лицето, на което ще бъде изпратено поздравлението; Вместо второто *** напишете вашето име. Например,Поздравления за Анастасия от Олга . Затворете програмата си за текстов редактор.

    Стартирайте браузъра си Google Chrome
    .

    Отидете до пощенската си кутия на порталапоща . ru

    В главното меню на пощата (в горната част на прозореца) изберете командатаПишете .

    Попълнете задължителните полета :


  1. Изберете бутонИзпратете (намира се както в горната, така и в долната част на прозореца на браузъра).

    Затворете прозореца на браузъра си.

    Изключете компютъра си.

Упражнение 1

Упражнение : Разберете името на най-голямото сладководно езеро в света.


За оптимална и бърза работа с търсачките има определени правила за писане на заявки. Подробен списък за конкретен сървър за търсене по правило може да бъде намерен на самия сървър чрез връзките Помощ, Подсказка, Правила за заявки и др.

    Организирайте търсене и попълнете таблицата с резултатите от търсенето:

    Въпрос

    Резултати от търсенето (брой страници)

    yandex . ru

    ръмблер . ru

    google.ru

    поща .ru

    апорт . ru

    Как да намерите човек в интернет по снимка?

    Как да се регистрирам на уебсайта VKontakte?

    Как да премахнете червените очи?

    Затворете браузъра (излезте от програмата).

Упражнение 2

Упражнение : намирамбиография на министъра на образованието Руска федерацияФурсенко А.А. с помощта на търсачкаж oogle. r u

Упражнение 3

Търсене на литературни произведения в Интернет




внимание! За да видите формат на книгиFB2 имате нужда от специална програма ("четец"). Например,AlReader .


Себестойността на продукта е един от важните икономически показатели за икономическата дейност на предприятията.

Себестойността на продукта е един от важните икономически показатели за икономическата дейност на предприятията. Изчислява се в парично изражение и отчита всички разходи на предприятието, свързани с производствения процес и продажбата на неговите продукти. Тоест себестойността показва колко струват на фирмата продуктите, които произвежда.

В допълнение към определянето на себестойността на единица основния продукт е необходимо да се изчисли себестойността на производството на спомагателни отдели, полуготови продукти от основното производство и продукти на всички отдели и цехове на предприятието.

Оценяването или изчислението ви позволява да определите икономическата рентабилност на производството.

Анализирайки работата на отделите на предприятието, въз основа на разходите за единица продукция, можете да прецените рентабилността на тяхната работа за анализирания период.

Ако разходите за продукти (работи, услуги) на спомагателните отдели на предприятието са на правилното ниво в сравнение с разходите на този раздел, тогава тяхната дейност се счита за ефективна.

Когато разходите се увеличат, е необходимо да се преразгледат установените продажни цени. Ако продажната цена не може да се промени, но производствените разходи на предприятието се увеличават, е необходимо да се подобри организацията на производството, да се подобри технологията, да се провежда ефективна и икономична политика за доставка на необходимите суровини, материали и др.

Всички видове готови продукти, които ще бъдат продадени, както и услугите и работата, извършени по поръчки от трети потребители, са себестойностни единици.

За продуктите обектът на изчисление е част (комплект, единица, част, екземпляр).

За продукти обект на изчисление могат да бъдат следните единици:

тегло - грамове, килограми, тонове;

обемни – кубични метри (сантиметри, дециметри);

плоски – квадратни метри (сантиметри, дециметри);

линейни - метри (сантиметри, дециметри).

Ако технологичният процес изисква опаковане на готовата продукция, обект на изчисление може да бъде съд, варел, бутилка, торба и др.

Като се вземат предвид видовете продукти, спецификата на работата и услугите, тяхната сложност, вид, характер на технологичния процес и организация на производството в промишлените предприятия, могат да се използват различни методи за изчисляване на продуктите.

Тези методи са:

· нормативен;

· процес по процес;

· направен по поръчка;

· напречен.

Организация на търсене на информация в Интернет. Системи за търсене на информация.

Търсенето на информация в Интернет се осъществява по два основни начина – с помощта на директории (наричани още директории) и с помощта на търсачки.

Директориите осигуряват контекстно търсене за структурирано сърфиране, докато търсачките, както подсказва името им, не предоставят контекст, но ви позволяват да намерите конкретни думи или фрази.

Директориите могат да бъдат оприличени на съдържанието на книга, а търсачките могат да бъдат оприличени на предметен индекс.

Често търсачките съчетават едновременно търсачка и директории.

Това ясно се вижда в примера на първата страница на Yandex, където под лентата за търсене има списък с директории, които позволяват на потребителя да прецизира заявката, докато се движи по-дълбоко във всяка от тях.

Всички търсачки работят по един и същи алгоритъм и се основават на едни и същи принципи. Разликите между тях възникват само на нивото на техническо изпълнение на тези принципи в работата.

Примери за търсачки:

ü AltaVista (http://www.altavista.com)

ü Yahoo (http://www.yahoo.com)

ü FTPSearch (http://ftpsearch.lycos.com)

ü "DISCO Seeker" на компанията "DISCO" (http://www.disco.ru)

ü Yandex (http://www.yandex.ru)

ü Google (http://www.google.ru)

ü Рамблер (http://www.rambler.ru)

ü Поща (http://www.mail.ru)

ü MSN Русия (http://ru.msn.com) и др.

Всички търсачки са базирани на три основни оператора. Това са логическите оператори „И“, „ИЛИ“ и „НЕ“. Те работят по следния начин.

1. Логическо "И". Ако има оператор „И“ между две думи в заявката, тогава резултатът от търсенето ще намери само онези документи, които съдържат и двете думи. Така, например, заявката dog ​​AND cat ще намери документ, съдържащ изречението „кучето гонеше котката“, но няма да видим документи, състоящи се от текста „котката си почиваше“ или „кучешка храна“.

2. Логическо "ИЛИ". Ако има оператор „ИЛИ“ между думите, тогава резултатът от търсенето ще бъдат документи, които съдържат поне една от тези думи.

Освен ако не направим специални ограничителни клаузи, ще бъдат намерени и материали, в които присъстват и двете думи.

3. Логично "НЕ". Ако предишните два оператора са описали думите, които искате да включите в заявката, тогава операторът „НЕ“ изключва думите от заявката. Потребителите, които се сблъскват с оператори на заявки за първи път, често изразяват изненада: казват те, не би ли било по-лесно изобщо да не включвате ненужна дума в заявката? Всъщност, за да разберем важността на логическия оператор NOT, има смисъл да запомним, че нашата заявка не създава нищо ново в Интернет. Извличаме само това, от което се нуждаем, от съществуващия огромен, но все пак ограничен масив. В този случай е необходимо да се отреже информационният боклук. Това е, което отрязахме с помощта на оператора „НЕ“. За съжаление, не зависи от нас да решим дали ще видим този боклук в резултатите от търсенето. Така например, при искане на информация за билото на покрива, неизменно се появява информационен боклук под формата на документи за Малкия гърбав кон, фигурно пързаляне, хокей, коне и т.н. Няма как да се мине без логично „НЕ ”.

2. Глобална мрежа. Информационни услугиИнтернет мрежи: електронна поща, телеконференции, Световната мрежа.

Интернет е глобална компютърна мрежа, която хоства различни услуги.

Компютърна мрежаможе да изпълнява две функции:

Да бъде средство за комуникация между своите потребители, намиращи се на разстояние един от друг (ще наричаме тази функция комуникация);

Бъдете средство за достъп до общ информационни ресурси(ще наричаме тази функция информационна).

Услуги (услуги или съоръжения) на мрежата

Най-често срещаните функционални услуги в Интернет са:

електронна поща

Имейлът беше първата интернет услуга и все още е най-използваната интернет услуга днес. Електронната поща е предназначена за обмен на пощенски съобщения между интернет абонати. С помощта на електронна поща можете да изпращате и получавате съобщения, да отговаряте на получени писма, да изпращате копия на писмо до няколко получатели наведнъж, да препращате получено писмо на друг адрес и т.н.

Телеконференции

Друг вид онлайн информационна услуга, наречена „телеконференции“, напомня абонамент за електронен вестник, в който се появява информация по определена тема – новини, бележки, отговори на въпроси, отговори на предишни публикации и др. Авторите на тази много разнообразна и свръхбърза информация са самите потребители на мрежата, обединени от общи интереси. Телеконференциите по дизайн и начин на работа са много подобни на електронната поща, с единствената разлика, че вашето писмо може да бъде прочетено от огромен брой хора и на свой ред можете да се интересувате от това, което ви пишат напълно непознати.

World Wide Web или WWW

WWW е мрежа от документи, свързани помежду си чрез хипервръзки.

По този начин се приписват различни значения на използването на различни термини: мрежата е система от взаимосвързани компютри, т.е. техническа система, а мрежата (Web) е система от взаимосвързани документи, тоест информационна система.

Разбира се, „мрежата“ от документи съществува на базата на компютърна мрежа.

Всеки отделен документ, който има собствен адрес, се нарича уеб страница.

Всяка уеб страница може да има много връзки към други страници, които се съхраняват както на същия компютър, така и на други компютри в мрежата. На фиг. Фигура 3 схематично показва наслагването на мрежа от документи в компютърна мрежа. Плътните линии показват уеб сървъри и връзките между тях, пунктираните линии показват уеб документи и техните връзки.

Форуми за директна комуникация - IRC (Internet Relay Chat). Буквално преведено - „чат“ в реално време (чат конференции). Комуникацията между участниците се осъществява онлайн в писмена форма. Подобно на телеконференцията, участниците в чат конференцията са разделени на тематични групи.

Интернет телефония

Това е гласова комуникация през Интернет в режим on-line. Това е нова, развиваща се услуга. Основното му предимство пред телефона е ниска цена. Качеството все още е по-ниско телефонна комуникация(закъснения във времето, изкривяване на звука) обаче няма съмнение, че с времето този недостатък ще бъде преодолян.

3. Местен компютърни мрежи: основни понятия, цел.

Компютърната мрежа е съвкупност от компютри, свързани чрез канали за предаване на данни.

Мрежата е група от свързани компютри и други устройства. Концепцията за свързани компютри и споделяне на ресурси се нарича работа в мрежа. Компютрите в мрежата могат да споделят:

ü данни;

ü принтери;

ü факс машини;

ü модеми;

ü други устройства.

Този списъкнепрекъснато се актуализира, тъй като се появяват нови начини за споделяне на ресурси.

Има няколко основни мрежови топологии, т.е. физическо разположение на компютри, кабели и други компоненти:

За изграждане на Ethernet мрежа ще ви трябва следното оборудване:

1. Мрежови карти - по една за всеки компютър.

2. Превключвател – устройство, към което всички кабели от мрежови картикомпютри.

3. Кабели.

Основни приложения локални мрежи

1. Автоматизиране на административно-управленската дейност, организиране на „електронни кабинети”, в които се използва електронна поща вместо хартиен документооборот;

2. Автоматизация на производството - автоматизация технологични процеси, Информационна поддръжка оперативно управлениепроизводство, планиране и икономическо управление на производството;

3. Автоматизация на научните изследвания и разработки;

4. Автоматизация на обучението, обучението и преквалификацията на персонала;

5. Автоматизиране на институционалните дейности.

Въведение. - 4

1. Информация система за търсене. - 5

1.1. Документографски IPS. - 6

1.2. Фактически IRS. - 8

2. Търсачка на глобалния интернет. - 9

2.1. Как работят търсачките. - 9

2.2. Технология за търсене. - 14

3. Търсачки на глобалната Интернет. - 18

3.1. Как да търсим в интернет - 18

3.2. Търсене в директории. - 21

3.3. Индекси за търсене. - 23

4. Сравнителна характеристика на две търсачки

системи, базирани на Rambler.ru и Yandex.ru. - 29

4.1. Rambler.ru - 29

4.2. Yandex.ru. - 35

Заключение. - 40

Литература. - 42

Приложение. - 43

Въведение


Интернет направи живота по-лесен по много начини. модерно общество, глобализира го, увеличи възможностите на някои хора и намали възможностите на други. Днес е много по-удобно и изгодно да използвате пощенски услуги чрез интернет (например писмо от Тоболск до Лондон ще стигне до Лондон за 5 секунди).

По мои наблюдения Интернет се превърна в източник на бизнес, източник на световна култура, източник на образование и средство за масова комуникация.

Днес всеки потребител в Интернет може да получи достъп до всички световни фондови борси и музеи за няколко секунди. Всеки потребител може да се образова чрез Интернет и да се запознае с водещите световни електронни вестници.

Информацията се превърна във виртуалното злато на нашите дни и тези, които могат да я получат по-бързо, ще постигнат по-бърз и по-голям успех. И без значение кой сте, бизнесмен, който търси нов пазар, или студент, който търси материал за курсова работа, и двамата се нуждаят от информация и Интернет може да им я даде, ако имат достатъчно знания, за да я приемат.

Ще ми отнеме много време да изброявам ползите от интернет за гражданите на Земята, но се страхувам, че няма да свърша скоро.

Искам да отбележа основното нещо в Интернет, неговият „крайъгълен камък“, това е информация и нейните основни свойства:

1) Широка наличност

2) Скорост

Неопитните потребители имат мит, че Интернет има всичко. Всъщност моят опит в Интернет доказа, че това не е така. Материалите за публикуване в Интернет се подготвят от живи хора и затова можете да намерите там само това, което те смятат за необходимо (в смисъл на полезно или полезно за себе си) да публикуват. Реката обаче се захранва от потоци и благодарение на тяхната креативност днес в интернет вече са се оформили около два милиарда уеб страници. В резултат на това каталогизирането на наличните в мрежата ресурси се превърна в сериозен проблем. Въпреки факта, че хиляди организации работят по него, проблемът не само не е по-близо до разрешаването му, но и става все по-остър. Процентът на каталогизираните (или индексираните) ресурси постоянно намалява. През последните две години този спад стана катастрофален. Така че, ако през 2000 г. процентът на индексираните ресурси е бил близо 40%, то само за една следваща година той е спаднал до 25%. Изводът е прост: уеб пространството се запълва по-бързо, отколкото се систематизира. За съжаление, интернет специалистите нямат причина да вярват, че нещо ще се промени към по-добро в близко бъдеще. В резултат на това търсенето на информация в световната мрежа може да се счита за най-трудната задача в интернет.

Във връзка с горното, висококачественото търсене на информация в Интернет е една от най-належащите теми в нашето време, този проблем ме е засягал повече от веднъж.

Темата на моята курсова работа ме заинтересува поради своята оригиналност и новост и искам да се опитам да я разкрия. Моята задача ще бъде да организирам ефективно търсене на информация в Интернет.

1. Система за търсене на информация


Преди да стигнете до конкретни механизми за търсене в Интернет, е необходимо да разберете теоретична основавъпроси като "какво е информация?", "Информационни процеси?", "Система за търсене на информация и нейните видове?".

Няма ясен отговор какво е информация; можем само да дадем някои от свойствата, които характеризират този термин:

" Информация - това е информация, която е обект на съхранение; това е съдържанието на съобщението, сигнала, паметта, както и информацията, съдържаща се в съобщението, сигнала, паметта."

Процесите на предаване, съхранение и обработка на информация винаги са играли важна роляв живота на обществото. Хората обменят устни съобщения, бележки, съобщения. Те си предават молби, заповеди, отчети за свършената работа, описи на имуществото; публикувайте реклами и научни статии; пазете стари писма и документи; Дълго обмислят новините, които получават, или веднага бързат да изпълнят инструкциите на началниците си. Всичко това - информационни процеси. Информацията винаги е свързана с материален носител, а нейното предаване винаги е свързано с разход на енергия. Една и съща информация обаче може да се съхранява в различни материални форми (на хартия, под формата на фотонегатив, на магнитна лента, ...) и да се предава с различни енергийни разходи (по пощата, по телефона, по куриер и др. ), Освен това последствията - включително материални - от предадената информация са напълно независими от физическите разходи за нейното предаване. Например, с леко натискане на бутон се спуска тежка театрална завеса или се взривява голяма сграда, червен светофар спира влак, а неочакваната неприятна новина може да причини инфаркт. Следователно информационните процеси не могат да бъдат сведени до физически, а информацията, наред с материята и енергията, е една от основните единици на заобикалящия ни свят. През 20 век С развитието на технологиите се появиха нови устройства: комуникационни средства, устройства за автоматизация, а от 40-те години на миналия век. - компютърна технология. Оказа се, че ефективността на тяхната работа не може да се опише с физически концепции и че основните характеристики на такива устройства трябва да бъдат описани по съвсем различни начини. В резултат на това за първи път възниква точното понятие за информация и математическата теория на информацията. Стана ясно, че средствата за комуникация, независимо какви физически процеси използват, са средства за предаване на информация. Комбинацията от понятията „информация“ и „управление“ доведе Н. Винер през 40-те години. до създаването на кибернетиката, която по-специално за първи път посочи общността на информационните процеси в технологиите, обществото и живите организми.

Използването на концепцията за информация има значително влияние върху развитието на съвременната биология, особено нейните клонове като неврофизиология и генетика. И накрая, във връзка с развитието на компютърните технологии, които стимулират информатизацията на цялото общество, възниква комплекс от науки за различни аспекти на работата с информация - компютърни науки.

" Система за търсене на информация - това е система, в която се съхранява информационен масив, от който се предоставя необходимата информация според изискванията на потребителя."

Търсенето на информация по искане на потребителя се извършва автоматично или ръчно (както в библиотеките, когато читателят прави заявка до служителя на референтната колекция и служителят използва каталожната система). Във втория случай се използват компютри, оборудвани със специален софтуер, който анализира процесите на заявки, търсения и издаване необходими документи. По този начин системите за търсене на информация (IRS) реализират връзка въпрос-отговор, което доближава задачите, пред които са изправени създателите на такива системи, до задачите, които се решават от създателите на системи човек-машина.

Системите за извличане на информация са разделени на два вида:

1. Документографски IRS.

2. Фактически IRS.

1.1 Документографски IRS


В такава система за търсене на информация всички съхранявани документи се индексират по някакъв специален начин. На всеки документ (статия, доклад, протокол и др.) се присвоява индивидуален код, който съставлява изображението за търсене на документа. Търсенето е в ходне от самите документи, а от техните изображения за търсене, които съдържат информация (адрес) за местоположението на документа. Така се търсят книгите по поръчка на читатели в големите библиотеки (в малките библиотеки обикновено библиотекарят сам търси книги). По желание на читателя те първо намират карта в каталога, а след това с кода, посочен на нея, се намира самата книга.

Разликите между документографските системи за извличане на информация се определят от това как е структурирано изображението за търсене на документа. В най-простия случай това е просто индивидуалното му име (например заглавие, автор, година на издаване на книгата). В по-сложни случаи няма едно към едно съответствие между търсеното изображение на документа и самия документ. Напълно възможно е изображение за търсене на документ да съответства на няколко различни документа и, обратно, един и същ документ да съответства не на едно, а на няколко изображения за търсене.


Например изображенията за търсене на документи в дескрипторните системи имат такава неяснота. "Дескрипторът е дума или фраза, тясно свързана със съдържанието на документ. Набор от дескриптори дефинира група от документи с подобно съдържание." IN напоследъкСписанията, публикуващи научни статии, изискват от авторите си да предоставят списък с ключови думи за всяка статия, които служат като дескриптори. Ако, например, опишете статията, която четете, като използвате ключови думи, тогава един от възможните списъци ще бъде следният: извличане на информация, система за извличане на информация, дескриптор, тезаурус, изображение за търсене на документ.

Използвайки набор от тези ключови думи (набор от дескриптори), можете да намерите тази статия сред всички статии в книгата, ако въведете нейното съдържание статия по статия във всеки IRS от дескрипторен тип.

Общата блокова схема на дескриптора тип IPS е показана на фиг. 1. Тази схема има два входа. Информационният масив от документи, съхранявани в системата, се попълва един по един, а вторият получава потребителски заявки.

1.2 Фактически IRS

За разлика от документно-графичните информационни системи, информационните системи от този тип съхраняват не документи, а факти, свързани с всяка предметна област. Съхранените факти могат да бъдат извлечени от различни документи. Например, необходимо е да се преработи историята на осемнадесети век в база данни с факти, те са свързани помежду си чрез система от различни взаимоотношения. Такава мрежа в IRS се нарича тезаурус на предметната област. Запитванията, получени от системите за извличане на фактическа информация, използват тезаурус, за да намерят отговори на запитвания. Търсенето се извършва с помощта на метод за търсене, подобен на този, широко използван в базите знания на системите с изкуствен интелект.

Например, необходимо е да се преработи историята на осемнадесети век и да се събере цялата информация за Екатерина II.

IRS от фактически тип постепенно се доближават по своята организация и функциониране към развитите бази данни и знания.

2. Търсачка на глобалния интернет.


Не искам да влизам в плевелите вътрешна работатърсачка (на електронно ниво), т.к това не отговаря на целите на моята работа, а според мен това е работа на програмисти Най-високо нивокъм което се стремя сега.

Искам да разглобя и изложа в подробности как започнах да разбирам технологията за извличане на информация и самия механизъм за извличане на информация.

2.1 Технология за търсене на информация в Интернет


Самата технология за търсене става по-разбираема на фиг. 2.

1) Първо, потребителят решава проблем, какво иска да намери и къде може да се намира.

2) След това отива в интернет, в обикновен прозорец на Internet Explorer (браузър) (Фиг.-3). Ако потребителят знае името на сайта, където се намира информацията, която го интересува, той просто съобщава името му и отива на него.

Пример. Потребителят иска да разбере за разпространението на филми днес и отива на уебсайта film.ru (фиг. 3).

Това е най-примитивният начин за търсене на информация в интернет и търсенето може да свърши дотук.

информация за филм, който беше пуснат преди много време, например, за да намерите филма „Брат-2“, е достатъчно в прозореца



Търсенето се извършва автоматично въз основа на броя думи, намерени на сървъра. Първата група от намерени връзки с най-добри показатели по отношение на броя на намерените срещания на търсените думи ще бъдат прехвърлени на неговия компютър.

Често, заедно с връзка, може да се покаже кратка информация за документа. Ако сред намерените документи няма необходими, тогава може да се покаже следващата група - общият брой документи обикновено е в хиляди. За да отидете на сървъра, където се намира намерената информация, просто щракнете върху връзката в резултата от търсенето.

Това е най-примитивният начин за търсене на информация в интернет и търсенето може да свърши дотук.

Съществуват и системи за вътрешно (локално) търсене на сайта.

Пример. В същия film.ru е възможно да се види

информация за филм, който отдавна не е по кината, до

Например, намерете филма "Брат-2", точно в прозореца

въведете думата за търсене Brother-2 (Фигура-3).

3) Ако потребителят не знае името на сайта, където може да намери информацията, която го интересува, тогава той прибягва до помощта на някоя търсачка. Има значителен брой хора, работещи онлайн помощни системи. След достъп до посочения сървър той ще получи на екрана формуляр за заявка, в който трябва да въведе информация за търсенето. Обикновено във формата е възможно да се ограничи областта за търсене (например по тема). Той може да въведе желания термин, да определи областта за търсене и да се опита да получи отговор.

Търсенето се извършва автоматично въз основа на броя думи, намерени на сървъра. Първата група от намерени връзки с най-добри показатели по отношение на броя на намерените срещания на търсените думи ще бъдат прехвърлени на неговия компютър. Често, заедно с връзка, може да се покаже кратка информация за документа. Ако сред намерените документи няма необходими, тогава може да се покаже следващата група - общият брой документи обикновено е в хиляди. За да отидете на сървъра, където се намира намерената информация, просто щракнете върху връзката в резултата от търсенето.

Обикновено търсенето на двойка ключови думи ще доведе до десетки хиляди връзки към документи, съдържащи тези термини. Такъв обем от резултати рядко позволява ефективно намиране на „перла“ сред материали, които не са свързани с темата на търсенето. Какво можете да препоръчате?

Първо, потребителят трябва да стесни областта за търсене. Опитайте се да определите на кой профил сървъри, в коя държава и т.н. най-вероятно можете да намерите материалите, които ви интересуват. Помислете какви други ключови думи могат да характеризират обектите за търсене, използвайте няколко ключови думи.

Ако обектът за търсене указва няколко термина, тогава търсачката търси всяка дума в документа независимо. Тоест резултатът от търсенето може да доведе до документ, който съдържа само една дума, но няколко пъти. Следователно, когато дефинирате термините за търсене, можете и трябва да използвате логически операции.

Например, въвеждането на word_1&word_2 ще ви принуди да търсите онези страници, където се използват както първият, така и вторият термин.

Второ, необходимо е да се извърши търсене във всички известни търсачки. Всеки от тях използва своя собствена, малко по-различна технология за търсене. Следователно напълно сходни търсения могат да доведат до различни резултати. Повечето търсачки са безплатни, така че нищо не ви пречи да извършвате толкова търсения, колкото са ви необходими.

Трето, много често резултатът може да бъде получен чрез търсене на документи въз основа на възможни връзки към тях.

Потребителят трябва да се опита да определи кои известни документи могат да съдържат препратки към неговите теми. И чрез хипертекстови връзки в документите, достигайте до желания източник. Често този начин е ефективен. Опитайте се да намерите организации (WWW сървъри), които имат профил, подобен на темата за търсене. Понякога чрез връзки в документите на тези сървъри можете да получите достъп до необходимите материали.

Четвърто, опитайте се да намерите конференция на подобни теми, т.е. просто отидете на някой ЧАТ. Например в www.anekdotov.net.ru. Често въпрос, "хвърлен" в дискусионна група, ще предостави достатъчно основна информация.

И накрая, не забравяйте да попитате приятелите си. Те могат да предложат неочаквано решение.

Във всеки случай трябва да сте подготвени за факта, че търсенето може да отнеме доста дълъг период от време и да изисква значителни усилия.

Пример. Потребителят влиза в търсачката Yandex.ru и в прозореца за търсене въвежда думата Brother-2, след което се извършва търсене на всичко, което по някакъв начин може да бъде свързано с тази дума. Yandex ще препоръча да се обърнете към много сайтове, включително film.ru и директно към сайта за самия филм. (Фиг.-4)

2.2 Как работят търсачките

Търсачката обикновено търси подходяща информация чрез три стъпки:

I) Етап: Робот (агент, паяк или робот) навигира в интернет и събира информация.

II) Етап: Цялата информация, събрана от роботите, влиза в базата данни под формата на връзки и се индексира.

III) Етап: Стартира се търсачка, която потребителите използват като интерфейс за взаимодействие с базата данни. тези. базата данни генерира хипервръзки и след това потребителят просто търси в необходимите връзки.

Тези етапи са ясно изразени в работата на блоковата схема (фиг. 2)

Първите две са подготвителни и невидими за потребителя.

Нека разгледаме по-подробно етапите на търсене на информация в

Търсачка:

I) Етап. Търсачката събира информация от световната мрежа. За това те използват специални програми, подобно на браузърите. Те могат да копират дадена уеб страница на индексен сървър за търсене, да я прегледат, да намерят всички хипервръзки, които са в нея, да отидат до посочените в тях URL адреси, да копират ресурсите, които са намерени там, отново да намерят хипервръзките, които са там и т.н. d. Това са специални програми, като агенти, паяци, роботи и роботи, които търсят страници в Интернет, извличат хипертекстови връзкина тези страници и автоматично индексират информацията, която открият, за да изградят база данни. Всяка търсачка има свой собствен набор от правила, които определят как да се събират документи. Някои следват всяка връзка на всяка страница, която намерят, и след това на свой ред изследват всяка връзка на всяка нова страница и т.н. Някои игнорират връзки, които водят до графични и звукови файлове, анимационни файлове; други са инструктирани първо да разгледат най-популярните страници.

Агенти - най-„интелигентният“ инструмент за търсене. Те могат да правят повече от просто търсене: могат да оставят съобщение за вашето посещение на сайта. Още сега те могат да търсят сайтове на конкретна тема и да връщат списъци със сайтове, сортирани по техния трафик. Агентите могат да обработват съдържанието на документа и да намират и индексират други видове ресурси, не само страници. Те също могат да бъдат програмирани да извличат информация от съществуващи бази данни. Каквато и информация да индексират агентите, те я предават обратно в базата данни на търсачката.

Общите търсения на информация в Интернет се извършват от програми, известни като паяци. Паяци отчетете съдържанието на намерения документ, индексирайте го и извлечете обобщена информация. Те също разглеждат заглавия, някои връзки и изпращат индексираната информация до базата данни на търсачката.

Обхождащи машини сканирайте заглавките и върнете само първата връзка.

Роботите могат да бъдат програмирани да следват различни връзки с различна дълбочина на вмъкване, да извършват индексиране и дори да проверяват връзки в документ. Поради естеството си, те могат да заседнат в цикли, така че изискват значителни мрежови ресурси, за да следват връзки. Има обаче методи, предназначени да попречат на роботите да търсят сайтове, чиито собственици не искат те да бъдат индексирани.

роботи извличане и индексиране различни видовеинформация. Някои, например, индексират всеки отделна думав срещания документ, докато други индексират само най-важните 100 думи във всяка, индексират размера на документа и броя на думите в него, заглавието, заглавията и подзаглавията и т.н.

Типът на конструирания индекс определя какви търсения могат да бъдат направени от търсачката и как ще бъде интерпретирана получената информация.

Хората, които искат да предоставят информация на широката общественост или които искат повече трафик към техния сайт, поставят кратки откъси за това, което представлява този сайт, директно в индекса, като попълват специален формуляр за секцията, в която предполагат, че роботът за търсене ще свържете се и изтеглете този сайт в базата данни и го предоставете на някой потребител.

Когато някой иска да намери налична информация в Интернет, той посещава страницата на търсачката и попълва формуляр, описващ информацията, от която се нуждае. Тук могат да се използват ключови думи, дати и други критерии. Критериите във формата за търсене трябва да съответстват на критериите, използвани от роботите, когато индексират информацията, която намират, докато навигират в мрежата.

Индексираната информация се изпраща в базата данни на търсачката по същия начин, както е описано по-горе.

II) Етап: След копиране на търсените уеб ресурси на сървъра на търсачката, започва вторият етап от работата - индексирането. По време на индексирането се създават специални бази данни, с помощта на които можете да определите къде и кога е намерена определена дума в Интернет. Индексираната база данни е вид речник. Това е необходимо, за да може търсачката да отговаря много бързо на заявките на потребителите.

Базата данни намира предмета на заявката въз основа на информацията, предоставена в попълнения формуляр и показва съответните документи, изготвени от базата данни. За да определи реда, в който ще се показва списъкът с документи, базата данни прилага алгоритъм за класиране. В идеалния случай документите, които са най-подходящи за заявката на потребителя, ще бъдат поставени първи в списъка.

„Операцията за сортиране на получените резултати се нарича класиране.“

Различните търсачки използват различни алгоритми за класиране, но основните принципи за определяне на уместността са следните:

Броят на думите за заявка в текстовото съдържание на документа (т.е. в html кода).

Тагове, в които се намират тези думи.

Местоположението на думите за търсене в документа.

Делът на думите, по отношение на които се определя уместността, в общия брой думи в документа.

Тези принципи важат за всички търсачки. И представените по-долу се използват от някои, но доста известни (като AltaVista, HotBot).

Време - колко време е страницата в базата данни на търсачката. Първоначално това изглежда като доста безсмислен принцип. Но ако се замислите колко сайтове има в интернет, които живеят максимум месец! Ако сайтът съществува от доста дълго време, това означава, че собственикът е много опитен в тази тема и потребителят би бил по-подходящ за сайт, който разказва на света за поведението на масата от няколко години, отколкото такъв, който се появи преди седмица със същата тема.

Индекс на цитиране - колко връзки към тази страницаводи от други страници, регистрирани в базата данни на търсачката. Базата данни извежда подобно класиран списък от HTML документи и го връща на потребителя, който е направил заявката. Избират и различни търсачки различни начинипоказване на получения списък - някои показват само връзки; други показват връзки с първите няколко изречения, съдържащи се в документа или заглавието на документа заедно с връзката.

III) Етап. Заявката на потребителя се обработва и резултатите от търсенето му се предоставят под формата на списък с хипервръзки. След това работата на потребителя е да обработи връзките, предоставени от базата данни. Когато щракне върху връзка към един от документите, които го интересуват, този документ се изисква от сървъра, на който се намира; ако информацията на потребителя в този сайт не го удовлетворява, той щраква върху друга връзка. Този етап може да отнеме много време и да се окаже най-труден за потребителя.


3. Търсачки

В интернет има много търсачки (търсачки), те имат различни видове, всяка със своите предимства и недостатъци. Потребителят винаги ще бъде преодолян от такива въпроси: как да търсите в Интернет, коя кола е по-добра. Така че ще се опитам да отговоря на тези въпроси.

3.1 Как да търсите в Интернет

При търсене в Интернет са важни два компонента - пълнота (нищо не се губи) и точност (нищо излишно не се намира). Обикновено всичко това се нарича с една дума - релевантност, тоест съответствието на отговора на въпроса.

1. Покритие и дълбочина.Под покритие имаме предвид обема на базата данни на търсачката: който се измерва с три показателя – общ обем индексирана информация, брой уникални сървъри и брой уникални документи. Под дълбочина имаме предвид дали има ограничение за

брой страници или дълбочина на вложени директории на един сървър.

Как да проверите:Някои машини пишат статистики за роботи на уебсайта си. Но можете да го проверите сами - трябва да зададете няколко заявки за търсене, състоящи се от една дума (за да изключите влиянието на езика на заявката, включително различни интерпретации на интервала), и в същото време да погледнете статистиката на резултатите, произведени от машината - обикновено в началото на списъка се посочва колко общо документа са намерени. Освен, че думите трябва да са от различни области, е добре да се вземат думи с различно „тегло” – редки, „средни” и „тежки” (честота) и да се сравни намереното количество. Тежките думи, по-специално, тестват пълния текст (индексиране на всички думи в документа) на търсачката.

По-трудно е да проверите дълбочината на обхождане на робота - за да направите това, трябва да вземете някои сайтове, например с разклонена архивна структура, и да проверите дали документи, които могат да бъдат достигнати само с 6 щраквания върху връзките се индексират.

2. Скорост на обхождане и уместност на връзките.

Скоростта на обхождане на мрежата показва колко бързо се индексира новодобавен ресурс и колко бързо се актуализира информацията в базата данни. Важен показател за качеството на търсачката (нейния робот) е не само „улавянето“ на нови територии: но и

проследяване на състоянието на вече обхванатите. Сървърите изчезват и се появяват, страниците на тях се актуализират. Предоставени връзки търсачкав списъка на намерените трябва, първо, да съществуват и, второ, тяхното съдържание трябва да съответства на заявката.

Как да проверите:Обективна информация може да бъде получена чрез анализиране на сървърни регистрационни файлове - роботът на търсачката обикновено се представя с името на своята машина (или подобно), така че можете да видите колко често посещава сървъра, колко страници преглежда и т.н. За съжаление, обикновено само дневникът на вашия собствен сайт е достъпен за проучване, така че експерименталният метод остава.

За да определите скоростта на обхождане, трябва да създадете някъде страница с текст, да я добавите към търсачките и да видите колко бързо ще започне да се появява. Или променете съществуваща страница. За да определите уместността на връзките, проверете документите поне на първата страница от намерения списък за няколко заявки. Съобщението „Не е намерено“ показва, че документът вече не съществува.

3. Качество на търсенето(субективен показател).

Всяка търсачка има свой собствен алгоритъм за сортиране на резултатите от търсенето. Колкото по-близо до върха на списъка е документът, от който се нуждаете, толкова по-добре работи уместността.

Как да проверите:Само чрез експеримент. Препоръчително е да правите заявки с различна дължина за сравнение. Можете също да използвате език за заявки, а тези, които не желаят да четат описанието, могат да използват разширената страница за заявки („разширено търсене“ в Aport и Yandex, „подробна заявка“ в Rambler - опции за превод на руски „разширено търсене“).

Освен уместността, има важни потребителски характеристики.

1. Скорост на търсене.Ако търсачката реагира бавно, тя ще бъде неефективна. Струва си да се добави, че скоростта, видима за потребителя, зависи не само от самата търсачка, но и от интернет каналите.

Как да проверите:Чрез експериментиране трябва да търсите заявки с различна дължина, различна „тежест“ на думите и в различни часове на деня (натоварването на сървъра е значително неравномерно през целия ден, пикът е около три или четири часа следобед) .

2. Възможности за търсене (работа с език за документи, език за заявки).Друга точка за сравнение е какво точно и как търсачката въвежда в индекса. Търсачката за пълен текст индексира всички думи в текста, видими за потребителя. Наличието на морфология прави възможно намирането на търсените думи във всички склонения или спрежения. Освен това в HTML езикИма тагове, които също могат да се обработват от търсачка (заглавия, връзки, надписи за снимки и др.). Почти всички машини имат език за заявки под формата на стандартни логически оператори (И, ИЛИ, НЕ). Някои хора знаят как да търсят фрази или думи на дадено разстояние - това често е важно за получаване на разумен резултат. Допълнителна функцияе търсене в области на документи - заглавия, връзки, ключови думи (META KEYWORDS) и др. Допълнителна характеристика на езика за заявки е заявка на естествен език, която не изисква познаване на оператори.

Как да проверите:Обикновено тази информация се публикува на сървъра на търсачката (в Помощ), но се препоръчва да се проверява по реални заявки, тъй като понякога желаното се представя за реалност.

3. Допълнителни удобства.Това са допълнителни функции, които търсачката предоставя на потребителите. Това включва всички видове опции за търсене (специализирани страници, търсене на подобни документи, ограничаване на областта за търсене), както и списък с намерени сървъри, и търсене по дата и сървър, както и удобен интерфейс на търсачката и възможност за персонализиране.

Как да проверите:Информацията може да бъде частично публикувана на сървъра на търсачката, но е най-добре да се опитате да работите с тези функции сами.

Търсачките се състоят от директории за търсене и индекси за търсене,Много индекси за търсене също съдържат директории. Нека да ги разгледаме.

3.1 Търсене в директории

Всяка книга започва със съдържание и завършва с азбучен указател. Въпреки факта, че се намират на различни места в книгата и изглеждат напълно различно, те имат една и съща задача: да ви помогнат да намерите точно този раздел в книгата, който е необходим в момента. Съдържанието е пример за каталогизиране.

Когато човек избере тема, която го интересува, той използва нея, за да намери номера на страницата, където се обсъжда тази тема. Азбучен индекс е пример за индексиране (на английски индексът е индекс). Човек намира желания термин в индекса и получава номера на страницата, на която се появява.

Директориите са различни от търсачките. Директориите са колекция от сайтове, събрани в тематични секции. Тези заглавия от своя страна могат да бъдат разделени на подзаглавия, които също могат да имат още по-малки поддиректории и т.н.

От гледна точка на потребителя директориите са същите като търсачките. Но тези каталози са пълни не с „роботи“, както на знаците, а с най-живите хора. Това е много добре за потребителите, тъй като дава по-подходящи резултати в сравнение с търсачките. Отчасти индексът за търсене съдържа и каталог, представен е под формата на съдържание (хипервръзки) на най-популярните теми.

Когато каталогизира ресурс, опитен редактор внимателно го преглежда и определя към коя област на знанието принадлежи. този ресурс, установява своята категория в тази индустрия и въвежда ресурса в каталога. Най-голямата директория в интернет е Yahoo (www.yahoo.com). В него работят повече от 150 квалифицирани редактори. Това е голяма организация, но нейните усилия са достатъчни само за поддържане на директория с приблизително 1 милион ресурса. По-нататъшното разширяване е ограничено от необходимостта


в руската част на Интернет в таблица 1. [приложение]

3.3 Индекси за търсене

Индексите за търсене са автоматизирани системи. Те са в състояние да функционират без човешка намеса и следователно познанията им за истински интернет ресурси са много (няколко порядъка) по-големи от тези за директориите. Броят на индексираните уеб страници може да бъде стотици милиони.

Индексът за търсене работи на три етапа, които са посочени в параграф 2.2.

Конкретните препоръки за избор на индекс за търсене остаряват много бързо. Ситуацията в интернет се променя буквално пред очите ни. Едва ли минават шест месеца без нещо да се промени в търсачките. Системата, която беше най-добрата вчера, може да не е най-добрата днес и много лоша утре. В същото време популярността е сложно нещо. Трудно се печели, но трае дълго. В резултат на това много често се сблъскваме със ситуация, в която най-популярното далеч не е най-добрата система. Ще помогнем на читателя да се научи как самостоятелно да проверява различните търсачки и да избира тези, които дават най-добри резултати. При проверка размерът на индекса за търсене не е критичен. Не се нуждаем от милиони връзки, а само от две или три, но за предпочитане най-добрите. Следователно е важно не само колко уеб страници е индексирала търсачката, но и кога за последно е направила това, колко често впоследствие е проверявала уместността на връзките и колко правилно представя резултатите от търсенето.

Сравнителен преглед на търсачките.

Няма нужда да се говори подробно за това как да се използват директории за търсене. Тъй като просто трябва да отидете на сайта, да изберете категорията, която ви интересува, да изберете раздел в нея и така нататък, докато се отвори списък с конкретни връзки.

Много по-интересно е да се разгледат техниките за използване на индекси за търсене, особено след като тези техники са различни за различните индекси. Но преди да започнете да изучавате конкретна система, е необходимо да разгледате общите понятия, които се прилагат еднакво за всички индекси за търсене; като пример ще разгледам такива популярни и според мен най-удобните индекси за търсене като Yandex и Rambler.

И ще започна с разглеждане на основните видове търсене. По принцип има само четири вида търсене.

Всички индекси за търсене прилагат няколко алгоритми за търсене. Те включват: просто търсене, разширено търсене, контекстно търсене и специално търсене.

Просто търсене.С просто търсене в полето за заявка се въвеждат една или повече думи, които могат да характеризират съдържанието на документа. Ако това е една дума, тогава, като правило, отговорът е толкова голям брой връзки, че не е ясно какво да правим. Ако са въведени няколко думи, резултатът зависи от това как са въведени думите, което от своя страна зависи от конкретната използвана система. Методите за просто търсене в различните търсачки като правило са различни и преди да ги използвате, препоръчително е да прочетете инструкциите. Просто търсене в Rambler е представено на

Фиг.-8. Когато въведете фразата: Всичко е объркано в къщата на Облонски, индексите за търсене дават следните резултати: Rambler 9 (документи)

Yandex 2400 (документи)

Подробно търсене.Разширеното търсене винаги включва заявка от група думи. При разширените търсения в повечето случаи е разрешено свързване на ключови думи с логическите оператори И (И), ИЛИ (ИЛИ), НЕ (НЕ) и други. Основното предимство на разширеното търсене е, че като правила за запис на ключови думи и логически оператори в различни системиили еднакви или много подобни. Следователно, след като овладеете усъвършенстваните техники за търсене, можете да ги използвате навсякъде. Просто трябва първо да превключите системата в желания режим (фиг. 9.)

Когато въведете фразата: Всичко е объркано в къщата на Облонски, в разширеното търсене индексите за търсене дават следните резултати: Rambler 9 (документи)

Yandex 2400 (документи)

Фиг.-8 Просто търсене в Rambler


Фиг.-9 Превключване на системата в режим на разширено търсене.

Контекстно търсене.Това е много полезен вид търсене, който, за съжаление, не се прилага във всички индекси за търсене. Системите, които го поддържат, трябва да бъдат особено ценени. Контекстното търсене изисква точно съвпадение на фраза или група от думи, например „Всички

смесени в къщата на Облонски. В повечето търсачки, които включват този метод, ключовата фраза трябва да бъде оградена в кавички: „Всичко е объркано в къщата на Облонски.“ (Фиг. 10)

Когато въведете фразата: „Всичко е объркано в къщата на Облонски“, индикаторите за търсене дават следните резултати:

Rambler 0 (документи)

Yandex 8 (документи)

Фиг.-10. Контекстно търсене в RAMDLER.RU


Специално търсене.С помощта на специални команди за търсене се търси допълнителна информация. Например, такива команди ви позволяват да определите колко често хипервръзки, сочещи към ресурс, се намират в Интернет; с тяхна помощ можете да намерите ключови думи,

включени в заглавките на уеб страници и др. По правило специалните команди за търсене в различните търсачки са различни.

Също така е необходимо да се разгледа Общи правилазаписи на команди за търсене.


Общи правила за писане на команди за търсене:

Думи разделени с интервали

Да приемем, че потребител трябва да намери уеб страница, която казва нещо за работата Microsoft система Windows. Логично е да въведете думи в полето за търсене Microsoft Windowsи изчакайте резултата. Но резултатът може да бъде обезсърчаващ. Някои търсачки разбират такъв запис като Microsoft И Windows - те ще дадат това, което потребителят търси. Други може да разберат този запис като Microsoft ИЛИ Windows - тогава ще бъдат търсени всички уеб страници, които съдържат или първата дума, или втората, или и двете. Потребителят, разбира се, се интересува само от онези страници, на които и двете думи се появяват заедно, но те ще бъдат буквално заровени сред други страници, от които той не се нуждае.

Когато започвате да работите с непозната система, трябва да започнете, като проверите как тя обработва групи от ключови думи. Първо въведете една дума: Microsoft. Можете да видите колко резултата ще произведе системата.

Rambler 28184 (документи)

Yandex 1048379 (документи)

След това се въвежда втората дума: Windows. Отново се проверява количеството. Въведени са и двете думи: Microsoft Windows.

Когато въведете фразата: Microsoft, индексите за търсене дават следните резултати:

Rambler 6641 (документи)

Yandex 259276 (документи)

Ако броят на намерените уеб страници е по-голям, отколкото в първия и втория случай, това означава, че системата счита, че ключовите думи са свързани чрез връзка ИЛИ (множествата са комбинирани). Ако резултатът е по-малък от всеки от първите тестове, тогава системата използва връзката И (множествата се пресичат). И в двата случая ще трябва да се запознаете обща информацияза да научите как да получите обратния резултат. Например, всички големи руски търсачки по подразбиране използват оператора И между думите, въпреки че системата Yandex има свои собствени характеристики (вижте Таблица 2). Там се смята, че тези две думи трябва да присъстват едновременно не в документа, а в едно изречение. Ако е достатъчно да присъстват в документа, всяка дума трябва да бъде предшествана от знак<+>. В същото време възниква обратният проблем: как да се гарантира, че се търсят документи, съдържащи една от дадените ключови думи, тоест как да се зададе съотношението ИЛИ?

"Rambler": Microsoft ИЛИ Windows; (50986 документа)

"Yandex": Microsoft | прозорци; (2034641 документа)

Ролята на главните букви

В повечето търсачки „хляб“ не е равно на „ХЛЯБ“, а „ХЛЯБ“*„хляб“. Общото правило е: ако клиентът е въвел малки букви, тогава се търсят и малки, и главни букви, но ако клиентът е използвал главни букви, тогава се намира точно съвпадение само с главни букви. Класически пример е Червената шапчица. Ако ги въведете точно по този начин, като използвате главни букви, тогава само документи, които съдържат

комбинация от Червената шапчица. Въпреки това, ако ключовите думи са написани като червена шапка, тогава ще бъдат намерени повече документи. През ситото за селекция ще преминат всички документи, съдържащи следните комбинации: червена шапчица, Червена шапчица, червена шапчица и Червена шапчица. Следователно не е необходимо да злоупотребявате с използването на главни букви в заявката и да ги използвате само когато има абсолютна увереност в резултата.

Някои търсачки обаче са различни. Така например в системата Rambler, по време на индексирането, всички главни букви са принудително „понижени“ до малки букви. Това означава, че използването на главни букви в заявка не е полезно в тази система.

Когато въведете фразата: Червената шапчица, индексите за търсене дават следните резултати:

Rambler 2921 (документи)

Yandex 16458 (документи)

Ролята на запазените думи

Запазените думи са думи, които не се вземат предвид при обработката на заявка. Докато индексира уеб страниците, програмата ги премахва от текста, което значително намалява размера на индексите и намалява времето за търсене. Към запазени думи обикновено

Те включват неинформативни думи: предлози, съюзи, местоимения, членове и други малки думи. Така че, например, ако търсите фразата „Всичко беше объркано в къщата на Oblonskys“ в системата Yandex, тогава ще бъдат търсени и документи, съдържащи Какво беше объркано в къщата на Oblonskys? - и къде се обърка? В къщата на Облонски? Някои системи могат да запазват думи, които се срещат изключително често и следователно не са информативни. Ако например системата е фокусирана върху търсенето на книги, тогава думата книга не е информативна за нея. Думата auto е неинформативна за система за търсене, занимаваща се с автомобилни въпроси, а думите компютър и интернет са неинформативни за системи, фокусирани върху търсене на информация за компютърни технологии. Особено важно е да се вземе предвид ролята на запазените думи, когато се извършва контекстно търсене, защото контекстното търсене изисква точно съответствие между това, което потребителят е поръчал и това, което се появява в уеб документите. Ако системата за търсене „очисти“ уеб документите от запазени думи на етапа на индексиране, тогава тя не може да се справи с контекстното търсене, освен може би чрез „разглеждане“ на копия на уеб страници, ако съхранява такива, но това отнема много време. Следователно честното контекстно търсене в търсачките е рядкост. В Русия, например, и Yandex, и Rambler само се преструват, че предоставят възможности за контекстно търсене; за това фразата за търсене трябва да бъде поставена в кавички. След някои прости тестове обаче е лесно да се провери, че това всъщност не е контекстно търсене, а точно търсене на запазени думи. Пример, когато заявката „Всичко беше объркано в къщата на Oblonskys“ дава резултат Какво беше объркано в къщата на Oblonskys. В таблица 2 предоставям сравнително описание на основните търсачки (търсачки). [Приложение]


4. Сравнителна характеристика на две търсачки на базаРАmbler. ruИЯндекс. ru


4.1 RAMBLER

Rambler.ru исторически (преди появата на Yandex) е най-популярната търсачка в Русия. Тя започна работа по-рано от другите и за дълго времебеше лидер в размера на индекса за търсене и качеството на услугите за търсене. Уви, днес тези постижения са в миналото. Въпреки факта, че размерът на индекса за търсене на Rambler е приблизително равен на 12 милиона уеб страници, той не е бил правилно актуализиран от дълго време и дава остарели резултати. Днес Rambler е популярен портал, най-добрата система за класификация и рейтинг в Русия, плюс рекламна платформа. (Фиг.-10)

Методи за търсене в системата Rambler:

Език за търсене

Заявката за търсене може да се състои от една или повече думи и може да съдържа препинателни знаци. Можете да създавате прости заявки, без да навлизате в тънкостите на езика на заявките. Така че, ако въведете няколко думи в лентата за търсене без препинателни знаци и логически оператори, ще бъдат намерени документи, съдържащи всички тези думи (и на ограничено разстояние една от друга).

Но познаването и правилното използване на езика за заявки в търсачката ще ви помогне да направите търсенето в Rambler бързо и ефективно.

Регистрирам

Като цяло случаят на писане на думи за търсене и оператори няма значение, тоест къща и DOM, Not и nOt се възприемат еднакво. И само понякога, за да се подобри качеството на търсенето, регистърът на думите заявка за търсенесе взема предвид.

Например, ако заявката се състои от две, три или четири думи, всяка от които е написана с главна буква, тогава се предполага търсене на собствено име и ограничението на разстоянието между думите на заявката автоматично се променя от стойността по подразбиране на стойност (n-1)*2, където n е броят на думите за заявка. Това ви позволява да намерите група от думи за заявка, в които няма повече от една „допълнителна“ дума или препинателен знак, например „Баден-Баден“, „А. Пушкин“, „Фьодор Михайлович Достоевски“.

Оператори

Заявка от няколко думи може да съдържа оператори. В документа няма търсене по оператори, те служат само като инструкции към търсачката. Всички оператори на търсачката са двоични, т.е. имат лява и дясна страна, всяка от които също е заявка (състояща се от една дума по подразбиране). Скобите и кавичките се използват за промяна на обхвата на операторите (групиране на множество думи на заявка в аргумент на оператор). Две заявки, свързани с оператора И (логическо И), образуват сложна заявка, която се удовлетворява само от тези документи, които едновременно удовлетворяват и двете заявки. С други думи, заявката „куче И котка“ ще намери само документи, които съдържат както думата „куче“, така и думата „котка“.

Сложна заявка, състояща се от две заявки, свързани с оператора ИЛИ (логическо ИЛИ), се удовлетворява от всички документи, които удовлетворяват поне една от тези две заявки. Заявката „куче ИЛИ котка“ ще намери документи, които съдържат поне една от думите „куче“ или „котка“ (или и двете думи заедно). Операторът NOT (логическо И) създава заявка, на която отговарят документи, които отговарят на лявата страна на заявката и не отговарят на дясната. Така резултатът от търсене на заявката „куче НЕ котка“ ще бъдат всички документи, които съдържат думата „куче“ и не съдържат думата „котка“. Ако операторът не е изрично указан, се използва операторът И по подразбиране: намират се само документи, съдържащи всички думи на заявката. По този начин заявката „кредит за информационни технологии“ ще се тълкува като „информация И технология И кредит“. На страницата за разширено търсене операторът по подразбиране може да бъде заменен с ИЛИ (Думи за заявка за търсене: поне една).

Всеки оператор има съкращение:

Съкращение на оператора

Заявка от няколко думи, осеяни с оператори, ще бъде интерпретирана според техния приоритет. Операторите AND и NOT традиционно имат по-висок приоритет, така че при обработката на заявка от няколко думи тя първо се групира от операторите AND и NOT и едва след това от операторите OR. Можете да промените реда на групиране, като използвате скоби.

Цитати

Можете да използвате двойни кавички, за да търсите кавички. Думите за заявка, затворени в двойни кавички, се търсят в документи в точния ред и във формата, в която се появяват в заявката. По този начин двойните кавички могат да се използват и за просто търсене на дума в дадена форма (думите се намират във всички форми по подразбиране). Например заявката „самолетът „зареден с гориво“ кацна“ се удовлетворява от документ, съдържащ текста „... самолетът кацна и се зареди с гориво...“, и не се удовлетворява от документ, съдържащ „.. самолетът кацна на зареждам...”.

Скоби

Когато конструирате заявки, понякога става необходимо да комбинирате думите на заявката в групи, които ще бъдат аргументите на някой оператор. Такива групи са оградени в скоби. Частта от заявката, затворена в скоби, сама по себе си е заявка и подлежи на правилата на езика за заявки. Използване на скоби

ви позволява да създавате вложени заявки и да ги предавате на оператори като аргументи, както и да замените приоритетите на операторите по подразбиране. Ако заявката без скоби „автомобил самолет | летище“ е еквивалентна на заявката „кола И самолет ИЛИ летище“ и в съответствие с приоритетите на операторите означава „намиране на документи, съдържащи думите „автомобил“ и „самолет“ или думата летище, тогава заявката с в скоби „автомобил (самолет | летище)“ е еквивалентна на заявката „кола И (самолет ИЛИ летище)“, което означава „намерете документи, съдържащи думата „автомобил“ и една от думите „ самолет” или „летище”.

Метазнаци

Rambler все още не поддържа търсене на низове с помощта на метасимволи ("*", "?"), които обикновено се използват съответно за означаване на "всеки подниз" и "произволен единичен знак". Тези оператори обаче са запазени за подобна бъдеща употреба.

Използване на език за заявки

Всяка заявка, адресирана до търсачката Rambler, се обработва в съответствие с правилата на езика на заявката. Някои думи и знаци се третират като оператори на език за заявки и се обработват по специален начин. Всъщност езикът на заявките описва определена формула, която се използва по време на търсенето - всеки от документите се „съвпада“ с него и резултатът от търсенето е само тези документи, които го удовлетворяват. Например, заявката „самолет“ се удовлетворява от всички документи, в които думата „самолет“ се появява поне веднъж под произволна форма. Заявка с няколко думи се удовлетворява от документи, съдържащи всяка от тези думи във всякаква форма (при определени условия). Дали даден документ отговаря на по-сложна заявка се определя от логиката на операторите и конструкциите на езика за заявки.

Морфология

За всяка дума за заявка търсенето се извършва, като се вземат предвид правилата за флексия на съответния език. Rambler разбира и различава думите на руски и английски езици- по подразбиране търсенето се извършва във всички форми на думата. Например, търсенето на думата "лице" също ще намери документи, съдържащи думите "лице", "мъж", "лице" и дори "хора". За да търсите само една конкретна форма на дума, трябва да я поставите в двойни кавички или да използвате търсенето на точната фраза в разширеното търсене.

Безопасни думи

Някои думи и символи са изключени от заявката по подразбиране поради ниското им информационно съдържание. Това са така наречените стоп думи - най-често срещаните думи в руския и английския език, например предлози, частици и членове. Наличието на тези думи може да забави вашето търсене и да повлияе отрицателно на пълнотата на вашите резултати. Възможно е да посочите необходимостта от тези думи в заявка, като оградите заявката в двойни кавички или използвате търсенето на точна фраза в разширеното търсене.

Ограничение на разстоянието

Ако една заявка е съставена от една или няколко думи без използване на оператори и конструкции на езика на заявката, тогава ще бъдат намерени документи, които съдържат всички думи на заявката. Освен това за всяка заявка винаги има така нареченото ограничение на контекста - положително число, по подразбиране равно на разстояние от 40 думи. Документ, съдържащ всички думи за заявка, ще бъде върнат само ако разстоянието в думи между срещанията на думите за заявка е по-малко от това число. Например, заявката „червена армия“ ще намери онези документи, в които думите „червена“ и „армия“ се появяват поне веднъж, на по-малко от 40 думи една от друга. Стойността на контекстното ограничение може да бъде променена чрез конструкцията „(число, заявка)“, където число е всяко положително число, заявка е всяка заявка, която е правилна от гледна точка на търсачката, състояща се от повече от една дума (очевидно ограничението на разстоянието между думите в случай на заявка с една дума няма смисъл). По този начин заявката „(2, червена армия)“ ще намери само онези документи, в които няма нито една дума между думите „червена“ и „армия“ поне веднъж (тъй като само в случай на непосредствена близост разликата в поредните номера на думите по-малко от 2, т.е. равно на 1)

Неоткрити думи

Ако заявката се състои от няколко думи и някои от тях изобщо не могат да бъдат намерени в Интернет, тогава резултатите от търсенето се връщат за частична заявка, от която думите, които не са намерени в Интернет, са изключени. В този случай съответната диагностика се показва на страницата с резултати от търсенето.


Сортиране на резултатите

По подразбиране намерените документи се сортират по уместност (съответствие със заявката). Можете обаче да поискате най-новите (или, обратно, най-старите) документи да бъдат поставени в горната част на списъка. За да направите това, изберете подходящата настройка в менюто "Сортиране по..." на страницата с подробна заявка. Можете също така да ограничите търсенето си до документи, създадени през определен период от време: за да направите това, трябва да посочите „От дата... до дата..." на страницата с подробни заявки.

Разстояние между думите

Можете да изискате Rambler да върне само онези документи, в които думите от заявката са на минимално разстояние една от друга. Режимът "Ограничаване на разстоянието между думите" може да бъде активиран в подробна заявка. Всички правила, изброени по-горе, могат да се използват заедно едно с друго в необходимата последователност.

Предоставяне на резултати

По подразбиране резултатите от търсенето се връщат в партиди от 15 документа. Менюто "Извеждане от..." на страницата с подробна заявка ви позволява да увеличите този брой до 30 или 50. Менюто "Изходна форма..." ви позволява да получавате описания на документи с повишена или намалена детайлност.


4.2 YANDEX

Yandex.ru е търсачка, която при поискване може да намери най-подходящите уеб страници в руската част на Интернет. Yandex обхожда стотици хиляди уеб страници всеки ден, търсейки промени или нови връзки. Колекцията от връзки непрекъснато нараства. Yandex не изисква познаване на специални команди за търсене. Yandex ще намери всички, които са се свързали към страницата, файлове с желаната снимка, последните новини или продукти в електронните магазини. Системата Yandex се базира на най-големия индекс - приблизително 27 милиона уеб страници, но това не е само въпрос на размер. Това не е просто указател към ресурси, а указател към най-актуалните ресурси. По отношение на уместността Yandex днес е безспорен лидер (фиг. 4)

Техники за търсене в системата Yandex

Преди да започна да описвам езика на заявките на системата Yandex, ще отбележа, че той е значително по-мощен и по-сложен от езиците за заявки на други местни търсачки. Средният потребител обаче не трябва да се страхува. Дори ако наистина не обича да чете и особено да изучава инструкции, той може да работи със системата интуитивно.

По принцип системата Yandex използва евристични алгоритми, които не са напълно строги от математическа гледна точка. В резултат на това потребителят може да получи различни резултати, например ако търси документи с думите Буш Гор избори и Буш Гор избори. Но благодарение на тези алгоритми, интуитивният подход за създаване на заявки (без четене на инструкции) дава много добри резултати и то за много кратко време.

Търсене по една дума

Когато потребителят въведе търсената дума в полето за търсене и щракне върху бутона Намери, думите се търсят, като се вземат предвид всички възможни словоформи, което е особено важно за руския език. Например, ако се въведе думата сняг, тогава ще бъдат намерени документи, които съдържат думите сняг, сняг и т.н., но не и сняг, сняг и т.н. Ако търсенето на словоформи не е необходимо, то може да бъде отменено с удивителен знак, например! сняг.

Търсене по група думи

Ако думите са разделени с интервал, тогава се търсят документи, в които всички въведени думи се срещат в едно изречение. И така, по искане на изборите на Буш Гор

системата издава документи с фрази като... В навечерието на изборите хакери хакнаха сайтовете на Буш и Гор. Сред резултатите от такова търсене са възможни свободни съвпадения - търсачката показва своята интелигентност. За да гарантирате стриктно появата на думите в изречението, трябва да поставите знак + пред тях, например: +Буш +Гор +избори. Знакът + трябва да се пише заедно с думата, за която се отнася (без интервал). Интервалът действа като оператор И, който също може да бъде въведен изрично (символът &), например: +Буш& +Гор& +избори. Трябва да има интервали отдясно и отляво на логическия оператор.

Ако се изисква едновременно присъствие на думи не само в изречение, но и в целия документ, се използва операторът &&, например: +Bush&& +Gore&& +избори.

Сега ще разгледам техники за изключване на думи от търсенето. За да направите това, използвайте знака - (строго изключване от изречението), знака ~ (нестрого изключване от изречението) и знака ~~ (изключване от целия документ). Така например искането +Буш +Гор ~~избори ще позволи

изберете документи, в които думите Буш и Гор се срещат в едно изречение, но в целия документ няма дума избори и нейните производни (избор, на изборите, след изборите и т.н.).

В случаите, когато е необходимо да комбинирате ключови думи с помощта на оператора OR, се използва символът |. (вертикална лента). Например заявката Bush | Gore&& +изборите ще изберат документи, които споменават Джордж У. Буш или Албърт Гор, но трябва

Появява се думата избори.

Търсене по разстояние

Преди много време в търсачките се появи операторът NEAR, който ви позволява да намерите документи, в които две думи са разположени близо една до друга. Вярно е, че всяка система разбира какво е „близо“ по различен начин. В търсачката Yandex можете конкретно да посочите на какво разстояние една от друга трябва да се намират тези думи.

В документа всяка дума има собствен номер на позиция. Номерата на позициите на две съседни думи се различават с единица (номерът на позицията на думата вдясно е по-голям). Операторът за разстояние се записва като /+n, където n е числото, съответстващо на разстоянието. Например операторът /+1 съвпада с две последователни думи, така че Microsoft/+1 Windows е същото като „Microsoft Windows“.

Операторът за разстояние може да има и отрицателна стойност. Това означава, че втората дума, посочена в заявката, трябва да се появи преди първата в документа. Например, заявка Microsoft/-5 Windows може да предостави връзка към документ, съдържащ фраза за операционни системи, които ще заменят Windows, каза изпълнителен директор на Microsoft.

Когато извършвате търсене с индикация за разстояние, можете да посочите не точното разстояние между думите, а диапазон, например /(-5 +5). В този случай ще бъдат избрани документи, в които думите, посочени в заявката като ключови думи, попадат в посочения диапазон. Всъщност, ако знакът на параметъра не е посочен, това също е търсене в диапазона. Така че операторът /5 всъщност трябва да се разглежда като диапазон /(-5 +5). Заявката Bush/5 Gore ще намери изречения като: Жените симпатизираха на Буш, а мъжете - Гор или Гор Буш не е по-сладък.

Системата Yandex има доста сложни правила на езика за заявки (в сравнение с Rambler), но има широки възможности. Например разстоянията могат да се измерват не само между думите, но и между изреченията. Тази мерна единица се използва, когато в заявката се използва двоен знак && или ~~. Така заявката Bush/+1&&Gore ще върне документи, в които думите Bush и Gore се срещат в едно и също изречение или в съседни.

Използване на скоби

Задачата за търсене е по същество булев израз, който действа като филтър при преглед на документи, включени в базата данни на търсачката. IN

В логически израз, точно както в аритметичен израз, можете да използвате скоби. Те служат за контрол на реда на действията. Типичен пример: Буш&Гор&(избори | гласуване). Тази заявка ще върне връзки към уеб страници, съдържащи изречения, съдържащи думите Буш, Гор, избори или Буш, Гор, гласуване.

Управление на класирането

Целта на класирането е да гарантира, че уеб страниците

онези, които най-добре отговарят на заявката, се показват в списъка с резултати възможно най-рано. Какви алгоритми използва търсачката при класирането си е нейна работа. Потребителите или са доволни от работата си, или се обръщат към друга търсачка. В системата Yandex можете независимо да промените алгоритъма на механизма за класиране, като използвате тегловни коефициенти. Тази тежест може да бъде присвоена на всяка ключова дума или цял израз, стига да е оградена в скоби: Теглата се въвеждат с двоеточие, например Буш:5 Гор избори. С тази заявка документите, в които думата Буш се среща по-често, получават приоритет и се показват на по-високи позиции в получения списък.

Друга техника за управление на класирането е свързана с квалифициращата дума. Това е дума, която не е задължително да се съдържа в избраните документи, но ако я има, тогава този документ получава предимство при класиране. Уточняващата дума се въвежда след знаците<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Специално търсене

Особено внимание заслужават техниките за търсене на информация, съдържаща се в специални полета в заглавките на уеб страниците (всяка уеб страница има служебни полета в заглавката си) или търсене на специални елементи, включени в уеб страниците, като хипервръзки. В системата Yandex започват специални команди за търсене в полетата на заглавката

със символа $, а командите за търсене на отделни елементи от уеб страниците – със знака #. Всички специални инструменти за търсене работят значително по-бавно от обикновените.

Екип

Описание

Пример

Обяснение

$title (израз)

Търсенето на ключови думи, посочени в израза, се извършва само в заглавията на уеб страниците


$title (интервал)


Търсят се само уеб страници, които имат думата Space в заглавията си (фиг. 7.10)



Търсенето на ключови думи, посочени в израза, се извършва само в котвите на вътрешни връзки на уеб страници


$anchor (въведение)


Домашни (израз)


#ключови думи = (израз)


#ключови думи - (новини)



#абстракт = (израз)


Търсене в анотация на уеб страница

#abstract = (Буш | Гор)


#image = "име на файл"


Търсете файлове с илюстрации по техните имена


#image -"Буш.*"

Ако не е известно предварително какво разширение може да има името на файла, използвайте заместващия знак „*“, който замества произволен брой произволни знаци


#hint- (израз)

Намерете думи в илюстрации на алтернативен текст


(Буш | Гор)



#url = " URL адрес-адрес"

Потърсете сайт или уеб страница


#uri.= "www.anysite.ru"


Обикновено се използва за локализиране на търсенията. Например, за да ограничите търсенето до един сайт или, обратно, да го изключите от зоната за търсене


#връзка - адрес"

Често използван " URL адрес- за идентифициране на уеб страници, които имат хипервръзки, водещи към вашата собствена страница


Заключение

Успях напълно да отговоря на поставените въпроси и да разбера тази тема (как да провеждам ефективно търсене в Интернет?). От собствен опит се убедих, че в нашия век на високи технологии ефективното търсене на информация не може да бъде решено и остава един от основните проблеми. Мога да обясня това по следния начин.

Първо, не съвършенството на самите търсачки поставя под съмнение всяко търсене.

Търсачките нямат подреденост, структура, структура, структуриране, както и система, систематизация, систематизация, роботите на повечето търсачки носят огромен брой безполезни хипервръзки,

Второ, неопитността на потребителите, защото... търсенето и намирането на това, което ви трябва в купчина текстове в интернет е умение не само на търсачката, но и на потребителя, който задава въпроса.

Трето, алчността на програмистите и рекламните агенции, които ги наемат, които искат сайтовете им да бъдат търсени възможно най-често. Тези „алчни“ програмисти мамят роботите и пускат уебсайт в интернет, който уж съдържа необходимата информация, но има рекламни брошури или автоматична хипервръзка, изискваща рекламен сайт или, още по-лошо, платен сайт. Въпреки че специалистите, обслужващи търсачките, се борят с това явление, то все още става все по-разпространено с всеки изминал ден.

Днес Интернет се използва като справка от 23% от потребителите, инструмент за проучване от 15%, забавление от 14%, а само като източник на новини от 12%.

Не е оптимистично мнението, че 10% от потребителите винаги, но 73% често успяват да намерят необходимата информация.

На този въпрос коя търсачка е най-добрата и коя бих предпочел да използвам, ще отговоря по следния начин: трябва да използвате машината, която е по-удобна, а за мен е по-удобно да използвам Yandex.

Интернет направи търсенето по-лесно и изисква специфични познания за търсенето, днес то не винаги е ефективно, ние сме едва в зората на неговото развитие. И затова не бива да забравяме за старото не по-малко ефективно търсене на информация - книги и библиотеки, този източник на информация е оправдан от времето на „Александрийската библиотека“, а Интернет ще бъде по-ефективен в близко бъдеще и ще стане почти незаменим.

Списък на използваната литература


1. Андрей Аликберов „Няколко думи за това как работят роботите на търсачките.“

#"#">Използван е езикът на търсачката Yandex

Търсене по фраза

Префикси

Итеративно търсене (в резултатите)

След като влезете, щракнете върху Още...

замяна на част от дума

* (не винаги правилно)


Таблица 2

Обобщена таблица на водещите търсачки


азиндекс

Износ!

AltaVista

Област за търсене, обем на база данни

Руската част на интернет. Търсете в страниците на уебсайта от секцията каталог, по регион. Специално търсене на новини, продукти, снимки.

Руската част на интернет.

Руската част на интернет. Специализирано търсене на новини, продукти, снимки, MP3

Специализирано търсене на новини, продукти, развлечения, аудио (MP3) и видео.

Специализирано търсене за американски университети, Apple, Linux, BSD

Базов обем в началото на 2001г

Повече от 31 милиона документа

Повече от 12 милиона документа

Повече от 14 милиона документа

Повече от 250 милиона документа

1,25 милиарда страници

Тип индексиране

пълнотекстово индексиране

пълнотекстово индексиране

пълнотекстово индексиране

пълнотекстово индексиране и индексиране чрез връзки

Наличие на допълнителни услуги

Системата съчетава търсачка и каталог, както и редица допълнителни проекти (Zakladki.Ru, Narod.Ru, система за интелигентен избор на продукти, CY и др.).

Системата съчетава търсачка, каталог и допълнителни услуги (онлайн пазаруване и др.)

Системата съчетава търсачка, каталог и редица допълнителни услуги (хостинг, регистрация на име на домейн, превод и др.)

Системата съчетава търсачка и каталог, съдържащ 15 секции и 1,5 милиона уеб страници.

Синтаксис на езика за търсене

логично И

интервал или & (в рамките на изречение)&& (в рамките на документ)

И, &, интервал между думите по подразбиране

И, И, &,+, интервал между думите по подразбиране

И, & (само за сложни търсения)

по подразбиране за всички думи за търсене

логическо ИЛИ

ИЛИ (по подразбиране за просто търсене), | (само за сложни търсения)

двоичен оператор NAND

~ (в изречение)

~ ~ (в рамките на документа)

не се използва

заменен с префиксния оператор "-" (И е интервал по подразбиране)

И НЕ, ! (само за сложни търсения)

заменен с префиксния оператор "-"

префикси на задължителни (+) и забранени (-) думи

не се използва

+, - (само за просто търсене)

групиране на думи

не се използва

разстояние между ключовите думи при търсене

/(n m) - с думи, &&/(n m) - с изречения (- назад, + напред)

с разширено търсене - показване на документи само с минимално разстояние между думите

sl2(...), с2(...), w2(...), (- назад, + напред)

БЛИЗО (в рамките на 10 думи, само за сложни търсения)

не се използва

търсене по фраза

символи за заместване на думи

*, ? (заменете произволен знак)

* (само в края на думата)

езиково ограничение на документа

избор: всякакви, кирилица, латиница

избор: всеки, руски, английски

избор: руски, английски

избор от 25 езика

избор от 25 езика

морфология

всички склонения и спрежения по подразбиране, ! (търсене на точна дума)

# (всички форми на думи), @ (думи със същия корен)

! (индикация за нормална форма)

търсене по дати

ограничаване на търсенето по полета

Търсете в заглавия, адреси, имена на документи (само с разширено търсене). Търсете подобни документи.

Разширени възможности за формуляри, качество на помощта

настройка на разширена форма

настройка на речников филтър, настройки по дата, по сайт, връзка, изображение, специален обект

по документ, дата, И, ИЛИ режими, разстояние между думите, съкращаване на думи

по документ, заглавие, изображение, дата, 5 секции (уебсайтове, MP3, снимки, продукти, новини)

чрез булев въпросник, дата, сайт, връзка, изображение, текст и др.

настройка на изхода на резултатите

задаване на брой резултати на страница, изходна форма

уточняване на формата за издаване

задаване на броя резултати на страницата, всички елементи на изходната форма

задаване на броя резултати на страницата, всички елементи на изходната форма

класиране на резултатите от търсенето

сортиране по уместност или дата

по популярност на сайта

съгласно условията, посочени в SORT

по цитиране (връзки към страница от други страници)

итеративно търсене (в резултатите от търсенето)

да Извършва се чрез поставяне на отметка в квадратчето

да Извършва се с помощта на превключвателя за обхват на търсене

Извършва се чрез поставяне на отметка в квадратчето

Извършва се с помощта на

раздел за качество на помощ

има подробно описание на езика за заявки, синтактична таблица и раздел за търсене в категории

раздел за кратка ПОМОЩ

подробна справка за езика на заявките, има много руски синоними за основни оператори

най-големият онлайн урок за език за заявки, обсъждан в тази таблица

много ограничен раздел ПОМОЩ

семеен филтър

4.5.1. Традиционни интернет търсачки

За търсене на информация се използват специални външни услуги - сървъри за търсене: търсачки и директории.

Търсачките са сървъри, които натрупват информация за съдържанието на сайтовете автоматично, с помощта на специални програми-роботи.

Информацията за сървърите на директории се избира от хора. За разлика от търсачките, информацията в директориите е по-прецизно структурирана и във вертикална йерархична форма.

Както търсачките, така и директориите са външни услуги или, както още ги наричат, автономни системи. Характеристика на автономните системи е, че цикълът на работа с информация се извършва изцяло директно в тази система, започвайки с получаване на информация от първичния източник и завършвайки с предоставянето на услуга за търсене на крайния потребител.

Автоматизираните търсачки покриват по-голям обем информация, тяхната информация се актуализира по-често и следователно е по-подходяща. Информацията на такива сървъри обаче е зле структурирана, тъй като оценката на съдържанието на конкретен сайт е трудна задача за формализиране. Най-често програмата-робот избира документи само въз основа на наличието на търсените думи в текста на документа. Пример за търсачка е AltaVista (http://www.altavista.com).

В каталозите цялата информация има ясна вертикална йерархична структура. Освен това тази структура е изградена на базата на семантично съдържание. Това е основната стойност на директориите, обработвани от хора: можете да намерите не много сайтове, съдържащи тези ключови думи, но много сайтове, посветени на тази тема. Пример за директория е сървърът на Yahoo (http://www.yahoo.com).

WWW директориите, съдържащи голям брой записи, често хостват локални търсачки на своите страници. Внедрени под формата на традиционни шаблони, които не се различават много от шаблоните, базирани на автоматични индекси.

Както за търсачките, така и за директориите е установен определен принцип за подбор на информация. Този принцип е заложен или в алгоритмите на търсачките, или в правилата за работа на хората (за директории). В зависимост от това къде и какъв тип информация се натрупва, се оценяват две характеристики на автономните системи - пространствен мащаб и специализация.

Пространственият мащаб има за цел да ограничи броя на първичните източници на информация до определена крайна граница. Например, една търсачка може да бъде изградена само в един сайт. Търсенето може да бъде ограничено до един географски домейн (например ru). Такива системи се наричат ​​регионални.

Има много сървъри за търсене, които нямат такива ограничения. Те се наричат ​​глобални системи за извличане на информация.

Характеристиките на регионалния подход могат да присъстват и в глобалните системи. Така системата Lycos (http://www.lycos.com) сортира резултатите от търсенето в зависимост от региона, от който идва заявката.

Най-популярните сървъри за търсене са толкова натоварени, че има нужда от създаване на „огледала“. Огледалата трябва да съдържат точно копие на основната търсачка и да гарантират бързо обслужване на заявки, идващи от определена географска област.

Когато влизате в конкретна търсачка, трябва да имате предвид какви услуги предоставя тя. Например в местната търсачка Yandex (http://www.yandex.ru) е въведено търсене не само на страници, но и на сървъри. Същността на този метод е, че ключовите думи не се търсят за всички страници, а само по техните заглавия (това, което се съдържа в HTML между таговете "title"). Чуждата AltaVista има отделна услуга Real Names, която съдържа списък на всички регистрирани страници на компании и организации.

Следващата важна услуга е специализирането в търсенето. В момента Интернет е хранилище на различни видове информация. Следователно търсенето на информация също може да бъде формализирано. Можете да търсите изключително графични изображения, можете да търсите мултимедийни записи в MP3 формат и т.н. Много търсачки ви позволяват да посочите типа информация, която търсите. Освен това има сървъри, специализирани в търсене на информация от строго определен тип. FTPSearch (http://ftpsearch.lycos.com) е специализирана изключително в търсене на файлове. Той индексира всички видове ftp сървъри за файлове, намиращи се там. Търсенето се извършва директно по името на желания файл. По същия начин MP3Search (http://mp3.box.sk) е специализиран в търсенето само на MP3 файлове.

Друг важен момент е какъв език за заявки използва определена система. Колкото по-сложен е този език, толкова по-фина настройка на търсенето става възможна. Понастоящем няма единен унифициран език за заявки за търсачките. Разработването на такъв език би позволило интегрирането на различни услуги за търсене в единна система за супер търсене. През февруари 1999 г. стартира проектът SESP (Search Engine Standards Project), в който участват 15-те най-големи интернет търсачки. Задачата на проекта е да стандартизира работата на услугите за търсене (материали за него можете да намерите на http://www.searchenginewatch.com).

4.5.2. Метатърсачки

Друга обещаваща посока в развитието на услугите за онлайн търсене е използването на метатърсачки. Ядрото на метатърсачките е интерфейсът между потребителя и различни търсачки. Метатърсачката не е предназначена да индексира и натрупва информация. целта му е чисто търсене и обработка на резултатите от търсенето.

Метасистемата позволява, в съответствие с желанията на потребителя, да ограничи търсенето си до определени сървъри за търсене, да провери съществуването на ресурси, посочени от резултатите от търсенето, да извърши прецизирани търсения в резултатите от търсенето и т.н. Метатърсачките често се наричат ​​клиенти на търсачките.

Пример за система за метатърсене е вътрешното развитие на "DISCo Seeker" от компанията "DISCo" (http://www.disco.ru).

Основната характеристика на новото поколение системи за метатърсене е комбинацията от сървъри за търсене с различни специализации. Можете да търсите различни видове информация в едно приложение. При обработка на заявка за търсене е разрешена връзка с повече от 100 търсачки (включително специализирани). Резултатите от търсенето се обработват допълнително: връзките, които дублират вече намерените, се изключват от системата; Получените адреси се проверяват за наличност. Възможно е да конфигурирате работа със сървъри за търсене (можете да изберете сървърите, с които ще работи системата, да посочите максималния брой връзки, получени от всеки сървър и т.н.).

Въпреки това, дори и в случай на използване на метатърсачки, не можете да правите без познания за традиционните сървъри за търсене - те служат като основа за всяко търсене.



Свързани публикации