телевизори. Конзоли. Проектори и аксесоари. Технологии. Цифрова телевизия

29 технология за търсене на информация в Интернет. Интернет се разраства с невероятни темпове и намирането на необходимата информация за конкретен потребител не е много лесно. Но е възможно, тъй като в интернет има ресурси, които ще ви помогнат да не се удавите в океана от информация и


След като изучите тази тема, ще научите и повторите:

За какво са сървърите за търсене?
- предназначение на основните части на сървърите за търсене;
- какви видове търсене на информация съществуват в Интернет;
- основни правила за формиране на заявка в търсачката Yandex.

Търсене по URL

Най-бързият и надежден начин за търсене на информация в Интернет е търсенето по URL. Много от тях са представени в печатни издания, специални справочници, чуват се по популярни радиостанции и телевизионни екрани.

♦ Феновете на футболния клуб Зенит знаят наизуст адреса www.fc-zenit.ru.
♦ Феновете на групата „Кралят и шутът“ са добре запознати с официалния уебсайт на тази група www.korol.spb.ru.
♦ Феновете на канала NTV могат лесно да намерят уебсайта му на адрес www.ntv.ru. За бърз достъпЗа да получите достъп до горните ресурси, просто стартирайте програма за браузър, например Internet Explorerи наберете приятел URL адресв адресния ред.

Търсачки

Има огромно количество документи, концентрирани в Интернет. За да се улесни намирането на необходимата информация, се създават специални търсачки.

Търсачки- Това автоматични системи, анкетиращи сървъри, свързани към глобалната мрежа и съхраняващи в тяхната база данни информация за данните, налични на сървърите. Въз основа на специално формулирана заявка, търсачките предоставят информация за това къде можете да получите необходимите данни.

Обикновено търсачките се състоят от три части: робот, програма за индексиране и обработка на заявки.

Робот (паяк, робот или бот)е програма, която посещава уеб страници и чете (изцяло или частично) тяхното съдържание. Роботите на търсачките се различават по своята индивидуална схема за анализ на съдържанието на уеб страница.
Индекс на търсачкатае хранилище на изображения за търсене на страници, посетени от роботи. Изображение за търсене на документ (включително уеб страница) е описание на съдържанието на документа на специален език за извличане на информация. Това описание съдържа кодове на ключови думи на документа, които отразяват неговия смисъл и съдържание. Индексите във всяка търсачка се различават по обема и начина на организиране на съхраняваната информация. Базите данни на водещите търсачки съхраняват информация за десетки милиони документи, а индексираните им обеми възлизат на стотици гигабайти. Индексите периодично се актуализират и допълват, така че резултатите от една търсачка с една и съща заявка може да се различават, ако търсенето е извършено по различно време.

Програма за обработка на заявкие програма, която в съответствие с искането на потребителя „преглежда“ индекса за наличие на необходимата информация и връща връзки към намерените документи. Наборът от връзки на изхода на системата се разпределя от програмата в низходящ ред на релевантност, тоест от най-голямата степен на съответствие на връзката към заявката до най-малката.

В момента най-популярните за руските интернет потребители са три големи търсачки от индексен тип:

Тези системи отчитат граматическите характеристики на руския език, така че резултатите от тяхното търсене в рускоезични ресурси се различават повече високо качествоотколкото западните системи.

Търсачките се различават по покритие информационни ресурси:

♦ общите търсачки разполагат с база данни във всички области на знанието и се отличават с обширен индекс и голям обем натрупана информация;
♦ Търсачките със специално предназначение търсят само сайтове на конкретна тема, като музика или музеи.

Основните характеристики на търсачките са:

♦ обем документи в индекса;
♦ честота на актуализиране на информацията;
♦ информационното пространство, което роботът на търсачката покрива и разнообразието от видове документи, за които се събира информация;
♦ скорост на обработка на заявката;
♦ критерий за определяне на релевантността (съответствие на намерения документ със заявката за търсене);
♦ възможност за детайлизиране и изясняване на заявката.

Търсене по категория на търсачката

Директориите за търсене са систематична колекция (подбор) от връзки към други интернет ресурси. Връзките са организирани под формата на тематичен рубрикатор, който представлява йерархична структура, придвижвайки се по която можете да намерите необходимата информация.

Нека дадем за пример структурата на каталога за търсене в Интернет на Yandex. Това е директория с общо предназначение, тъй като съдържа връзки към интернет ресурси в почти всички възможни области. Следните теми са подчертани в този каталог:

♦ Бизнес и икономика;
♦ Директории и връзки;
♦ Общество и политика;
♦ Дом и семейство;
♦ Наука и образование;
♦ Развлечение и почивка;
♦ Компютри и комуникации;
♦ Култура и изкуство.

Всяка тема включва много подраздели, а те от своя страна съдържат заглавия и т.н.

Да предположим, че подготвяте събитие за Деня на победата и искате да намерите в интернет думите на известната военна песен на Булат Окуджава „Чуваш, че ботушите тракат“. Търсенето може да се организира по следния начин: Yandex Каталог Култура и изкуство Музика Авторска песен.

Този метод на търсене е доста бърз и ефективен. Накрая ви се предлагат само 5 връзки, сред които има връзки към сайтове с песни на известни бардове. Остава само да намерите архива с текстовете на песните на Б. Окуджава на сайта и да изберете желания текст от него.

Друг пример. Да кажем, че ще купувате мобилен телефони искате да сравните характеристиките на устройства от различни компании. Търсенето може да се извърши по следните каталожни заглавия: Yandex Каталог Компютри и комуникации мобилна връзкаМобилни телефони.

След като получите ограничен брой връзки, можете бързо да ги видите и да изберете телефон, като разгледате характеристиките на компаниите и модификациите на устройствата.

Търсене по ключови думи

Повечето търсачки имат възможност да търсят по ключова дума. Това е един от най-често срещаните видове търсене. За да търсите по ключови думи, трябва да въведете думата или няколко думи, които искате да търсите, в специален прозорец и да кликнете върху бутона Търсене. Търсачката ще намери и покаже документи, съдържащи тези думи, в своята база данни. Може да има много такива документи, но много в в такъв случайне означава непременно добре.

Нека проведем няколко експеримента с някоя от търсачките. Да приемем, че решихме да създадем аквариум и се интересуваме от всякаква информация по тази тема.

На пръв поглед най-простото нещо е да потърсите думата „аквариум“. Нека проверим това, например, в търсачката Yandex. Резултатът от търсенето ще бъде повече от 460 000 страници на 3500 сайта - огромен брой връзки. Освен това, ако се вгледате по-отблизо, сред тях ще има сайтове, които споменават групата на Б. Гребенщиков „Аквариум“, търговски центрове и неформални асоциации със същото име и много други, които нямат нищо общо с аквариумните риби.

Не е трудно да се досетите, че подобно търсене не може да задоволи и най-непретенциозния потребител. Твърде много време ще трябва да отделим за избиране сред всички предложени документи на тези, които се отнасят до темата, от която се нуждаем, и още повече за запознаване с тяхното съдържание.

Веднага можем да заключим, че търсенето по една дума като правило е непрактично, тъй като с помощта на една дума е много трудно да се определи темата, на която е посветен документ, уеб страница или сайт. Изключение правят редки думи и термини, които почти никога не се използват извън своята тематична област.

Нека се опитаме да изясним условията за търсене и да въведем фразата „аквариумни риби“. Резултатът от търсенето ще бъде малко повече от 20 000 страници и около 650 сайта. Както можете да видите, броят на връзките е намалял с повече от 20 пъти. Този резултат ни подхожда повече, но все пак сред предложените връзки може да има например руски сувенирни комплекти от етикети за кибрит с изображения на риби и колекции от скрийнсейвъри за работния плот на компютъра и каталози на аквариумни риби със снимки и аксесоари за аквариум магазини.

Очевидно е, че трябва да продължим да вървим към изясняване на условията за търсене.

За да бъде търсенето по-продуктивно, всички търсачки имат специален език за заявки със собствен синтаксис. Тези езици са сходни по много начини. Доста трудно е да ги проучите всички, но всяка търсачка го прави помощна система, което ще ви позволи да овладеете желания език.

Ето десет прости правила за формиране на заявка в търсачката Yandex.

1. Ключовите думи в заявката трябва да бъдат написани с малки (малки) букви. Това ще гарантира, че всички ще бъдат намерени ключови думи, а не само тези, които започват с главна буква.

2. При търсене се вземат предвид всички форми на думата според правилата на руския език, независимо от формата на думата в заявката. Например, ако в заявката е посочена думата „знаем“, тогава думите „знаем“, „знаете“ и т.н. също ще отговарят на условието за търсене.

3. За да намерите стабилна фраза, трябва да оградите думите в кавички, например „порцеланови чинии“.

4. За да търсите по точна дума, трябва да поставите пред думата Удивителен знак. Например, за да търсите думата „септември“ в родителен падеж, трябва да напишете „!Септември“.

5. За да търсите в едно изречение, думите в заявката се разделят с интервал или знак &: „приключенски роман“ или „приключенски роман“. Няколко думи, въведени в заявка, разделени с интервали, означават, че всички те трябва да бъдат включени в едно изречение на търсения документ.

6. Ако искате да бъдат избрани само онези документи, които съдържат всяка дума, посочена в заявката, поставете знак плюс „+“ пред всеки от тях. Ако, напротив, искате да изключите някоя дума от резултата от търсенето, поставете минус „-“ пред тази дума. Знаците “+” и “-” трябва да се пишат разделени с интервал от предходната и заедно със следващата дума. Например, заявката „Volga-car“ ще намери документи, които съдържат думата „Volga“, а не думата „автомобил“.

7. Когато търсите синоними или думи с подобно значение, можете да поставите вертикална лента „|“ между думите. Например, за заявката „дете | бебе | бебе" ще бъдат намерени документи с някоя от тези думи.

8. Вместо една дума в заявка, можете да замените цял израз. За да направите това, той трябва да бъде поставен в скоби, например „(дете | бебе | деца | бебе) + (грижи | образование).“

9. Знакът *~" (тилда) ви позволява да намирате документи с изречение, съдържащо първата дума, но не и втората. Например, заявката „книги ~ магазин“ ще намери всички документи, съдържащи думата „книги“, до която (в рамките на изречението) няма дума „магазин“.

10. Ако операторът се повтори веднъж (например & или ~), търсенето се извършва в рамките на изречението. Двойният оператор (&&, -) указва търсене в документ. Например, заявката „рак - астрология“ ще намери документи с думата „рак“, които не са свързани с астрологията.

Наличие на определен набор от най-често използвани термини в желаната област, можете да използвате разширено търсене. На фиг. Фигура 3.3 показва прозореца за разширено търсене в търсачката Yandex. В този режим възможностите на езика за заявки се реализират под формата на формуляр. Подобна услуга, включително филтри за речници, се предлага от почти всички търсачки.

Ориз. 3.3. Пример за разширено търсене в системата Yandex

Като се има предвид това правилният изборна желани и задължителни думи и изключване на нежелани термини, такова търсене може да даде добри резултати.

Да се ​​върнем на примера с аквариумните рибки. След като прочетох няколко документа, предлагани от търсачката, става ясно, че търсенето на информация в интернет не трябва да започва с избора на аквариумни рибки. Аквариумът е сложна биологична система, чието създаване и поддържане изисква специални знания, време и сериозни инвестиции.

Въз основа на получената информация човек, който търси в Интернет, може радикално да промени стратегията за по-нататъшно търсене, като реши да проучи специализирана литература, свързана с разглеждания въпрос.

За търсене на литература или документи с пълен текст е възможна следната заявка:

“+(аквариум | акварист | аквариум хоби) + за начинаещи + (съвет | литература) + (статия | теза | пълен текст) - (цена | магазин | доставка | каталог).”

След обработка на заявката от търсачката се получи следният резултат: страници - 195, сайтове - минимум 43.

Както се вижда от статистиката на търсенето, резултатът е много успешен. Вече първите линкове водят до необходимите документи:

Поставяне на аквариум > Съвети за начинаещ акварист >
Статии > Aq uascope. ru
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32KB) - стриктно съответствие.
СЪВЕТ ЗА НАЧИНАЕЩИ АКВАРИУМИСТИ. Как да изберем и инсталираме аквариум, как...
http://www.aquariums.ru/sovna.htm (2KB) 23.07.2002 г. - нестриктно съответствие.

Сега можете да обобщите резултатите от търсенето, да направите определени заключения и да вземете решение за възможни действия:

♦ Спрете по-нататъшното търсене, тъй като поради различни причини не можете да поддържате аквариум.
♦ Прочетете предложените статии и започнете да настройвате аквариум.
♦ Потърсете материали за хамстери или вълнисти папагали.

Професионално търсене

Изследователите и специалистите ще трябва да подходят по-внимателно към организирането на търсенето. При професионално търсенеИнформацията в Интернет трябва да отговаря на следните изисквания:

висока скоростизвършване на обиск;
♦ достоверност на получената информация;
♦ пълно покритие на ресурсите при търсене.

Скорост. Скоростта на търсене зависи главно от два фактора: компетентно планиране на търсенето (подбор услуги за търсенеи инструменти) и умения за работа с вече избран ресурс (способност за бързо разбиране на неговата структура и методи за навигация). Индексите за търсене не са достатъчни, за да осигурят скорост на търсене. В допълнение към тях в Интернет има редица ресурси за търсене, чието използване гарантира професионално търсене.

Достоверност. Въпросът за надеждността на информацията, получена от Интернет, е много важен, тъй като всеки може да публикува всякаква информация там, без да контролира нейното съответствие с реалността. Това от своя страна води до голям брой ненадеждни източници, като есета и курсови работи, които наводняват интернет.

Има специални услуги за търсене, които ви позволяват да оцените надеждността на източник на информация в Интернет.

Пълнота. Необходимо условиеУспешното пълномащабно събиране на информация е познаването на основните типове ресурси, съществуващи днес, и използването на различни услуги за търсене. Никоя търсачка не може да покрие всички интернет ресурси.

Като правило, за да постигне положителен резултат, потребителят трябва да прибегне до услугите на няколко търсачки. Можете да направите това сами, преминавайки от система към система, или можете да поверите тази работа на една от метатърсачките (meta е първата компонентсложни думи, обозначаващи системи за описание и изучаване на други системи).

Ориз. 3.4. Прозорци на метатърсачката

Метатърсачките нямат собствени бази данни за търсене и използват ресурсите на много други търсачки при търсене. Поради това вероятността да се намери необходимата информация е много висока. Работата в системите за метатърсене се извършва по същите правила като работата в търсачките. Това се дължи на факта, че метатърсачките са вид добавки към търсачките и използват техните индексни бази данни в работата си. Появата на метатърсачките наподобява външен видизвестни търсачки. На фиг. 3.4 показва прозорците на метатърсачките myweb.ru и metabot.ru.

Опитът показва, че в повечето случаи по-добри резултати се постигат при използване на няколко независими индекса за търсене, отколкото при използване на една метатърсачка.

Тестови въпроси и задачи

1. Каква е целта на програмата за браузър?

2. Какви програми за браузъри познавате?

3. Къде търсещият в мрежата може да намери URL адреси?

4. Каква е технологията за търсене с помощта на рубрикатора на търсачката?

5. Каква е технологията за търсене по ключови думи?

6. Какви изисквания трябва да се спазват при професионално търсене на информация в Интернет?

7. Кога в критериите за търсене трябва да се посочват знаци “+” или “-”?

8. Какви критерии за търсене в Yandex са посочени от следната фраза:

(бавачка | учител | гувернантка) ++ (грижи | образование | надзор).

9. Какво означава удвояването на знака (∼∼ или ++) при формиране на сложна заявка?

10. Какво е релевантност на търсенето?

11. Каква е целта на метатърсачките?

ЛЕКЦИЯ 6. ФОРМИРАНЕ, УПРАВЛЕНИЕ И ЗАЩИТА НА ПОТРЕБИТЕЛСКИ ИНФОРМАЦИОННИ ПОТОЦИ В ИНТЕРНЕТ ВИРТУАЛНА СРЕДА

  1. Методи за търсене на информация.
  2. Търсене на информация в в социалните мрежи.
  3. Търсене на информация чрез търсачки.
  4. Формиране на потребителски информационни потоци чрез RSS технологии.
  5. Формиране на потребителски информационни потоци с помощта на пощенски услуги.

МЕТОДИ ЗА ТЪРСЕНЕ НА ИНФОРМАЦИЯ

Проблемът с намирането на надеждна информация е един от най-належащите модерно общество. Самият факт на съхраняване на огромен слой от човешки знания във виртуалното пространство на Интернет не гарантира ефективността на извличането на информация и нейната надеждност. Дори ако информацията, която търсите, е представена в удобна форма, в крайна сметка зависи от човека да я овладее. И ефективността и качеството на неговата работа ще зависи от това колко добре владее методите за търсене на надеждна информация.

Етапи на търсене на информация

Първият етапе формулирането и изясняването на искането за информация. Този етап традиционно играе водеща роля. Последващият избор на намерените информационни ресурси ще зависи от това колко правилно е формулирана заявката. На този етап е препоръчително:

Формулиране на заявка на естествен език;

Определяне целта на търсенето на информация;

Определяне на необходимите ограничения за търсене;

Окончателно формулиране на искането за информация.

Определяне на целта на търсене на информация, което ни позволява да идентифицираме степента на необходимата пълнота на информацията, което също влияе върху избора на търсачките. Целите на извличането на информация, които традиционно са противоположни една на друга, са:

Предварително запознаване с проблема;

Задълбочено проучване на проблема.

По правило обичайната цел на търсенето на информация е някъде между тези две крайности, тоест потребителят се нуждае от известна информация, но не се нуждае от абсолютна пълнота на информацията.

Основните ограничения традиционно включват: ограничения за видове публикации, езици на публикациите, географски и хронологичен обхват на търсене. Следователно е необходимо ясно да се изясни:

Информация от кои източници интересуват потребителя (статии, монографии, материали от конференции и др.);

На какъв език?

Какъв е географският обхват на търсенето;

Какъв е хронологичният обхват на търсенето?

За финализиране на заявката за информация е необходимо да се извърши цялостен лексикален анализ на информацията, която ще се търси. Потребителят трябва да получи от някакъв източник подробно и компетентно описание на разглеждания проблем. Такъв източник може да бъде както високоспециализиран справочник, така и обща енциклопедия. Въз основа на изучения материал е необходимо да се формулират колкото е възможно повечеширок набор от ключови думи под формата на отделни термини, фрази, професионална лексика и клишета, при необходимост на няколко езика.

Основната цел на етапа на планиране на процедурата за търсене е да се определят начини и средства за рационално решаване на проблема с търсенето. Включва развитие обща програмаТърсене. В същото време се извършва подбор и оценка на качеството на търсачките и се извършва търсене на липсваща информация.

Изборът и оценката на качеството на търсачките трябва да се извършва от гледна точка на съответствието им с реалните информационни потребности и спецификата на заявката. Всеки потребител има специфични изисквания, които влияят върху избора на търсачка, нейното съдържание и възможности. Когато избирате търсачка, трябва да обърнете внимание на следните параметри: обем на индекса на търсачката, контрол на качеството на информацията, която съдържа, както и възможностите на езиците за заявки.

Тактиките и инструментите за търсене могат да варират значително в зависимост отне само по темата, но и по други параметри на заявката. Тук трябва да се ръководите от редица общи насоки.

Например естеството на търсенето се определя изцяло от съдържанието на поставената от потребителя задача за търсене. И в тази връзка е важно да се отбележи, че първоначално търсенето е, така да се каже, обвързано с темата и с целта за подробно, цялостно развитие на нейния план, когато е особено необходимо широко покритие на източниците на информация.

Следователно, първо има по-голямо търсене на информационни ресурси (тоест набори от документи). И едва след това търсенето на информация се конкретизира и ограничава до непосредственото съдържание на решавания проблем за търсене. На този етап преобладава търсенето на самите документи.

Разбира се, през целия процес на търсене трябва да комбинирате различни видовеи методи за търсене в две основни посоки: от една страна, от търсачки с обща класификация до предметно ориентирани ресурсни индекси, след това до конкретни документи и фактите, съдържащи се в тях; от друга, от уникални думи и фрази за заявка до локатори на ресурси по темата и/или конкретни документи.

Окончателното решение на проблема с търсенето. Той също така включва създаване на инструментите, необходими за решаването му.

На този етап е необходимо да се изпълни следващи стъпки:

Избор на набор от информационни ресурси по темата за търсене;

Провеждане на търсене в информационни ресурси;

Оценяване на пълнотата на информацията;

Разширяване на обхвата на информационните ресурси.

На етапа на избор на набор от информационни ресурсиизвършва се търсене по темата за търсене в набор от търсачки, избрани на етапа на планиране. Търсенето може да се извърши както от конкретно към общо, така и от общо към конкретно. В резултат на това се формира списък с информационни ресурси, които могат да съдържат информация по въпроса. Списъкът с информационни ресурси е планиран по такъв начин, че ресурсите, допълвайки се взаимно, да покриват максимално информацията по дадена тема в съответствие с предварително зададени ограничения за търсене. Ако техният кръг е твърде тесен, резултатите от търсенето може да са незадоволителни, а ако са твърде широки, усилията за търсене ще се увеличат.

На този етап е необходимо ясно да се определи какво се знае за търсената информация и какво е неизвестно, но трябва да се открие. Например името на обекта, който представлява интерес, може да е известно информационен център, но URL адресът му е неизвестен. Следователно е необходимо да се генерира списък със заявки за намиране на липсващата информация. Този списък се генерира въз основа на идентифицирани ключови думи и налична информация за ресурси.

Препоръчително е да търсите липсващи връзки в описанието на ресурса (метаданни) с помощта на търсачки и метатърсачки. Въпреки това, ако нищо не се знае за ресурсите, които търсите, препоръчително е да се обърнете към търсачки за класификация или специализирани системи за търсене в речници. Ако потребителят не е експерт в тази област, той трябва да се свърже с търсачки за класификация с научен контрол на качеството (информационни портали).


Свързана информация.


Решаването на проблема с търсенето на документи в EDS и технологиите за електронно управление на документи е изключително важна задача. В допълнение, търсенето на информация в Интернет, използвана в процеса на управление, също е необходима задача, така че по-нататък ще разгледаме характеристиките на изграждането на търсачките.

Документални системи: език за търсене на информация, система за индексиране, технология за обработка на данни, търсачка, критерии за оценка на документални системи

Функционирането на съвременните информационни системи се основава на две предположения:

  • 1) изискваните от потребителя документи са обединени от наличието на определена функция или комбинация от характеристики;
  • 2) потребителят може да посочи този атрибут.

И двете предположения не се изпълняват на практика и можем да говорим само за вероятността за тяхното изпълнение. Следователно процесът на търсене на информация обикновено представлява последователност от стъпки, които чрез системата водят до определен резултат и позволяват да се оцени неговата пълнота. В същото време потребителското поведение, като организиращо начало на управлението на процеса на търсене, е мотивирано не само от информационната потребност, но и от разнообразието от стратегии, технологии и инструменти, предоставени от системата.

Потребителят обикновено няма изчерпателни познания за информационното съдържание на ресурса, в който търси. Той може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, като намери допълнителна информация или организира процеса по такъв начин, че част от резултатите от търсенето да могат да се използват за потвърждаване или отхвърляне на адекватността на друга част . В същото време професионалните потребители се характеризират със стабилен тематичен профил. Когато са „информационно ориентирани“, тогава те се характеризират с желание и способност да организират информационното пространство на проблема. Това означава, че потребителят създава по същество нов, „независим“ проблемно-ориентиран, индивидуално актуализиран и попълван IR, който освен колекции от документи включва и метаинформация, например речници на специална терминология, класификатори на предметни области , описания на ресурси и др.

Особеността на работата на потребителя в режим на „самообслужване” в контекста на задачата за автоматизиране на агрегатните дейности означава, че системата трябва да осигури среда, която осигурява поддръжка на функциите на потребителя за обработка на намерената информация, т.к. както и тези, традиционно свързани с функциите на информационен посредник (тълкуване на заявка, нейният превод на език за извличане на информация, избор на IR, автоматизирано търсене и ръчен подбор на материали), но също и такива „поддържащи“ функции като: структуриране на информация нужди, лексикална адаптация на заявка, оценка, систематизиране и обработка на резултатите от търсенето, както на ниво отделен документ, така и на ниво информационни ресурси като цяло. Технически възможности, с които потребителят разполага, му позволяват да създава информационен ресурс – да формира масиви, да систематизира и създава външни представяния на тяхното съдържание за собствена или външна употреба.

Автоматизираните информационни системи (AIPS) използват компютърен софтуер и хардуерни средства и технологии и са предназначени да намират и предоставят информация на потребителите според определени критерии. Следните два фактора са решаващи за разбирането на методите за автоматизиране на търсенето:

  • 1) не се сравняват самите обекти, а описанията - така наречените изображения за търсене;
  • 2) самият процес е сложен (съставен, а не едноетапен) и обикновено се осъществява чрез последователност от операции.

Данните се въвеждат в AIPS въз основа на специално разработени входни формати. Цялата информация за един обект в системата за търсене на информация се представя под формата на систематизирани данни, които образуват един ред на таблицата и се наричат ​​запис. Освен това, ако I PS представлява електронен каталог на библиотека, тогава всяко библиографско описание (BD) на документ в него е един запис, състоящ се от полета, равни на броя на елементите на BD. Колекцията от записи образува база данни, която обикновено се съхранява в един файл. Набор от бази данни, обединени от една СУБД, образуват банка от данни.

Тъй като AIPS е инструмент, използван от човек при търсене (а не интелигентна машина за търсене на информация - готови решениязадачи на основната дейност), ефективността на използването му зависи от това колко добре човек познава естеството на оперативните обекти и свойствата на инструмента, чрез който работи с тези обекти.

Извличането на информация включва използването на определени стратегии, методи, механизми и средства. Поведението на потребителя, който управлява процеса на търсене, се определя не само от информационната потребност, но и от инструменталното разнообразие на системата - технологиите и инструментите, предоставени от системата.

Стратегията за търсене е общ план (концепция, предпочитание, настройка) на системно или потребителско поведение за изразяване и задоволяване на информационните нужди на потребителя, определени както от естеството на целта и вида на търсенето, така и от „стратегическите“ решения на системата - архитектура на база данни , методи и средства за търсене в конкретна AIPS . Избор на стратегия общ случайе проблем за оптимизация. На практика то до голяма степен се определя от изкуството да се постигне компромис между практическите нужди и възможностите на наличните средства.

Методът за търсене е набор от модели и алгоритми за изпълнение на отделни технологични етапи: изграждане на изображение на заявка за търсене (SQI), избор на документ (сравняване на изображения и документи на заявка за търсене), разширяване и преформулиране на заявка, локализиране и оценка на резултатите. Изображението за търсене на заявка е текст, написан на чужд език, който изразява семантичното съдържание на заявка за информация и съдържа инструкции, необходими за най-ефективното изпълнение на търсенето на информация. Методи за търсене, т.е. идентифицирането на подгрупа от документи, които потенциално съдържат описание на решението на проблема с избора на документи (DS), е отражение на процеса на намиране на решение и зависи от естеството на проблема и предметната област. Днес активно се използват и развиват три модела за търсене.

  • 1. Векторен модел. Първият модел, който присъства във всички системи днес, е моделът за векторно търсене. Изобретен е от J. Salton през 60-те години. Повечето машини работят на принципа на разполагане на всички термини на заявката в съответен документ, като се вземе предвид тяхното появяване в документи и тяхната средна езикова честота. Този модел се използва при обработка на заявки на естествен език, особено на страници за търсене на уебсайтове; използва се и за търсене на подобни документи.
  • 2. Булев модел. Активно се използва булевият модел за търсене, който ви позволява да въвеждате логически оператори в заявката, контекстуални ограничения за разстоянието между думите, да изграждате разклонени мощни заявки, да използвате речник за спиране и лексикални шаблони, подобни на регулярните изрази в скриптовите езици. Професионални системи в допълнение към изброените основни моделиосигуряват търсене, използвайки размит булев модел за търсене, който позволява на търсачката да доставя документи, които счита за подходящи, дори ако някои "слаби" елементи на заявката не са намерени в тях.
  • 3. Търсене с помощта на тезауруси. За семантично търсене широко се използват тезауруси, поради което заявката се разширява. Например при търсене на документи за ПТП, заявката „Пътно произшествие” е с коефициент на разширение 1:150, т.е. от един токен системата всъщност генерира 150 токена за сървъра за търсене. Активното използване на тезаурусите на руски език днес е възпрепятствано от липсата на актуални синонимни речници.

Разглеждайки търсенето като итеративен процес, методите за намаляване на пространството за търсене (търсеното подмножество) формират по същество методологичната основа на стратегията за търсене и могат да бъдат разделени на следните класове - методи за търсене в:

  • 1) едно пространство (обикновено тематично);
  • 2) йерархично подредено пространство;
  • 3) алтернативни пространства;
  • 4) динамично (променящо се по време на процеса на търсене) пространство.

Реализираният метод за изграждане на POS трябва да осигурява ефективни начиниизграждане на заявка за постигане на различни видове цели. Механизмите за търсене са набор от модели и алгоритми, внедрени в системата за процеса на генериране на изходен документ в отговор на заявка за търсене. Инструментите за търсене, от една страна, са взаимозависим комплекс от езици за извличане на информация (IRL) и езици за дефиниране (управление) на данни, осигуряващи структурни и семантични трансформации на обработващи обекти (документи, речници, набори от резултати от търсене) и на от друга страна, потребителски интерфейсни обекти, които осигуряват управление на последователността на избор на оперативни обекти на конкретен AI PS.

Технологиите за търсене са унифицирани (оптимизирани в рамките на конкретен AIPS) последователности за ефективно използване на отделни инструменти за търсене в процеса на взаимодействие на потребителя със системата за последователно получаване на крайни и междинни резултати. Навигацията като изпълнение на процес на търсене на заявка в избрана база данни е целенасочена, стратегически определена последователност от използване на методи, инструменти и технологии на конкретен AIPS за получаване и оценка на резултата.

Инструментите за навигация позволяват на потребителя да контролира процеса на търсене. Те се представят на потребителя под формата на интерфейс, който ви позволява да организирате повече или по-малко ефективен процес на взаимодействие с базата данни. В същото време „приятелството“ на интерфейса се характеризира не само с ергономичност и яснота, но и с разнообразие от възможности за избор на оперативни обекти.

Процесът на търсене на информация представлява последователност от стъпки, които чрез системата водят до определен резултат и позволяват да се оцени неговата пълнота. Тъй като потребителят обикновено няма изчерпателни познания за информационното съдържание на ресурса, в който търси, той може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, въз основа само на външни оценки или на междинни резултати и обобщения, сравнявайки ги например с предишните.

Процесът на търсене може да бъде представен като следните основни компоненти (фиг. 4.1):

  • ? формулиране на заявка на естествен език, селекция търсачкии услуги, като формализира заявката в съответния РП;
  • ? извършване на търсене в една или повече търсачки;
  • ? преглед на получените резултати (линкове);
  • ? предварителна обработка на получените резултати: преглед на съдържанието на връзки, извличане и съхраняване на подходящи и релевантни данни;
  • ? ако е необходимо, модифицирайте заявката и извършете повторно (уточняващо) търсене с последваща обработка на получените резултати.

За да се намали обемът на избраните материали, резултатите от търсенето се филтрират по тип източници (сайтове, портали),

Ориз.

математика и други причини. Въз основа на използваните технологии за търсене IP може да се раздели на 4 категории.

  • 1. Тематични каталози.
  • 2. Специализирани каталози (онлайн указатели).
  • 3. Търсачки (пълнотекстово търсене).
  • 4. Инструменти за метатърсене.

В Интернет системата за извличане на информация се хоства на един или повече сървъри. IPS събира, индексира и регистрира информация за документи, налични в групата уеб сървъри, обслужвани от системата. Всичко в документите е индексирано смислени думиили просто думи от заглавията. Тематичните каталози включват обработка на документи и присвояването им на една от няколко категории, чийто списък е предварително определен. Това по същество е базирано на класификация индексиране. Индексирането може да се извърши автоматично или ръчно с помощта на специалисти, разглеждащи популярни уебсайтове и компоненти Кратко описаниеобобщени документи (ключови думи, резюме, реферат).

Създават се специализирани каталози или справочници по конкретни отрасли и теми, по новини, по град, по адрес електронна пощаи така нататък. Търсачките (най-модерният инструмент за търсене в Интернет) прилагат технология за пълнотекстово търсене. Текстовете, намиращи се на анкетираните сървъри, се индексират. Индексът може да съдържа информация за няколко милиона документа. Например популярната система за извличане на информация AltaVista има повече от 56 милиона URL адреса в своя индекс.

Когато се използват инструменти за метатърсене, една заявка се извършва едновременно от няколко търсачки. Резултатът от търсенето се комбинира в общ списък, подреден по уместност. Всяка система обработва само част от мрежовите възли, което ви позволява да разширите базата за търсене. Този клас включва „персонални програми за търсене“, които ви позволяват да създавате свои собствени инструменти за метатърсене (например автоматично запитване към често посещавани възли).

Информационните бази данни могат да съдържат почти всякакъв вид информация, включително във всякакви комбинации. Търсенето на информация се извършва както по термини, съществуващи в пълния текст на EIR, така и по специални елементи, включени в IPJ. За генериране на заявки се използват специални езици за извличане на информация.

IRS в рамките на намерената извадка обикновено се опитват да подредят документите по реда на тяхната „уместност“, т.е. близост до въведената от потребителя заявка. Има много критерии за такава близост и идентифицирането на документи, които са близки „по смисъл“ на искането, не решава проблема с получаването на информация при липса на съответен документ. Тази ситуация е доста тривиална, включително защото потребителят често търси документ, който самият той ще напише. Трябва да се отбележи, че в резултат на търсенето потребителят може да получи както подходящи, уместни, така и неуместни и неуместни подмасиви с данни.

IPS всъщност са системи информационна поддръжкаи представляват бази данни и банки данни. Обектът в тях е индивид, организация, отрасъл, регион и др. Субект на информационна поддръжка е информационен специалист, всеки потребител на информация.

Предлага се процедурата по търсене на необходимата информация да бъде разделена на девет основни етапа.

  • 1. Определяне на областта на знанието.
  • 2. Избор на вида и източниците на данни.
  • 3. Събиране на материали, необходими за попълване на информационния модел.
  • 4. Подбор на най-полезната информация.
  • 5. Избор на метод за обработка на информацията (класификация, групиране, регресионен анализ и др.).
  • 6. Избор на алгоритъм за търсене на модел.
  • 7. Търсене на модели, формални правила и структурни връзки в събраната информация.
  • 8. Творческа интерпретация на получените резултати.
  • 9. Интегриране на извлечените „знания“.

За извършване на търсене първоначално на компютъра на потребителя се зарежда интерфейсът за работа със съответната база данни. Това може да бъде локална или отдалечена база данни. Първоначално трябва да решите вида на търсенето (просто, разширено и т.н.). След това с набор от полета, предложени за търсене. IRS може да предложи едно или повече полета за въвеждане. В последния случай това обикновено са следните полета: автор, заглавие (име), времеви период, тип на документа, ключови думи, заглавия и др. При формиране на заявка почти всички системи позволяват използването на логически елементи „И“, "ИЛИ НЕ".

Инструментите и технологиите за търсене, използвани за задоволяване на информационните нужди, се определят от вида и състоянието на основния проблем на дейността на потребителя: съотношението на неговите знания и незнание за обекта, който се изследва. В допълнение, процесът на взаимодействие на потребителя със системата се определя от нивото на познаване на съдържанието на ресурса на потребителя (пълнота на представянето, надеждност на източника и т.н.) и функционалността на системата като инструмент. Като цяло тези фактори обикновено се свеждат до понятието „професионализъм“ - информационен (обучен (необучен) потребител) и предметен (професионален (непрофесионален) „професионализъм“.

Процесът на търсене на информация обикновено има емпиричен характер. Той представлява последователност от стъпки, водещи през системата до определен резултат, позволяващ да се оцени неговата пълнота. В същото време потребителското поведение, като организиращо начало на управлението на процеса на търсене, е мотивирано не само от информационната потребност, но и от разнообразието от стратегии, технологии и инструменти, предоставени от системата.

Обикновено потребителят няма изчерпателни познания за информационното съдържание на ресурса, в който търси, така че може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, като намери допълнителна информация или организира процес, така че част от резултатите от търсенето да могат да се използват за потвърждаване или отхвърляне на адекватността на друга част.

Оперативните обекти, пряко включени във взаимодействието на потребителите със системата за търсене, са изображението за търсене на документа (SID) и SID, чието съответствие се установява от механизма за търсене на AIPS на формално ниво. Адекватността на изображението към действителното съдържание на документа се определя от качеството на процеса на преобразуване на информацията и нивото на познаване на субекта на средствата за отразяване - концептуалната схема на предметната област и възможностите на езика за програмиране. Изображение за търсене на документ е описание на документ, изразено в FL и характеризиращо основното семантично съдържание или всякакви други характеристики на този документ, необходими за търсене в него при поискване. Повечето PS първоначално предлагат на потребителите или BO, или връзки към пълни или частични документи, техните описания и т.н., съхранени в различни AIPS. Съвременният софтуер ви позволява да определите и посочите какво и под каква форма източникът на информация интересува потребителя.

Въз основа на естеството на трансформациите (в контекста на по-нататъшното използване на резултатите от обработката), методите за обработка на резултатите от търсенето могат да бъдат разделени на две групи.

  • 1. Структурни и форматни трансформации.
  • 2. Структурно-семантични трансформации (информационно-аналитични, логико-семантични).

Какво обикновено се търси в Интернет: лична информация за лица и организации; различни адресни данни; специфични материали (статии, книги, снимки, справочни данни, софтуер и др.), включително мястото на тяхното съхранение; къде и колко струват определени материали, услуги, продукти и др.; информационни сайтове и портали и др. Общоприето е да организирате търсене по началните фрагменти на дума (търсене с отрязване вдясно), например вместо думата „библиотека“ можете да въведете нейния фрагмент „библиотека*“ . В този случай ще бъдат намерени документи, които съдържат не само думата „библиотека“, но и „библиотека“, „библиотекар“, „библиотекознание“ и т.н. Във всеки случай потребителят трябва да си представи какво точно иска да намери, тъй като в това, което му се предлага, ще се намери много голямо количестводокументи, отколкото при посочване на дадената дума изцяло (без съкращаване). В такъв случай е възможно да се извърши изясняващо търсене в получения масив от информация и в резултат на това да се получат по-подходящи и релевантни данни.

От гледна точка на информационно-търсещата система, резултатът от търсенето в нея е набор (подмножество) от намерени документи или връзки към тях. Обикновено се представя на потребителя под формата на списък. Тоест най-простата изходна форма в този случай ще бъде списък с връзки под формата на пълни или частични BO, намерени от IR. Такъв списък може да бъде незабавно отпечатан или изпратен на всеки имейл адрес, ако такава възможност е предоставена от IPS и потребителят е свързан към Интернет.

Графични и пълнотекстови EIR могат да бъдат предлагани на потребителя само за преглед, за копиране в различни формати и мащаби, изцяло или частично. Графичните IR обикновено съществуват в общоприети формати като: JPG, GIFF, TIFF, BMP и т.н., и за текстови материалиобикновено използват текстови формати TXT, DOC и др., HTML и PDF - всъщност графичен формат, в който могат да се записват както текстови, така и графични данни. Получените в резултат на търсенето документи се запазват.

Критерият за резултат от търсенето е потребителят да получи списък с документи, един документ или части от него, които най-добре отговарят на неговите нужди, формулирани в заявката за търсене. В IRS е обичайно да се формира списък с документи, получени в резултат на търсене, според тяхната релевантност. Има критерии за смислово и формално съответствие между инструкцията за търсене и издадения документ. Пълнотата и точността на търсенето са взаимосвързани показатели. Увеличаването на един от тях води до намаляване на другия. В съвременните IRS, с балансирано търсене, тяхната стойност е приблизително 70%. Трябва да имате предвид ситуацията, в която списъкът с връзки, предоставен от търсачката, съдържа няколко, а понякога и десетки различни адреса с един и същ текст. Такива връзки се характеризират като дубликати. От тях само един документ се взема предвид при изчисляване на коефициентите.

Като се има предвид, че идеалният резултат от търсенето трябва да отговаря на изискванията за уникалност, пълнота и последователност, откриваме, че различните видове търсене определят различни изисквания за функционалностсистеми за оценка на резултатите. Въпреки това, в случай на търсене по предмет, доказателството за пълнота е тривиално: непразният резултат от търсенето потвърждава съществуването (или липсата) на обект, който има желаните свойства. В същото време резултатът от тематичното търсене е множествен и изисква последваща систематизация - друга процедурна стъпка за подреждане на полученото множество от обекти според стойностите на база, която не е изрично дефинирана. От своя страна проблемното търсене предполага двустепенна систематизация.

Развитието на процеса на търсене се осъществява чрез модифициране на POS израза, чрез преформулиране на заявката и извършване на второ търсене в същия масив от данни или в подмасив, получен в резултат на първоначалното търсене. Интерфейсните инструменти за обработка на резултатите и разработване на търсения използват два вида оперативни обекти - индивидуални документи или колекции от документи.

За получаване на информация в Интернет се създават специални търсачки. По правило те са общодостъпни и обслужват потребителите навсякъде по света, където има интернет. Директно за търсене се използват търсачки, чийто брой възлиза на няколкостотин в света. Те се фокусират върху определени видове заявки или комбинация от тях (библиографски, адресни, фактологични, тематични и др.). Освен това има пълнотекстови, смесени и други търсачки. За да извършите търсене в Интернет (WWW), има много сайтове и търсачки, така че е необходимо не само да се движите в такива системи, но и да можете да извършвате ефективно търсене в тях, т.е. използват подходящи технологии.

Технология за търсене (от английски Search Technology) означава набор от правила и процедури, в резултат на които потребителят получава IR. При търсене в Интернет се препоръчва да се обърне внимание на два компонента: пълнота (нищо не се губи) и точност (нищо излишно не се намира). Обикновено съответствието на намерените материали с тези критерии се нарича релевантност, т.е. съответствие на отговора на въпроса (заявката). Търсачките също се характеризират с това колко време отнема търсенето, интерфейсът, предоставен на потребителя, и вида на показаните резултати. Когато избирате търсачки, обърнете внимание на параметри като покритие и дълбочина. Покритието се отнася до обема на базата данни на търсачката, измерен по три показателя: общия обем на индексираната информация, броя на уникалните сървъри и броя на уникалните документи. Под дълбочина имаме предвид дали има ограничение за броя на страниците или за дълбочината на влагане на директории на един сървър.

Всяка търсачка има свои собствени алгоритми за сортиране на резултатите от търсенето. Колкото по-близо до началото на списъка, получен в резултат на търсенето, се оказва необходим документ, толкова по-висока е уместността и толкова по-добре се представя търсачката. Търсачките използват общи принципи на работа, фокусирани върху изпълнението на две основни функции. Първата функция се изпълнява от програма робот, която автоматично сканира различни сървъри в интернет. Намирайки нови или променени документи, той ги индексира и ги предава на основен компютъртърсачка. Роботът е автоматизиран браузър, който зарежда уеб страница, проверява я и, ако е необходимо, навигира до една от нейните хипервръзки. Когато попадне на страница, която не съдържа връзки, роботът се връща една или две стъпки назад и отива на адреса, посочен в една от предварително откритите връзки. Пуснат робот изминава огромни разстояния в Интернет (киберпространството), като се фокусира върху развитието на уеб мрежата и променя маршрутите си в съответствие с това. Индексиращите роботи обработват само HTML файлове, като игнорират изображения и други мултимедийни файлове. Те могат: да откриват връзки към страници, които вече не съществуват; установете връзка с най-популярните сайтове, като преброите броя на връзките към тях в други уеб страници; регистрират уеб страници за оценка на растежа на системата и т.н. Най-често роботите сами сканират сървъри, намирайки нови външни връзкивъв вече разгледани документи. Втората функция е обработка на идентифицираните документи. В този случай се взема предвид цялото съдържание на страниците (не само пълният текст, но и наличието на илюстрации, аудио и видео файлове, Java приложения). Всички думи в документа са индексирани, което дава възможност да се използват търсачките за детайлно търсене по най-тесните теми. Получените гигантски индексни файлове, които съхраняват информация за това коя дума е използвана, колко пъти, в кой документ и на кой сървър, образуват база данни, до която потребителите действително имат достъп чрез въвеждане на POS (комбинации от ключови думи) в лентата за търсене. Резултатите се доставят с помощта на специална подсистема, която извършва интелигентно класиране на резултатите. При изчисленията си той разчита на местоположението на термина, честотата на повторението му в текста, процентното съотношение на този термин с останалия текст на страницата и други параметри, които характеризират възможностите на конкретна търсачка.

Роботите имат редица разновидности, една от които е „паяк“ (от английски паяк). Той непрекъснато „обхожда мрежата“, преминавайки от една уеб страница към друга, за да събира статистически данни за самата „мрежа“ (Web) и (или) да формира база данни с индекси на уеб съдържание. Автоматизирани агенти „паяк“ редовно сканират уеб страници и актуализират адресната база данни (хипервръзки), инструментите за индексиране на информация, разположени на посочени адреси. Получените индекси се използват за бързо и ефективно търсене в набор от термини, посочени от потребителя. IN различни системитази цел се постига по различни начини. Някои изпращат „агенти“ до всяка уеб страница, която срещнат, като индексират всички думи, които срещат. Други първо анализират базата данни с адреси, като определят най-популярните (обикновено отчитайки броя на наличните връзки към тях). Именно тези уеб страници се индексират в различна степен (само заглавия на уеб страници и връзки, включително автоматично анотиране на документи или целия текст).

Все по-често се използват „интелигентни агенти“ - малки програми, които имат способността да учат и да действат независимо от името на своя собственик. Свързани към компютъра на потребителя, те действат като лични асистенти, изпълнявайки редица задачи, използвайки познания за нуждите и интересите на потребителя. Интелигентните роботи агенти извършват независими търсения в мрежата, използвайки свои собствени уникални алгоритми. Някои от тях не само преглеждат ключови думи, но и извършват семантичен анализ на информация в Интернет, като идентифицират степента на нейното семантично съответствие с поставената задача.

Ефективен достъп до информация в Интернет се осигурява от чужди търсачки (машини) като Alta Vista, Lycos, Yahoo, Google, OpenText, Wais, WebCrawler и др. Техните адреси в Интернет: www.altavista.com, www.yahoo .com, www.gogle.com, www. opentext.com.

Към домашни търсачкивключват: Нигма ( Научен проект"Интелигентна система за търсене Nigma.ru" MSU. М.В. Ломоносов, факултети по компютърни науки и психология), Aport (Aport JSC Agama), Rambler (Stack Ltd.), Yandex (CompTek Int), „Руска търсачка“, „Ново руско търсене“ и др. Адресите им са в Интернет : www.nigma.ru (nigma.rf), www.aport.ru, www.rambler.ru, www.yandex.ru, съответно search.interrussia.com, www.openweb.ru и др.

Всички тези търсачки ви позволяват бързо да намерите в интернет, например, всички или почти всички текстове, където присъстват тези думи, като използвате ключови думи, тематични заглавия и дори отделни букви. В този случай потребителят се информира за адресите на сайтове, където постоянно присъстват откритите IR. Нито един от тях обаче няма огромни предимства пред останалите. За извършване на надеждно търсене на сложни заявки експертите препоръчват използването на различни системи за извличане на информация последователно или паралелно (едновременно).

Търсачката за пълен текст индексира всички думи в текста, видими за потребителя. Наличието на морфология прави възможно намирането на търсените думи във всички склонения или спрежения. Освен това в HTML езикИма тагове, които също могат да се обработват от търсачка (заглавия, връзки, надписи за снимки и др.). Някои машини могат да търсят фрази или думи в рамките на дадено разстояние, което често е важно за получаване на разумен резултат.

Google е единствената компания, фокусирана върху разработването на „най-добрата търсачка“, която, по думите на съоснователя на компанията Лари Пейдж, ще „определя точно какво има предвид даден потребител и ще предоставя точно резултатите, които искат“. За тази цел Google непрекъснато търси нови методи и отказва да приеме ограниченията на съществуващите технологии. В резултат на това Google разработи своя собствена инфраструктура и революционна технология PageRank, която промени начина, по който се извършват търсенията. От самото начало разработчиците на Google разбраха, че за да получат най-точните резултати по-бързо, е необходимо нов начиннастройки на сървъра. Повечето търсачки използват няколко големи сървъра, които често са бавни по време на пиковите натоварвания. Google използва свързани компютри, за да намери бързо отговори на всички запитвания. Внедряването на тази иновативна технология доведе до по-бързо време за реакция, повишена скалируемост и по-ниски разходи. Оттогава всяка друга компания е копирала идеята, докато Google продължава непрекъснато да подобрява вътрешната си технология, за да я направи по-ефективна.

Софтуер, използван за внедряване на технологията Търсене в Google, извършва серия от едновременни изчисления, които отнемат не повече от част от секундата. Традиционните търсачки се основават повече на това колко често дадена дума се появява на уеб страница. Google, от друга страна, разглежда цялата структура на уеб връзките и определя кои страници са най-важни, използвайки PageRank. След това се извършва анализ на съответствието на хипертекста и се избират страниците, които са най-подходящи за конкретно търсене. Въз основа на цялостната уместност и уместност към заявката, Google първо показва най-подходящите и достоверни резултати.

PageRank технология: PageRank обективно оценява важността на уеб страниците въз основа на уравнение, което включва повече от 500 милиона променливи и 2 милиарда термина. Вместо да брои директните връзки, PageRank счита връзка от страница A към страница B като глас в полза на страница B от страница A. След това PageRank определя важността на тази страница въз основа на броя на получените гласове. PageRank също така оценява важността на всяка страница, участваща в гласуването. Получавайки гласове от страници с по-голяма важност, връзката става по-ценна. Смислените страници получават по-висок PageRank и се показват в горната част на резултатите от търсенето. Технологията на Google използва обобщена уеб информация, за да определи значимостта на дадена страница. Човешка грешка или манипулиране на резултатите е невъзможно и затова потребителите се доверяват на Google като източник на обективна информация, в чиито резултати от търсенето няма платени реклами.

Анализ на съответствието на хипертекста: Търсачката на Google, подобно на други машини, също анализира съдържанието на страница. Въпреки това, вместо просто да сканира текста на страницата (което уеб издател може да направи с помощта на мета тагове - HTML или XHTML тагове, предназначени да предоставят структурирани метаданни за уеб страница.) Технологията на Google анализира цялото съдържание на страницата, функциите на шрифта, текстовите разбивки и прецизните оформление на всяка дума. Google също така анализира съдържанието на съседни уеб страници, за да гарантира, че получените резултати съответстват най-точно на заявката на потребителя (Фигура 4.2).

Технологичните иновации на Google се простират отвъд работния плот. Google си постави за задача да предостави своите точни и бързи резултати от търсенето на потребителите, които сърфират в интернет мобилни устройства. За тази цел Google разработи първа по рода си технология безжично търсенеза незабавно конвертиране на HTML в оптимизирани формати


за WAP, i-mode, J-SKY и EZWeb. Понастоящем безжична технология Google се използва от много водещи на пазара компании, включително AT&T Wireless, Sprint PCS, Nextel, Palm, Handspring и Vodafone.

Търсенето в Google обикновено отнема по-малко от половин секунда, но тази процедура включва редица стъпки, без които резултатите от търсенето няма да бъдат доставени на потребителя. Стъпки на Google Query:

  • 1) уеб сървърът изпраща заявка до индексиращите сървъри. Съдържанието на индексните сървъри съответства на съдържанието в края на книгата - то ви казва кои страници съдържат думи, които отговарят на заявката;
  • 2) заявката се изпраща до сървъри, които търсят съхранени документи. Създават се фрагменти, за да опишат всеки резултат от търсенето;
  • 3) необходима е само част от секундата за получаване на резултати от търсенето.

„Идеалната търсачка“, казва съоснователят на Google Лари Пейдж, „ще определи точно какво има предвид потребителят и ще покаже точно резултатите, които той иска.“ Като се има предвид сегашното ниво на развитие на технологиите за търсене, това изисква да се гледа далеч напред, да се провеждат изследвания, да се разработват и прилагат най-новите методи на работа. Google работи усилено, за да пробие нови позиции в тази област. Макар че Google вечепризната за водеща световна компания за технологии за търсене.

Информационни технологии за извличане на информация

Информационно търсене: основни понятия, видове и форми на организация

Търсенето на информация или извличането на информация представлява един от основните информационни процеси. Човечеството се е занимавало с него от древни времена. Целите, възможностите и характерът на търсенето винаги са зависели от наличието на информация, нейната важност и достъпност, както и от средствата за организиране на търсенето.

Краят на 20-ти - началото на 21-ви век се характеризира с огромни количества непрекъснато нарастваща разнообразна информация, достъпна и представляваща интерес за най-широките слоеве на обществото. Освен това интернет технологиите и софтуерните и хардуерни инструменти, също достъпни за повечето хора, позволяват този процес да се извършва по всяко време, почти навсякъде, за всякакви заявки.

Търсене– процес, при който в една или друга последователност търсеният обект се съотнася към всеки обект, съхраняван в масива. Целта на всяко търсене е нуждата, необходимостта или желанието да се намери различни видове информация, която да помогне на търсещия да получи необходимата информация, знания и т.н. да повишите собственото си професионално, културно и всяко друго ниво; създаване на нова информация и генериране на нови знания; вземане на управленски решения и др.

Според експерти в Интернет има милиарди потребители. От тях стотици милиони са онлайн (на английски “on-line” - интерактивен достъп по всяко време) и броят на тези потребители непрекъснато нараства. Това затруднява организирането на бързо търсене и намирането на информацията, необходима на толкова много потребители. Проблемите възникват поради различни възможности (видове) за извличане на информация, различни начини за тяхното внедряване в системите за извличане на информация (IRS), различни нивапознания на потребителите за възможностите на такива системи, особено в областта на генериране на заявки и обработка на данни, получени в резултат на изпълнение на тези заявки и др.

Очаква се в бъдеще да бъдат създадени информационни системи, които могат автоматично да се адаптират към нивото на знания и заявки на конкретни потребители, да възприемат заявки на естествен език и, използвайки изкуствен интелект, да им предоставят подходяща и уместна информация. За създаването на такива информационни системи ще са необходими интелигентността и знанията на конкретни потребители на информационни системи или техни посредници. Междувременно широк кръг потребители на търсачката трябва да владеят доста добре тази предметна област.

Съществуват различни тълкувания на термина "извличане на информация" или "извличане на информация".

Терминът "извличане на информация"(на английски: "извличане на информация") е въведено от американския математик К. Муерс. Той забеляза, че мотивиращата причина за такова търсене е информационна потребност , изразена под формата на искане за информация. К. Муерс включва документи, информация за тяхната наличност и (или) местоположение и фактическа информация като обект на търсене на информация.

Представителите на библиотеките бяха първите, които решиха проблемите на фактологичното търсене. Те разработиха инструменти за извличане на информация, наречени " референтна търсачка " (каталози, библиографски указатели и др.). В професионалната местна преса този термин се използва от 70-те години на миналия век. Библиотекарите определят " извличане на информация „като да съм в информациятамасив от документи , съответстващзаявка за потребителска информация .

От гледна точка на използването на компютърни технологии "извличане на информация “ – съвкупност от логически и технически операции с крайна цел намиране на документи, информация за тях, факти, данни, релевантни на искането на потребителя.

" Уместност" – задайте когаизвличане на информация съответствие на съдържанието на документаискане на информация или изображение за търсене на документ към предписание за търсене.

Има и други определения. Във всеки случай търсенето на информация се дължи на необходимостта да се задоволят информационните заявки на потребителите, които очакват с помощта на търсачките бързо да получат необходимите им данни или информация. Това е метод за целенасочено търсене и извличане на подходящи документи и (или) факти от различни източници на информация, например банки данни или устройства за съхранение. Това са живи и неживи обекти, представляващи различни източници и носители на информация.

Наричат ​​се системи, които осигуряват изпълнението на такова извличане на информациятърсачки(PS). В традиционните технологии ПС представляват картотеки и каталози, адресни и други указатели, указатели, енциклопедии, справочна апаратура за публикации и други материали.

През 1945 г. американският учен и инженер У. Буш в статията си „Възможен механизъм на нашето мислене“ за първи път широко повдигна въпроса за необходимостта от механизиране на извличането на информация.

От 60-те години на миналия век се появяват автоматизирани системи за търсене, които работят с информация. От този период се извършва интензивна работа в областта на формирането и прилагането на принципите и методите за извличане на информация.

" Търсачки"търсене сред документи в бази данни или други масиви от машинночетими данни, съдържащи определени думи.

Електронните PS, използващи конвенционални или интелигентни терминали (PC), позволяват на потребителите да правят заявки за търсене, като използват формални елементи, които описват съдържанието и използват специални логически оператори; извършва търсене сред документи в бази данни или други масиви от машинночетими данни, съдържащи определени думи. Търсачките позволяват само процедури за търсене и свързани процеси.

Системи за търсене на информация

Софтуерните системи с широк набор от функции и възможности обикновено се включват в СУБД и се наричат ​​системи за търсене на информация. Те също така са създадени и използвани, за да помогнат на потребителите да намерят ефективно данните, от които се нуждаят, включително в Интернет.

Терминологично"система за търсене на информация"(на английски: "система за извличане на информация", IRS) - представлява система, предназначена за търсене и съхраняване на информация; пакет софтуер, който реализира процесите на създаване, актуализиране, съхранение и търсене в информационни бази данни и банки от данни.

Система за търсене на информация също се тълкува като система, която осигурява търсене и избор на необходимите данни въз основа на езика за извличане на информация и съответните правила за търсене, и база данни– като набор от инструменти и методи за описване, съхраняване и манипулиране на данни, които улесняват събирането, натрупването и обработката на големи информационни масиви. Организацията на различните бази данни се различава по вида на обектите с данни и връзките между тях.

Функционирането на съвременните информационни системи се основава на две предположения:

    изискваните от потребителя документи са обединени от наличието на определен признак или комбинация от признаци;

    потребителят може да посочи този атрибут.

И двете предположения не се изпълняват на практика и можем да говорим само за вероятността за тяхното изпълнение. Следователно процесът на търсене на информация обикновено представлява последователност от стъпки, които чрез системата водят до определен резултат и позволяват да се оцени неговата пълнота. В същото време потребителското поведение, като организиращо начало на управлението на процеса на търсене, е мотивирано не само от информационната потребност, но и от разнообразието от стратегии, технологии и инструменти, предоставени от системата.

Потребителят обикновено няма изчерпателни познания за информационното съдържание на ресурса, в който търси. Той може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, като намери допълнителна информация или като организира процеса по такъв начин, че част от резултатите от търсенето да могат да се използват за потвърждаване или отхвърляне на адекватността на друга част. В същото време професионалните потребители се характеризират със стабилен тематичен профил. Когато са „информационно ориентирани“, тогава те се характеризират с желание и способност да организират информационното пространство на проблема. Това означава, че потребителят създава по същество нов, „независим“ проблемно-ориентиран, индивидуално актуализиран и попълван IR, който в допълнение към колекциите от документи включва и метаинформация, например речници на специална терминология, класификатори на предметни области , описания на ресурси и др.

Особеността на работата на потребителя в режим на „самообслужване” в контекста на задачата за автоматизиране на агрегатните дейности означава, че системата трябва да осигури среда, която осигурява поддръжка на функциите на потребителя за обработка на намерената информация, т.к. както и тези, традиционно свързани с функциите на информационен посредник (тълкуване на заявка, нейният превод на език за търсене на информация, избор на IR, автоматизирано търсене и ръчен подбор на материали), но също така и такива „поддържащи“ функции като: структуриране на информационни нужди , лексикална адаптация на заявка, оценка, систематизиране и обработка на резултатите от търсенето, както на ниво отделен документ, така и на ниво информационни ресурси като цяло. Техническите възможности, с които разполага потребителят, му позволяват да създава информационен ресурс - да формира масиви, да систематизира и създава външни представяния на тяхното съдържание за собствено или външно ползване.

IPS се делят на: традиционни (ръчни, механични, електромеханични) и автоматизирани (електронни).

Автоматизирани информационни системи (AIPS), използват компютърни софтуерни и хардуерни средства и технологии и са предназначени да намират и предоставят на потребителите информация по определени критерии. Следните два фактора са решаващи за разбирането на методите за автоматизиране на търсенето:

    Сравняват се не самите обекти, а описанията – така наречените „изображения за търсене”;

    самият процес е сложен (съставен, а не едноетапен) и обикновено се осъществява чрез последователност от операции.

Данните се въвеждат в AIPS въз основа на специално разработени входни формати. Цялата информация за един обект в системата за извличане на информация се представя под формата на систематизирани данни, които образуват един ред на таблицата и се наричат записване . Освен това, ако IRS представлява електронен каталог на библиотека, тогава всяко библиографско описание (BD) на документ в него е един запис, състоящ се от полета, равни на броя на елементите на BD. Колекцията от записи образува база данни, която обикновено се съхранява в един файл. Набор от бази данни, обединени от една СУБД, образуват банка от данни.

От AIPSинструмент, използван от човек при търсене (но неинтелигентна машина за търсене информация - готови решения на проблеми от основната дейност), ефективността на нейното използване зависи от това колко добре човек познава естеството на оперативните обекти и свойствата на инструмента, с който работи с тези обекти.

Извличането на информация включва използването на определени стратегии, методи, механизми и средства. Поведението на потребителя, който управлява процеса на търсене, се определя не само от информационната потребност, но и от инструменталното разнообразие на системата - технологиите и инструментите, предоставени от системата.

Стратегия за търсене – общ план (концепция, предпочитание, настройка) на системно или потребителско поведение за изразяване и задоволяване на информационните нужди на потребителя, определени както от естеството на целта и вида на търсенето, така и от „стратегическите“ решения на системата – архитектура на база данни, търсене методи и средства в конкретна AIPS.

Изборът на стратегия в общия случай е оптимизационен проблем. На практика то до голяма степен се определя от изкуството да се постигне компромис между практическите нужди и възможностите на наличните средства.

Метод на търсене – набор от модели и алгоритми за изпълнение на отделни технологични етапи: изграждане на изображение на заявка за търсене (SQI), избор на документ (сравняване на изображения и документи на заявка за търсене), разширяване и преформулиране на заявка, локализиране и оценка на резултатите.

Изображение на заявка за търсене– текст, написан на IPY, който изразява семантичното съдържание на искане за информация и съдържа инструкции, необходими за най-ефективното осъществяване на търсене на информация.

Методи за търсене, т.е. идентифицирането на подгрупа от документи, които потенциално съдържат описание на решението на проблема с избора на документи (DS), е отражение на процеса на намиране на решение и зависи от естеството на проблема и предметната област.

Разглеждайки търсенето като итеративен процес, методите за намаляване на пространството за търсене (подмножеството, което се търси) формират по същество методологичната основа на стратегията за търсене и могат да бъдат разделени на следните класове - методи за търсене:

    едно пространство (обикновено тематично);

    йерархично подредено пространство;

    алтернативни пространства;

    динамично (променящо се по време на търсене) пространство.

Внедреният метод за конструиране на POS трябва да предоставя ефективни начини за конструиране на заявка за постигане на цели от различен тип.

Търсачки – набор от модели и алгоритми, внедрени в системата за процеса на генериране на издаване на документи в отговор на заявка за търсене.

Инструменти за търсене , от една страна, е взаимозависим комплекс от езици за извличане на информация (IRL) и езици за дефиниране/управление на данни, осигуряващи структурни и семантични трансформации на обработващи обекти (документи, речници, набори от резултати от търсене), а от друга, потребителски интерфейсни обекти, които осигуряват последователност на управление на избор на оперативни обекти на конкретен AIPS.

Технологиите за търсене са унифицирани (оптимизирани в рамките на конкретен AIPS) последователности за ефективно използване на отделни инструменти за търсене в процеса на взаимодействие на потребителя със системата за последователно получаване на крайни и междинни резултати.

Навигация като изпълнение на процес на търсене на заявка в избрана база данни - целенасочена, определена от стратегия последователност от използване на методи, инструменти и технологии на конкретен AIPS за получаване и оценка на резултата.

Помощни средства за навигация позволява на потребителя да контролира процеса на търсене. Те се предоставят на потребителя във форматаинтерфейс , което ви позволява да организирате повече или по-малко ефективен процес на взаимодействие с базата данни. В същото време „приятелството“ на интерфейса се характеризира не само с ергономичност и яснота, но и с разнообразие от възможности за избор на оперативни обекти.

Процесът на търсене на информация представлява последователност от стъпки, които чрез системата водят до определен резултат и позволяват да се оцени неговата пълнота. Тъй като потребителят обикновено няма изчерпателни познания за информационното съдържание на ресурса, в който търси, той може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, въз основа само на външни оценки или на междинни резултати и обобщения, сравнявайки ги например с предишните.

Процесът на търсене може да бъде представен като следните основни компоненти:

    формулиране на заявка на естествен език, избор на търсачки и услуги, формализиране на заявката в съответния FL;

    извършване на търсене в една или повече търсачки;

    преглед на получените резултати (линкове);

    предварителна обработка на получените резултати: преглед на съдържанието на връзки, извличане и съхраняване на подходящи и релевантни данни;

    ако е необходимо, промяна на заявката и извършване на повторно (уточняващо) търсене с последваща обработка на получените резултати.

За да се намали обемът на избраните материали, резултатите от търсенето се филтрират по вид източници (сайтове, портали), теми и други признаци.

По използвани технологии за търсене IP може да бъде разделен на 4 категории:

    Тематични каталози;

    Специализирани каталози (онлайн указатели);

    Търсачки (пълнотекстово търсене);

    Инструменти за метатърсене.

В Интернет системата за извличане на информация се хоства на един или повече сървъри. IPS събира, индексира и регистрира информация за документи, налични в групата уеб сървъри, обслужвани от системата. В документите се индексират всички значими думи или само думите от заглавията.

Предметни каталози осигуряват обработка на документи и тяхното причисляване към една от няколко категории, чийто списък е предварително определен. Това по същество е базирано на класификация индексиране. Индексирането може да се извърши автоматично или ръчно с помощта на специалисти, разглеждащи популярни уебсайтове и съставящи кратко описание на обобщени документи (ключови думи, резюме, резюме).

Специализирани каталози илисправочници се създават по конкретни индустрии и теми, по новини, по град, по имейл адрес и т.н.

Търсачки (най-модерният инструмент за търсене в Интернет) прилагат технология за пълнотекстово търсене. Текстовете, намиращи се на анкетираните сървъри, се индексират. Индексът може да съдържа информация за няколко милиона документа. Например популярната IRS "AltaVista" има повече от 56 милиона URL адреса в своя индекс.

При използване на средстваметатърсене заявката се извършва едновременно от няколко търсачки. Резултатът от търсенето се комбинира в общ списък, подреден по уместност. Всяка система обработва само част от мрежовите възли, което ви позволява да разширите базата за търсене. Този клас включва „персонални програми за търсене“, които ви позволяват да създавате свои собствени инструменти за метатърсене (например автоматично запитване към често посещавани възли).

Информационните бази данни могат да съдържат почти всякакъв вид информация, включително във всякакви комбинации. Търсенето на информация се извършва както по термини, съществуващи в пълния текст на EIR, така и по специални елементи, включени в IPJ. За генериране на заявки се използват специални езици за извличане на информация.

IRS в рамките на намерената извадка обикновено се опитват да подредят документите в реда на техния "уместност ", тоест близост до заявката, въведена от потребителя. Има много критерии за такава близост и идентифицирането на документи, които са близки "по смисъл" на заявката, не решава проблема с получаването на информация при липса на съответен документ , Тази ситуация е доста тривиална, включително защото потребителят често търси документ, който той самият ще напише.Трябва да се отбележи, че в резултат на търсенето потребителят може да получи както подходящи, уместни, така и неподходящи и подмасиви с неуместни данни.

IPA всъщност саинформационно поддържащи системии представляват бази данни и банки данни. Катообектте включват индивид, организация, индустрия, регион и т.н.Предмет на информационно осигуряванее информационен специалист, всеки потребител на информация.

Организация на търсенето

Предлага се процедурата за намиране на необходимата информация да бъде разделена на девет основни етапа:

    Определяне на областта на знанието;

    Избор на вида и източниците на данни;

    Събиране на материали, необходими за попълване на информационния модел;

    Подбор на най-полезната информация;

    Избор на метод за обработка на информацията (класификация, групиране, регресионен анализ и др.);

    Избор на алгоритъм за търсене на модел;

    Търсене на модели, формални правила и структурни връзки в събраната информация;

    Творческа интерпретация на получените резултати;

    Интегриране на извлеченото „знание“.

За извършване на търсене първоначално на компютъра на потребителя се зарежда интерфейсът за работа със съответната база данни. Това може да бъде локална или отдалечена база данни. Първоначално трябва да решите вида на търсенето (просто, разширено и т.н.). След това с набор от полета, предложени за търсене. IRS може да предложи едно или повече полета за въвеждане. В последния случай това обикновено са следните полета: автор, заглавие (заглавие), период от време, тип на документа, ключови думи, заглавия и др. При формиране на заявка почти всички системи позволяват използването на логически елементи „И“, "ИЛИ НЕ".

Технологии за извличане на информация

Инструментите и технологиите за търсене, използвани за задоволяване на информационните нужди, се определят от вида и състоянието на основния проблем на дейността на потребителя: съотношението на неговите знания и незнание за обекта, който се изследва. В допълнение, процесът на взаимодействие на потребителя със системата се определя от нивото на познаване на съдържанието на ресурса на потребителя (пълнота на представянето, надеждност на източника и т.н.) и функционалността на системата като инструмент. Като цяло тези фактори обикновено се свеждат до понятието „професионализъм“ - информационен (обучен/необучен потребител) ипредмет (професионален/непрофесионален) "професионализъм ".

Процесът на търсене на информация обикновено има емпиричен характер. Той представлява последователност от стъпки, водещи през системата до определен резултат, позволяващ да се оцени неговата пълнота. В същото време потребителското поведение, като организиращо начало на управлението на процеса на търсене, е мотивирано не само от информационната потребност, но и от разнообразието от стратегии, технологии и инструменти, предоставени от системата.

Обикновено потребителят няма изчерпателни познания за информационното съдържание на ресурса, в който търси, така че може да оцени адекватността на израза на заявката, както и пълнотата на получения резултат, като намери допълнителна информация или организиране на процеса, така че част от резултатите от търсенето да могат да се използват за потвърждаване или отхвърляне на адекватността на другата част.

Оперативните обекти, пряко включени във взаимодействието на потребителите със системата за търсене, са изображението за търсене на документа (SID) и SID, чието съответствие се установява от механизма за търсене на AIPS на формално ниво. Адекватността на изображението към действителното съдържание на документа се определя от качеството на процеса на преобразуване на информацията и нивото на познаване на субекта на средствата за отразяване - концептуалната диаграма на предметната област и възможностите на FP.

Търсене на изображение на документ– описание на документ, изразено в FL и характеризиращо основното семантично съдържание или всякакви други характеристики на този документ, необходими за търсене в него при поискване.

Повечето PS първоначално предлагат на потребителите или BO, или връзки към пълни или частични документи, техните описания и т.н., съхранени в различни AIPS. Съвременният софтуер ви позволява да решите и посочите какво и под каква форма източникът на информация интересува потребителя.

Методи за обработка на резултатите от търсенето

Въз основа на естеството на трансформациите (в контекста на по-нататъшното използване на резултатите от обработката), методите за обработка на резултатите от търсенето могат да бъдат разделени на две групи:

    Структурни и форматни трансформации;

    Структурно-семантични трансформации (информационно-аналитични, логико-семантични).

Осъществяване на търсене

Какво обикновено се търси в Интернет: лична информация за лица и организации; различни адресни данни; специфични материали (статии, книги, снимки, справочни данни, софтуер и др.), включително мястото на тяхното съхранение; къде и колко струват определени материали, услуги, продукти и др.; информационни сайтове и портали и др.

Общоприето е да организирате търсене по началните фрагменти на дума (търсене с отрязване отдясно), например вместо думата „библиотека“ можете да въведете нейния фрагмент „библиотека*“. В този случай ще бъдат намерени документи, които съдържат не само думата „библиотека“, но и „библиотека“, „библиотекар“, „библиотекознание“ и т.н. Във всеки случай потребителят трябва да си представи какво точно иска да намери, тъй като в предложената му опция ще бъдат намерени много по-голям брой документи, отколкото при посочване на дадената дума изцяло (без съкращаване). В такъв случай е възможно да се извърши изясняващо търсене в получения масив от информация и в резултат на това да се получат по-подходящи и релевантни данни.

Регистрация на резултатите

От гледна точка на информационно-търсещата система, резултатът от търсенето в нея е набор (подмножество) от намерени документи или връзки към тях. Обикновено се представя на потребителя под формата на списък. Тоест най-простата изходна форма в този случай ще бъде списък с връзки под формата на пълни или частични BO, намерени от IR. Такъв списък може да бъде незабавно отпечатан или изпратен на всеки имейл адрес, ако такава възможност е предоставена от IPS и потребителят е свързан към Интернет.

Графични и пълнотекстови EIR могат да бъдат предложени на потребителя само за преглед, за копиране в различни формати и мащаби, изцяло или частично. Графичните IR обикновено съществуват в общоприети формати като: JPG, GIFF, TIFF, BMP и др., а за текстови материали обикновено използват текстови формати TXT, DOC и др., HTML и PDF всъщност са графичен формат, в който могат да бъдат запазени като текст, както и като графични данни.

Получените в резултат на търсенето документи се запазват.

Критерии за оценка на търсенето

Критерият за резултат от търсенето е потребителят да получи списък с документи, един документ или части от него, които най-добре отговарят на неговите нужди, формулирани в заявката за търсене. В IRS е обичайно да се формира списък с документи, получени в резултат на търсене, според тяхната релевантност. Има критерии за смислово и формално съответствие между инструкцията за търсене и издадения документ.



Свързани публикации