Információkeresés szervezése az interneten. Információkereső rendszerek. Keresési nyelv szintaxisa. Információkeresés az interneten: buktatók

A számítógép memóriája adatfolyamként tárolt információkat tartalmaz. Az információk logikusan fájlokba rendezhetők, a fájlokon belüli rekordokkal, a rekordokon belül pedig az egyes elemekkel. Ha a fájlokat ilyen módon rendezi egy adatbázisban, minden rekord tartalmaz egy azonosító címkét vagy kulcsot. Ez lehet kódszám, név vagy dátum.

A rekord keresése során a számítógép közvetlenül vagy szekvenciálisan az adatok tárolásának módjától függően előhívja az adatelemeket, és ellenőrzi, hogy azok tartalmazzák-e a kívánt kulcsot. Ha az adatok szalagon vannak tárolva, a fájlok sorrendben vannak rendezve; Ha az adatok lemezen vagy merevlemezen vannak tárolva, az adatok közvetlenül és szekvenciálisan is elérhetők.

Alapvető információ kereső program. Amikor a kulcs megnyit egy rekordot, a számítógép átvizsgálja a memóriát, és megjeleníti a rekordot.

Mágneses lemezeken tárolt adatok

Utak mágneses lemez nem csak adatokat, hanem adatcímeket is tárol, ami lehetővé teszi a számítógép számára az információkhoz való közvetlen hozzáférést. Az alábbi képen látható felhívásban az adatcímek a számlálóterületen, a kulcselemek tartalma pedig a kulcsterületen szerepelnek.

Keresőprogram a kulcs beírása után bekapcsol. A közvetlen rendszerezésű fájlokban a keresőprogram megkeresi a kulcsból az adatok címét, beszerzi az információkat és megrendeli operációs rendszer adatokat olvasni.

Keresés információs képernyő lehetővé teszi a kezelő számára, hogy információhoz jusson a menü egy elemének egyszerű kiválasztásával, gomb használata nélkül.

Merevlemez több, egy tengelyre összeállított kerek lemezből áll. A henger sínekből áll, amelyek mindegyike ugyanazt a helyet foglalja el minden lemezen. A hengerek kívülről befelé, a hengernyomok pedig felülről lefelé vannak számozva. Így az egyik adatelem címe xx cilinder, yy pálya lesz.

Hogyan történik a keresés

1. Szekvenciális keresés.

A számítógép szigorú sorrendben ellenőrzi az adatokat. Hogyan több mennyiséget adatok, annál alacsonyabb a módszer hatékonysága.

2. Közvetlen keresés.

A kívánt adatok helyét egy kulcs segítségével találja meg. Ezért az adatokat a kulcsterületen kell tárolni.

3. Dupla keresés.

Az adatokat a kulcsokkal azonos sorrendbe kell rendezni. A keresés a középső adatok ellenőrzésével kezdődik, hogy megállapítsa, a kívánt adat a felső vagy az alsó gomb alatt található. Ez felére szűkíti a keresést.

Információk keresése az interneten: általános információk

A szervezés és használat elve alapján a keresőeszközök a következőkre oszthatók:

Katalógusok . A könyvtárak olyan címtárak, amelyek bizonyos kritériumok szerint csoportosítva tartalmazzák az internetcímek listáját. Általában témakörök (tudomány, művészet, hírek stb.) egyesítik őket, ahol minden téma több alszintre ágazik. Néhány keresési könyvtár:

Név

Ó!

www.au.ru

Atrus (regisztráció szükséges)

www.atrus.ru

List.ru

www.list.ru

Csillagkép

www.stars.ru

Csiga

www.ulitka.ru

Ivan Susanin

www.susanin.ru

Keresőmotorok autók . A dokumentumok részletes kereséséhez speciális keresőrendszereket – keresőmotorokat – használnak. Amikor felhasználói kérés érkezik, a keresőmotor létrehozza a keresési feladatnak megfelelő dokumentumok listáját. A talált dokumentumokat a kulcsszavak elhelyezkedése (címben, szöveg elején, első bekezdésekben) és a szövegben való megjelenés gyakorisága szerint rangsoroljuk. A különböző keresőmotorok használata eltérő eredményeket ad. A leggyakoribb keresők:

Név

én index

www. yandex. ru

A kikötő

www.aport.ru

R Poroszka

www.rambler.ru

G szög

www.google.ru

M eil

www. felad.ru

én xo

www.yahoo.com

A ltavista

www.altavista.com

A keresési lekérdezés egy vagy több szóból állhat, és különféle írásjeleket tartalmazhat. Ami a nyilvántartást illeti, be általános eset, keresőszavak és operátorok írásának esetenem számít , azaz az „absztrakt”, „kivonat”, absztrakt, „kivonat” és „hivatkozás” szavakat egyformán érzékeljük. Ez teljes mértékben vonatkozik a latin ábécére. Tehát: „Yes" és "YES", sőt még "igen", "igen" és "IGEN" is – ezek mind ugyanazok a kereséshez.

Gyakorlati munka "Információ keresése a globális interneten"

Elrejti az aromát a rügyekben,

Virágzik az orgona.

Május virágzik, ami azt jelenti

Ma ünnep van - május elseje!

Megtakarítás vers:

Végezzen keresést ünnepi képek:
Tekintse meg a keresési eredményeket 1 oldalon található. Ugrás a 2. oldalra: görgessen az egér görgőjével a böngészőablak aljára, és kattintson a gombraL KM az oldal linkjén2 .
Válassza ki a neked tetsző képet és kattints ráL KM.

Egy új ablakban ugyanaz a kép jelenik meg, csak kinagyítva. Ettől jobbra információk találhatók a kép méretéről és azokról a webhelyekről, amelyeken található.

Másolja a képet :

kattintsonP KM a képről;
válassza ki a csapatotKép másolása ;
gombra kattintva zárja be a böngészőablakotKözeli .

Illesszen be egy képet dokumentálni:

menj az ablakhoz szövegszerkesztő(legyen egy gratuláló vers);
Rögzítse a kurzort egy kattintássalL KM a vers utolsó szereplője után (ez! ) és nyomja meg a gombotEnter a kurzor mozgatása egy új sorba;
kattintsonP KM;
a helyi menüben válassza ki a parancsotBeszúrás .

Mentse el a dokumentumot személyes mappájában név alattGratulálunk ***-nak ***-tól . Az első *** helyett írja be annak a nevét, akinek a gratulációt elküldi; A második *** helyett írja be a nevét. Például,Gratulálunk Olga Anastasiának . Zárja be a szövegszerkesztő programot.

Indítsa el a böngészőt Google Króm
.

Menjen a postafiókjába a portálonfelad . ru

A fő levelezési menüben (az ablak tetején) válassza ki a parancsotÍrj .

Töltse ki a kötelező mezőket :

Válasszon ki egy gombotElküld (a böngészőablak tetején és alján is található).
Zárja be a böngészőablakot.
Kapcsolja ki a számítógépet.

1. gyakorlat

Gyakorlat : Tudja meg a világ legnagyobb édesvizű tavának nevét.

A keresőmotorokkal való optimális és gyors munka érdekében bizonyos szabályok vonatkoznak a lekérdezések írására. Egy adott keresőkiszolgáló részletes listája általában magán a szerveren található a Súgó, Tipp, Lekérdezési szabályok stb. hivatkozások segítségével.

Szervezze meg a keresést, és töltse ki a táblázatot a keresési eredményekkel:

Kérdés

Keresési eredmények (oldalak száma)

yandex . ru

turista . ru

google.ru

felad .ru

aport . ru

Hogyan keressünk személyt az interneten egy fénykép alapján?

Hogyan lehet regisztrálni a VKontakte webhelyen?

Hogyan lehet eltávolítani a vörös szemet?

Zárja be a böngészőt (lépjen ki a programból).

2. gyakorlat

Gyakorlat : találniaz oktatási miniszter életrajza Orosz Föderáció Fursenko A.A. kereső segítségévelg Oogle. r u

3. gyakorlat

Keressen irodalmi műveket az interneten

Figyelem! A könyvek formátumának megtekintéséhezFB2 speciális program ("olvasó") kell. Például,AlReader .

A termékköltség a vállalkozások gazdasági tevékenységének egyik fontos gazdasági mutatója.

A termékköltség a vállalkozások gazdasági tevékenységének egyik fontos gazdasági mutatója. Pénzben számítják ki, és figyelembe veszi a vállalkozásnak a termelési folyamathoz és termékei értékesítéséhez kapcsolódó összes költségét. Vagyis a költség azt mutatja meg, hogy az általa előállított termékek mennyibe kerülnek a cégnek.

A fő termék egységenkénti költségének meghatározása mellett ki kell számítani a kisegítő részlegek, a fő termelés félkész termékeinek, valamint a vállalkozás összes részlegének és műhelyének termékeinek előállítási költségét.

A költségszámítás vagy számítás lehetővé teszi a termelés gazdasági jövedelmezőségének meghatározását.

A vállalati részlegek munkáját elemezve, az egységnyi termelési költség alapján meg lehet ítélni munkájuk jövedelmezőségét a vizsgált időszakban.

Ha a vállalkozás kisegítő részlegeinek termékeinek (munkáinak, szolgáltatásoknak) költsége megfelelő szinten van e szakasz költségeihez képest, akkor tevékenységüket eredményesnek tekintik.

A költségek növekedése esetén a megállapított eladási árak felülvizsgálata szükséges. Ha az eladási ár nem változhat, de a vállalkozás termelési költségei nőnek, akkor javítani kell a termelés megszervezését, fejleszteni kell a technológiát, hatékony és gazdaságos politikát kell folytatni a szükséges alapanyagok, anyagok stb.

Az értékesítésre szánt késztermékek minden típusa, valamint a külső fogyasztóktól származó szolgáltatások és munkák költségegységek.

Termékeknél a számítás tárgya egy darab (halmaz, egység, alkatrész, példány).

Termékeknél a következő mértékegységek képezhetik a számítás tárgyát:

súly - gramm, kilogramm, tonna;

térfogati – köbméter (centiméter, deciméter);

lapos – négyzetméter (centiméter, deciméter);

lineáris - méter (centiméter, deciméter).

Ha a technológiai folyamat a késztermékek csomagolását igényli, akkor a számítás tárgya lehet edény, hordó, palack, zacskó stb.

Figyelembe véve a termékek típusait, a munka és a szolgáltatások sajátosságait, összetettségét, típusát, a technológiai folyamat jellegét és a termelés megszervezését az ipari vállalkozásoknál különféle módszerek termék költségszámítás.

Ezek a módszerek a következők:

· normatív;

· folyamatról folyamatra;

· egyedi gyártás;

· keresztirányú.

Információkeresés szervezése az interneten. Információkereső rendszerek.

Az interneten történő információkeresés két fő módon történik - könyvtárak (más néven könyvtárak) és keresőmotorok használatával.

A könyvtárak kontextus szerinti keresést biztosítanak a strukturált böngészéshez, míg a keresőmotorok, ahogy a nevük is sugallja, nem kontextust biztosítanak, hanem lehetővé teszik bizonyos szavak vagy kifejezések megtalálását.

A könyvtárak egy könyv tartalomjegyzékéhez hasonlíthatók, a keresők pedig olyanok, mint egy tárgymutató.

A keresőmotorok gyakran kombinálják a keresőmotort és a könyvtárakat.

Ez jól látható a Yandex első oldalának példáján, ahol a keresősáv alatt található azoknak a könyvtáraknak a listája, amelyek lehetővé teszik a felhasználó számára, hogy finomítsa a lekérdezést, miközben mélyebbre lép mindegyikbe.

Minden keresőmotor ugyanazt az algoritmust használja, és ugyanazokon az elveken alapul. A köztük lévő különbségek csak ezeknek az elveknek a munka során történő technikai megvalósításának szintjén jelentkeznek.

Példák keresőmotorokra:

ü AltaVista (http://www.altavista.com)

ü Yahoo (http://www.yahoo.com)

ü FTPSearch (http://ftpsearch.lycos.com)

ü A "DISCO" cég "DISCO keresője" (http://www.disco.ru)

ü Yandex (http://www.yandex.ru)

ü Google (http://www.google.ru)

ü Rambler (http://www.rambler.ru)

ü Mail (http://www.mail.ru)

ü MSN Russia (http://ru.msn.com) és mások.

Minden keresőmotor három alapvető operátoron alapul. Ezek az „ÉS”, „VAGY” és „NEM” logikai operátorok. A következőképpen működnek.

1. Logikai "ÉS". Ha a lekérdezésben két szó között van „ÉS” operátor, akkor a keresés eredménye csak azokat a dokumentumokat fogja megtalálni, amelyek mindkét szót tartalmazzák. Így például a kutya ÉS macska lekérdezés talál egy dokumentumot, amely a „kutya kergette a macskát” mondatot tartalmazza, de nem fogunk látni olyan dokumentumokat, amelyek „a macska pihent” vagy „kutyaeledel” szövegből állnak.

2. Logikai "VAGY". Ha van „OR” operátor a szavak között, akkor a keresés eredménye olyan dokumentumok lesznek, amelyek legalább egy ilyen szót tartalmaznak.

Hacsak nem teszünk külön korlátozó záradékot, akkor olyan anyagokat is találunk, amelyekben mindkét szó megtalálható.

3. Logikai "NEM". Ha az előző két operátor leírta azokat a szavakat, amelyeket bele szeretne foglalni a lekérdezésbe, akkor a „NOT” operátor kizárja a szavakat a lekérdezésből. Azok a felhasználók, akik először találkoznak a lekérdezési operátorokkal, gyakran meglepődnek: azt mondják, nem lenne egyszerűbb, ha egyáltalán nem szerepeltetnek egy felesleges szót a lekérdezésben? Valójában a logikai NOT operátor fontosságának megértéséhez érdemes megjegyezni, hogy a lekérdezésünk nem hoz létre semmi újat az interneten. A meglévő hatalmas, de mégis véges tömbből csak azt halászjuk ki, amire szükségünk van. Ebben az esetben le kell vágni az információs szemetet. Ezt vágjuk le a „NOT” operátor használatával. Sajnos nem rajtunk múlik, hogy látjuk-e ezt a szemetet a keresési eredmények között. Így például egy tetőgerincről történő információkérésre mindig megjelenik az információs szemét a Kis Púpos Lóról, a műkorcsolyáról, a jégkorongról, a lovakról stb. szóló dokumentumok formájában. Nem lehet nélkülözni a logikus „NEM” kifejezést. ”.

2. Globális hálózat. Információs szolgáltatások Internetes hálózatok: email, telekonferenciák, Világháló.

Az Internet egy globális számítógépes hálózat, amely különféle szolgáltatásoknak ad otthont.

Számítógépes hálózat két funkciót tud ellátni:

Legyen kommunikációs eszköz az egymástól távol lévő felhasználók között (ezt a funkciót kommunikációnak nevezzük);

Legyen eszköze a közös elérésének információs források(ezt a függvényt tájékoztatónak nevezzük).

A hálózat szolgáltatásai (szolgáltatásai vagy létesítményei).

A leggyakoribb funkcionális szolgáltatások az interneten:

Email

Az e-mail volt az első internetes szolgáltatás, és ma is a leggyakrabban használt internetes szolgáltatás. Az e-mail az internet-előfizetők közötti e-mail üzenetek cseréjére szolgál. Az E-mail használatával üzeneteket küldhet és fogadhat, válaszolhat a beérkezett levelekre, egy levél másolatát egyszerre több címzettnek küldheti el, a beérkezett levelet továbbíthatja egy másik címre stb.

Telekonferenciák

A „telekonferenciáknak” nevezett online információs szolgáltatás egy másik típusa egy elektronikus újság előfizetésére emlékeztet, amelyben egy adott témában jelennek meg információk - hírek, feljegyzések, kérdésekre adott válaszok, korábbi kiadványokra adott válaszok stb. Ennek a nagyon sokrétű és szupergyors információnak a szerzői maguk a hálózathasználók, akiket közös érdekek egyesítenek. A telekonferenciák kialakítását és működési módját tekintve nagyon hasonlítanak az e-mailekhez, azzal a különbséggel, hogy az Ön levelét rengeteg ember elolvashatja, és Ön viszont érdeklődhet az iránt, mit írnak neked teljesen ismeretlenek.

World Wide Web vagy WWW

A WWW egy hiperhivatkozásokkal összekapcsolt dokumentumok hálózata.

Így a különböző kifejezések használatának különböző jelentéseket tulajdonítottak: a hálózat egymással összekapcsolt számítógépek rendszere, azaz műszaki rendszer, a web (Web) pedig egymással összefüggő dokumentumok rendszere, azaz információs rendszer.

Természetesen a dokumentumok „hálója” számítógépes hálózat alapján létezik.

Minden külön dokumentum a saját címét weblapnak nevezzük.

Minden weboldalon sok hivatkozás lehet más oldalakra, amelyek mind ugyanazon a számítógépen, mind a hálózat más számítógépein vannak tárolva. ábrán. A 3. ábra vázlatosan szemlélteti egy számítógépes hálózaton lévő dokumentumháló átfedését. Folyamatos vonalak jelzik a webszervereket és a köztük lévő kapcsolatokat, a szaggatott vonalak pedig a webes dokumentumokat és azok kapcsolatait.

Közvetlen kommunikációs fórumok - IRC (Internet Relay Chat). Szó szerint lefordítva - "csevegés" valós időben (chat konferenciák). A résztvevők közötti kommunikáció on-line, írásos formában történik. A telekonferenciához hasonlóan a chatkonferencia résztvevőit tematikus csoportokra osztják.

Internetes telefonálás

Ez az interneten keresztüli hangkommunikáció on-line módban. Ez egy új, fejlődő szolgáltatás. Fő előnye a telefonnal szemben alacsony ár. A minőség még mindig gyengébb telefonos kommunikáció(időkésések, hangtorzítás) azonban kétségtelen, hogy idővel ez a hátrány kiküszöbölhető.

3. Helyi számítógépes hálózatok: alapfogalmak, cél.

A számítógépes hálózat adatátviteli csatornákon keresztül összekapcsolt számítógépek gyűjteménye.

A hálózat összekapcsolt számítógépek és egyéb eszközök csoportja. Az összekapcsolt és az erőforrásokat megosztó számítógépek fogalmát ún hálózatépítés. A hálózaton lévő számítógépek megoszthatják:

ü adatok;

ü nyomtatók;

ü faxgépek;

ü modemek;

ü egyéb eszközök.

Ez a lista folyamatosan frissítjük, ahogy új módszerek jelennek meg megosztás erőforrás.

Számos alapvető hálózati topológia létezik, pl. számítógépek, kábelek és egyéb alkatrészek fizikai elrendezése:

Ethernet hálózat kiépítéséhez a következő berendezésekre lesz szüksége:

1. Hálózati kártyák - minden számítógéphez egy.

2. Kapcsoló – olyan eszköz, amelyhez az összes kábel csatlakozik hálózati kártyák számítógépek.

3. Kábelek.

Fő alkalmazások helyi hálózatok

1. Adminisztratív irányítási tevékenységek automatizálása, „elektronikus irodák” szervezése, amelyben a papíralapú dokumentumáramlás helyett e-mailt használnak;

2. A termelés automatizálása - automatizálás technológiai folyamatok, információs támogatás operatív irányítás termelés, tervezés és a termelés gazdasági irányítása;

3. Tudományos kutatás-fejlesztés automatizálása;

4. A személyzet oktatásának, képzésének és átképzésének automatizálása;

5. Az intézményi tevékenységek automatizálása.

Bevezetés. - 4

1. Információ keresőmotor. - 5

1.1. Dokumentográfiai IPS. - 6

1.2. Tényleges adóhivatal. - 8

2. A globális internet keresője. - 9

2.1. Hogyan működnek a keresők. - 9

2.2. Keresési technológia. - 14

3. A globális internet keresőmotorjai. - 18

3.1. Hogyan keressünk az interneten - 18

3.2. Könyvtárak keresése. - 21

3.3. Indexek keresése. - 23

4. Két keresőmotor összehasonlító jellemzői

Rambler.ru és Yandex.ru alapú rendszerek. - 29

4.1. Rambler.ru - 29

4.2. Yandex.ru. - 35

Következtetés. - 40

Irodalom. - 42

Alkalmazás. - 43

Bevezetés

Az internet sok szempontból megkönnyítette az életet. modern társadalom, globalizálta, egyes emberek lehetőségeit növelte, mások lehetőségeit csökkentette. Ma sokkal kényelmesebb és jövedelmezőbb a postai szolgáltatások használata az interneten keresztül (például egy Tobolszkból Londonba küldött levél 5 másodperc alatt ér el Londonba).

Megfigyeléseim szerint az internet az üzleti élet forrásává, a világkultúra forrásává, az oktatás forrásává és a tömegmédia eszközévé vált.

Ma az internet bármely felhasználója néhány másodperc alatt elérheti a világ összes tőzsdéjét és múzeumát. Bármely felhasználó az interneten keresztül tanulhat, és megismerkedhet a világ vezető elektronikus újságaival.

Az információ napjaink virtuális aranyává vált, és aki gyorsabban hozzájut, az gyorsabban és nagyobb sikereket ér el. És nem számít, hogy ki vagy, egy üzletember, aki új piacot keres, vagy egy diák, aki anyagot keres egy kurzushoz, mindkettőnek szüksége van információra, és az internet megadhatja őket, ha elegendő tudással rendelkeznek ahhoz, hogy átvegyék.

Sokáig tartana felsorolni, hogy milyen előnyökkel jár az internet a Föld polgárai számára, de attól tartok, hogy nem fejezem be hamar.

Szeretném megjegyezni az interneten a legfontosabb dolgot, annak „sarokkövét”, ez az információ és annak fő tulajdonságai:

1) Széles körű elérhetőség

2) Sebesség

A tapasztalatlan felhasználóknak van egy mítosza, hogy az interneten minden megtalálható. Valójában az interneten szerzett tapasztalataim azt mutatják, hogy ez nem így van. Az internetes közzétételhez szükséges anyagokat élő emberek készítik elő, ezért ott csak azt találhatja meg, amit szükségesnek (a maguk számára hasznosnak vagy előnyösnek) tartottak közzétenni. A folyót azonban patakok táplálják, és kreativitásuknak köszönhetően mára mintegy kétmilliárd weblap alakult ki az interneten. Ennek eredményeként a weben elérhető források katalogizálása komoly problémává vált. Annak ellenére, hogy szervezetek ezrei dolgoznak rajta, a probléma nemcsak hogy nincs közelebb a megoldáshoz, hanem egyre akutabbá válik. A katalogizált (vagy indexelt) erőforrások százalékos aránya folyamatosan csökken. Az elmúlt két évben ez a csökkenés katasztrofálissá vált. Tehát ha 2000-ben az indexált források aránya megközelítette a 40%-ot, akkor a következő évben már csak egyben 25%-ra csökkent. A következtetés egyszerű: a webtér gyorsabban megtelik, mint ahogy rendszeresítik. Sajnos az internetes szakembereknek nincs okuk azt hinni, hogy a közeljövőben bármi is jó irányba változna. Ennek eredményeként a világhálón történő információkeresés tekinthető a legnehezebb feladatnak az interneten.

A fentiekkel kapcsolatban korunk egyik legégetőbb témája a jó minőségű internetes információkeresés, ez a probléma nem egyszer érintett.

Tanfolyamom témája eredetisége és újszerűsége miatt érdekelt, ezt szeretném feltárni. Az én feladatom az internetes információkeresés hatékony megszervezése lesz.

1. Információkereső rendszer

Mielőtt konkrét keresési mechanizmusokhoz jutna az interneten, meg kell értenie elméleti alapja olyan kérdéseket, mint „mi az információ?”, „Információs folyamatok?”, „Információkereső rendszer és típusai?”.

Nincs egyértelmű válasz arra, hogy mi az információ, csak néhány tulajdonságot tudunk megadni, amelyek ezt a kifejezést jellemzik:

" Információ - ez az információ, amely a tárolás tárgyát képezi; ez az üzenet, a jel, a memória tartalma, valamint az üzenetben, jelben, memóriában foglalt információ."

Az információtovábbítás, tárolás és feldolgozás folyamatai mindig is játszottak fontos szerepet a társadalom életében. Az emberek szóbeli üzeneteket, jegyzeteket, üzeneteket cserélnek. Továbbítják egymásnak a kéréseket, megrendeléseket, az elvégzett munkáról szóló beszámolókat, vagyonleltárakat; hirdetéseket publikálni és tudományos cikkek; őrizze meg a régi leveleket és dokumentumokat; Hosszan töprengenek a kapott híreken, vagy azonnal rohannak elöljáróik utasításait követni. Mindez - információs folyamatok. Az információ mindig kapcsolódik anyaghordozó, átvitele pedig energiát igényel. Ugyanaz az információ azonban különböző anyagi formában (papíron, fotónegatív formájában, mágnesszalagon, ...) tárolható és különböző energiaköltséggel továbbítható (postai úton, telefonon, futárral stb.). ), Ezenkívül a továbbított információ következményei – beleértve a lényegeseket is – teljesen függetlenek az átvitel fizikai költségeitől. Például egy gomb enyhe megnyomása leereszti a nehéz színházi függönyt vagy felrobbant egy nagy épületet, a piros lámpa megállítja a vonatot, és a váratlan kellemetlen hírek szívrohamot okozhatnak. Ezért az információs folyamatok nem redukálhatók fizikaira, és az információ az anyaggal és az energiával együtt a minket körülvevő világ egyik alapvető entitása. A 20. században A technika fejlődésével új eszközök jelentek meg: kommunikációs, automatizálási eszközök, és a 40-es évektől. - számítástechnika. Kiderült, hogy működésük hatékonysága nem írható le fizikai fogalmakkal, és az ilyen eszközök lényeges jellemzőit egészen más módon kell leírni. Ennek eredményeként merült fel először az információ pontos fogalma és az információ matematikai elmélete. Világossá vált, hogy a kommunikációs eszközök, függetlenül attól, hogy milyen fizikai folyamatokat használnak, az információtovábbítás eszközei. Az „információ” és a „menedzsment” fogalmának kombinációja vezette N. Wienert a 40-es években. a kibernetika megalkotásához, amely különösen először mutatott rá a technológia, a társadalom és az élő szervezetek információs folyamatainak közösségére.

Az információ fogalmának használata jelentős hatást gyakorolt a modern biológia fejlődésére, különösen annak ágaira, mint a neurofiziológia és a genetika. És végül, a számítástechnika fejlődésével összefüggésben, amely ösztönözte az egész társadalom informatizálását, tudományok komplexuma jelent meg az információval való munka különböző aspektusairól - a számítástechnikáról.

" Információkereső rendszer - ez egy olyan rendszer, ahol egy információs tömb tárolódik, amelyből a felhasználói igényeknek megfelelően biztosítják a szükséges információkat."

Az információkeresés a felhasználó kérésére automatikusan vagy manuálisan történik (mint a könyvtárakban, amikor az olvasó kéri a referenciagyűjtemény munkatársát, és az alkalmazott a katalógusrendszert használja). A második esetben speciális szoftverrel felszerelt számítógépeket használnak, amelyek elemzik a kérések, keresések és kiadások folyamatait. szükséges dokumentumokat. Az információkereső rendszerek (IRS) tehát egy kérdés-felelet kapcsolatot valósítanak meg, amely közelebb hozza az ilyen rendszerek létrehozói előtt álló feladatokat azokhoz a feladatokhoz, amelyeket az ember-gép rendszerek létrehozói oldanak meg.

Az információkereső rendszerek két típusra oszthatók:

1. Dokumentográfiai IRS.

2. Tényleges adóhivatal.

1.1 Dokumentációs IRS

Egy ilyen információkereső rendszerben minden tárolt dokumentumot valamilyen speciális módon indexelnek. Minden dokumentumhoz (cikk, jelentés, jegyzőkönyv stb.) egyedi kód tartozik, amely a dokumentum keresési képét alkotja. A keresés be van kapcsolva nem magukkal a dokumentumokkal, hanem azok keresési képeivel, amelyek információt (címet) tartalmaznak a dokumentum helyéről. Így keresik a könyveket olvasói rendelések a nagy könyvtárakban (a kis könyvtárakban általában a könyvtáros maga keresi a könyveket). Az olvasó kérésére először egy kártyát találnak a katalógusban, majd a rajta feltüntetett kód segítségével megkeresik magát a könyvet.

A dokumentográfiai információkereső rendszerek közötti különbségeket a dokumentum keresőképének felépítése határozza meg. A legegyszerűbb esetben ez egyszerűen az egyéni neve (például cím, szerző, a könyv kiadásának éve). Bonyolultabb esetekben nincs egy az egyben megfeleltetés a dokumentum keresőképe és maga a dokumentum között. Nagyon valószínű, hogy egy dokumentum keresési képe több különböző dokumentumnak felel meg, és fordítva, ugyanaz a dokumentum nem egy, hanem több keresési képnek felel meg.

Például a leírórendszerekben lévő dokumentumok keresési képei ilyen kétértelműek. "A leíró olyan szó vagy kifejezés, amely szorosan kapcsolódik egy dokumentum tartalmához. A leírók halmaza hasonló tartalmú dokumentumok csoportját határozza meg." IN utóbbi időben A tudományos cikkeket publikáló folyóiratok megkövetelik szerzőiktől, hogy minden cikkhez adjanak meg egy kulcsszólistát, amely leíróként szolgál. Ha például az éppen olvasott cikket kulcsszavakkal írja le, akkor az egyik lehetséges lista a következő lenne: információkeresés, információkereső rendszer, leíró, tezaurusz, dokumentumkereső kép.

Ezeknek a kulcsszavaknak egy halmazát (leírókészletet) használva megtalálhatja ezt a cikket a könyv összes cikke között, ha beírja annak cikkenkénti tartalmát bármely leíró típusú adóhivatalba.

Az IPS leíró típus általános blokkvázlata az 1. ábrán látható. Ennek az áramkörnek két bemenete van. Egyenként feltöltődik a rendszerben tárolt dokumentumok információs tömbje, a második fogadja a felhasználói kéréseket.

1.2 Tényleges IRS

A dokumentumgrafikus információs rendszerekkel ellentétben az ilyen típusú információs rendszerek nem dokumentumokat, hanem bármely tárgykörhöz kapcsolódó tényeket tárolnak. A tárolt tények különféle dokumentumokból kinyerhetők. Például a tizennyolcadik század történetét át kell dolgozni egy tényadatbázisba, amelyek különféle kapcsolatrendszerrel kapcsolódnak egymáshoz. Az IRS ilyen hálózatát a témakör tezauruszának nevezik. A tényszerű információ-visszakereső rendszerek által kapott lekérdezések szinonimaszótár segítségével keresik a válaszokat a lekérdezésekre. A keresés a mesterséges intelligencia rendszerek tudásbázisaiban széles körben használt keresési módszerhez hasonló keresési módszerrel történik.

Például át kell dolgozni a tizennyolcadik század történetét, és össze kell gyűjteni az összes információt II. Katalinról.

A tényszerű adóhivatal szervezetében és működésében fokozatosan közelít a fejlett adatbázisokhoz és tudáshoz.

2. A globális internet keresője.

Nem akarok belemenni a gazba belső munka kereső (elektronikus szinten), mert ez nem felel meg a munkám céljainak, és véleményem szerint ez a programozók munkája legfelső szint ami most a célom.

Szeretném szétszedni és részletezni, hogyan kezdtem el megérteni az információ-visszakeresés technológiáját, és magát az információ-visszakeresés mechanizmusát.

2.1 Technológia információkereséshez az interneten

Maga a keresési technológia válik érthetőbbé a 2. ábrán.

1) Először is a felhasználó megoldja a következő problémát: mit akar találni, és hol lehet.

2) Ezután az Internetre lép, egy közönséges Internet Explorer ablakba (Böngésző) (3. ábra). Ha a felhasználó tudja annak az oldalnak a nevét, ahol az őt érdeklő információ található, akkor egyszerűen bejelenti a nevét, és felkeresi.

Példa. A felhasználó ma szeretne tájékozódni a filmforgalmazásról, és felkeresi a film.ru webhelyet (3. ábra).

Ez a legprimitívebb módja az információkeresésnek az interneten, és lehet, hogy itt ér véget a keresés.

egy régen bemutatott filmről szóló információ, például a „Brother-2” film megtalálásához elegendő az ablakban

Gyakran egy hivatkozás mellett rövid információk is megjeleníthetők a dokumentumról. Ha a talált dokumentumok között nincs szükség, akkor a következő csoport jeleníthető meg - a dokumentumok teljes száma általában több ezer. Ha arra a szerverre szeretne eljutni, ahol a talált információ található, egyszerűen kattintson a linkre a keresési eredményben.

Ez a legprimitívebb módja az információkeresésnek az interneten, és a keresés ezzel véget is érhet.

Léteznek belső (helyi) keresőrendszerek is.

Példa. Ugyanabban a film.ru oldalon megtekinthető

információ egy olyan filmről, amely már régóta kikerült a mozikból

Például keresse meg a "Brother-2" filmet az ablakban

keresse be a Brother-2 szót (3. ábra)

3) Ha a felhasználó nem tudja annak az oldalnak a nevét, ahol megtalálja az őt érdeklő információkat, akkor valamilyen keresőmotor segítségét veszi igénybe. Jelentős számú ember dolgozik online segítő rendszerek. Miután elérte a megadott szervert, a képernyőn egy kérési űrlapot kap, amelyben meg kell adnia a kereséshez szükséges információkat. Általában az űrlapon lehetőség van a keresési terület korlátozására (például téma szerint). Beírhatja a kívánt kifejezést, meghatározhatja a keresési területet, és megpróbálhat választ kapni.

A keresés automatikusan megtörténik a szerveren talált szavak száma alapján. A talált linkek első csoportja, amely a legjobb mutatókkal rendelkezik a keresőszavak talált előfordulásai számát tekintve, átkerül a számítógépére. Gyakran egy hivatkozás mellett rövid információk is megjeleníthetők a dokumentumról. Ha a talált dokumentumok között nincs szükség, akkor a következő csoport jeleníthető meg - a dokumentumok teljes száma általában több ezer. Ha arra a szerverre szeretne eljutni, ahol a talált információ található, egyszerűen kattintson a linkre a keresési eredményben.

Általában egy kulcsszópár keresése több tízezer hivatkozást eredményez az ilyen kifejezéseket tartalmazó dokumentumokra. Ilyen mennyiségű találat ritkán teszi lehetővé, hogy hatékonyan találjunk „gyöngyszemet” olyan anyagok között, amelyek nem kapcsolódnak a keresés témájához. Mit tudtok ajánlani?

Először is, a felhasználónak szűkítenie kell a keresési területet. Próbáld meg meghatározni, hogy milyen profilszervereken, melyik országban stb. Valószínűleg megtalálja az Önt érdeklő anyagokat. Gondolja át, milyen egyéb kulcsszavak jellemezhetik a keresési objektumokat, használjon több kulcsszót.

Ha a keresőobjektum több kifejezést ad meg, akkor a keresőmotor a dokumentumban minden egyes szó előfordulását önállóan keresi. Vagyis a keresés eredménye egy olyan dokumentumot eredményezhet, amely csak egy szót tartalmaz, de többször is. Ezért a keresendő kifejezések meghatározásakor logikai műveleteket lehet és kell használni.

Például a szó_1&szó_2 beírása arra kényszeríti, hogy megkeresse azokat az oldalakat, ahol az első és a második kifejezés is szerepel.

Másodszor, keresést kell végezni az összes ismert keresőmotoron. Mindegyik saját, kissé eltérő keresési technológiát alkalmaz. Ezért a teljesen hasonló keresések eltérő eredményekhez vezethetnek. A legtöbb keresőmotor ingyenes, így semmi sem akadályozza meg abban, hogy annyi keresést végezzen, amennyire szüksége van.

Harmadszor, nagyon gyakran az eredmény úgy érhető el, ha dokumentumokat keresünk a rájuk mutató esetleges hivatkozások alapján.

A felhasználónak meg kell próbálnia meghatározni, mely ismert dokumentumok tartalmazhatnak hivatkozásokat a témáira. A dokumentumokban található hipertext hivatkozásokon keresztül pedig elérheti a kívánt forrást. Gyakran ez a módszer hatékony. Próbáljon megkeresni olyan szervezeteket (WWW-szervereket), amelyek profilja hasonló a keresési témához. Néha ezeknek a szervereknek a dokumentumaiban található hivatkozásokon keresztül hozzáférhet a szükséges anyagokhoz.

Negyedszer, próbáljon hasonló témájú konferenciát találni, pl. menj csak el valami CHAT-re. Például a www.anekdotov.net.ru oldalon. Gyakran egy hírcsoportba "bedobott" kérdés elegendő háttérinformációt nyújt.

És végül ne felejtsd el megkérdezni a barátaidat. Váratlan megoldást javasolhatnak.

Mindenesetre fel kell készülnie arra, hogy a keresés meglehetősen hosszú ideig tarthat, és jelentős erőfeszítést igényel.

Példa. A felhasználó belép a Yandex.ru keresőbe, és a keresőablakba beírja a Brother-2 szót, majd megkeres mindent, ami bármilyen módon kapcsolódhat ehhez a szóhoz. A Yandex azt javasolja, hogy forduljon számos webhelyhez, köztük a film.ru oldalhoz, és közvetlenül a filmmel foglalkozó webhelyhez. (4. ábra)

2.2 A keresőmotorok működése

A keresőmotorok általában három lépésben keresnek releváns információkat:

I) szakasz: Egy robot (ügynök, pók vagy bejáró) navigál az interneten és információkat gyűjt.

II) szakasz: A robotok által gyűjtött összes információ hivatkozások formájában kerül be az adatbázisba, és indexelve van.

III) szakasz: Elindul egy kereső, amelyet a felhasználók interfészként használnak az adatbázissal való interakcióhoz. azok. az adatbázis hiperhivatkozásokat generál, majd a felhasználó egyszerűen átkeresi a szükséges hivatkozásokat.

Ezek a szakaszok egyértelműen kifejeződnek a blokkdiagram működésében (2. ábra)

Az első kettő előkészítő és a felhasználó számára láthatatlan.

Tekintsük részletesebben az információkeresés szakaszait

Keresőmotor:

I) Színpad. A keresőmotor információkat gyűjt a világhálóról. Erre használnak speciális programok, hasonlóan a böngészőkhöz. Képesek egy adott weboldalt a keresőindex szerverre másolni, megnézni, megtalálni az összes azon található hiperhivatkozást, elmenni a bennük megadott URL-ekre, átmásolni az ott található forrásokat, újra megtalálni a bennük található hiperhivatkozásokat. stb. d. Ezek speciális programok, például ügynökök, pókok, bejárók és robotok, amelyek oldalakat keresnek az interneten, hipertext linkek ezeken az oldalakon, és automatikusan indexeli a talált információkat az adatbázis felépítéséhez. Minden keresőmotornak megvannak a saját szabályai, amelyek meghatározzák a dokumentumok gyűjtésének módját. Vannak, akik minden talált oldalon minden linket követnek, majd minden új oldalon minden hivatkozást megvizsgálnak, és így tovább. Egyesek figyelmen kívül hagyják azokat a hivatkozásokat, amelyek grafikus és hangfájlokhoz, animációs fájlokhoz vezetnek; másokat arra utasítanak, hogy először a legnépszerűbb oldalakat nézzék meg.

Ügynökök - a legintelligensebb keresőeszközök. Többet is tehetnek, mint puszta keresést: üzenetet hagyhatnak az oldalon tett látogatásáról. Már most is kereshetnek egy adott témájú webhelyeket, és visszaadhatják a webhelyek forgalmuk szerint rendezett listáját. Az ügynökök képesek feldolgozni a dokumentumok tartalmát, és más típusú erőforrásokat keresni és indexelni, nem csak oldalakat. Programozhatók úgy is, hogy információkat nyerjenek ki a meglévő adatbázisokból. Bármilyen információt is indexelnek az ügynökök, visszaadják a keresőmotor adatbázisának.

Az általános információkeresést az interneten a pókok néven ismert programok végzik. Pókok jelentse a talált dokumentum tartalmát, indexelje és összefoglaló információkat vonjon ki. Megnézik a címeket, néhány hivatkozást is, és elküldik az indexelt információkat a kereső adatbázisába.

Bejárók vizsgálja meg a fejléceket, és csak az első hivatkozást adja vissza.

A robotokat be lehet programozni, hogy kövessék a különböző beágyazási mélységű hivatkozásokat, végezzenek indexelést, és még a hivatkozásokat is ellenőrizzék egy dokumentumban. Természetükből adódóan hurkokba akadhatnak, így jelentős hálózati erőforrásokat igényelnek a hivatkozások követéséhez. Vannak azonban olyan módszerek, amelyek megakadályozzák, hogy a robotok olyan webhelyeken keressenek, amelyek tulajdonosai nem akarják, hogy indexelve legyenek.

Robotok lekérni és indexelni különféle típusok információ. Egyesek például minden indexet külön szó a talált dokumentumban, míg mások mindegyikben csak a legfontosabb 100 szót indexelik, indexelik a dokumentum méretét és a benne lévő szavak számát, a címet, a címsorokat és az alcímeket stb.

Az összeállított index típusa határozza meg, hogy a keresőmotor milyen kereséseket végezhet, és hogyan értelmezi a kapott információkat.

Azok az emberek, akik információt szeretnének nyújtani a nagyközönség számára, vagy akik nagyobb forgalmat szeretnének elérni webhelyükön, rövid kivonatokat helyezzenek el az oldal tartalmáról közvetlenül az indexben, és egy speciális űrlapot töltenek ki ahhoz a részhez, amelyben feltételezik, hogy a keresőrobot lépjen kapcsolatba, és húzza be ezt a webhelyet az adatbázisba, és adja meg néhány felhasználónak.

Ha valaki az interneten elérhető információkat szeretne megtalálni, felkeresi a keresőoldalt, és kitölt egy űrlapot, amelyben részletezi a szükséges információkat. Itt kulcsszavak, dátumok és egyéb kritériumok használhatók. A keresési űrlapon szereplő feltételeknek meg kell egyeznie a robotok által a weben való navigálás során talált információk indexelésekor használt feltételekkel.

Az indexelt információ a fent leírt módon kerül elküldésre a keresőmotor adatbázisába.

II) szakasz: A keresett webes erőforrások keresőkiszolgálóra másolása után kezdődik a munka második szakasza - az indexelés. Az indexelés során speciális adatbázisok jönnek létre, amelyek segítségével megállapítható, hogy egy adott szót hol és mikor találtak meg az Interneten. Az indexelt adatbázis egyfajta szótár. Erre azért van szükség, hogy a keresőmotor nagyon gyorsan tudjon válaszolni a felhasználói kérésekre.

Az adatbázis a kitöltött űrlapon megadott információk alapján megkeresi a kérelem tárgyát, és megjeleníti az adatbázis által elkészített megfelelő dokumentumokat. A dokumentumok listája megjelenítési sorrendjének meghatározásához az adatbázis egy rangsorolási algoritmust alkalmaz. Ideális esetben a felhasználó lekérdezésének szempontjából legrelevánsabb dokumentumok kerülnek a lista első helyére.

"A kapott eredmények rendezésének műveletét rangsorolásnak nevezik."

A különböző keresőmotorok különböző rangsorolási algoritmusokat használnak, de a relevancia meghatározásának alapelvei a következők:

A lekérdező szavak száma a dokumentum szöveges tartalmában (azaz a html kódban).

Címkék, amelyekben ezek a szavak találhatók.

A keresett szavak helye a dokumentumban.

Azoknak a szavaknak a részaránya, amelyekre vonatkoztatva relevancia van meghatározva a dokumentumban szereplő szavak teljes számában.

Ezek az elvek minden keresőmotorra érvényesek. Az alábbiakban bemutatottakat pedig néhány, de elég ismert is használja (például AltaVista, HotBot).

Idő – mennyi ideig van az oldal a kereső adatbázisában. Elsőre ez elég értelmetlen elvnek tűnik. De ha belegondolunk, hány olyan oldal van az interneten, amely maximum egy hónapig él! Ha az oldal már régóta létezik, ez azt jelenti, hogy a tulajdonos nagyon tapasztalt ebben a témában, és a felhasználónak jobban megfelelne egy olyan oldal, amely néhány éve az asztali modorról mesél a világnak, mint az, amelyik egy hete jelent meg ugyanebben a témában.

Hivatkozási index – hány hivatkozás ezt az oldalt a kereső adatbázisában regisztrált más oldalakról származó leadeket. Az adatbázis egy hasonlóan rangsorolt HTML-dokumentumok listáját adja ki, és visszaküldi a kérést benyújtó felhasználónak. Különféle keresőmotorok is kiválasztanak különféle módokon a kapott lista megjelenítése - egyesek csak hivatkozásokat mutatnak; mások hivatkozásokat jelenítenek meg a dokumentum első néhány mondatával vagy a dokumentum címével a hivatkozással együtt.

III) Stádium. A felhasználó kérelmét feldolgozzuk, és a keresési eredményeket hiperhivatkozások listája formájában kapja meg. Ezután a felhasználó feladata az adatbázis által biztosított hivatkozások feldolgozása. Ha rákattint az őt érdeklő dokumentumok valamelyikére, akkor ezt a dokumentumot lekéri a szerverről, amelyen található, ha a felhasználó információi ezen az oldalon nem kielégítik, akkor egy másik hivatkozásra kattint. Ez a szakasz sokáig tarthat, és a felhasználó számára a legnehezebbnek bizonyulhat.

3. Keresőmotorok

Nagyon sok kereső (kereső) van az interneten, különböző típusúak, mindegyiknek megvannak a maga előnyei és hátrányai. A felhasználónak mindig ilyen kérdésekkel kell szembenéznie: hogyan kereshet az interneten, melyik autó jobb. Tehát megpróbálok válaszolni ezekre a kérdésekre.

3.1 Hogyan kereshet az interneten

Az interneten való keresés során két összetevő fontos - a teljesség (semmi sem vész el) és a pontosság (semmi felesleges). Általában mindezt egy szóval nevezik - relevancia, vagyis a kérdésre adott válasz megfelelése.

1. Fedettség és mélység. A lefedettség alatt a keresőmotor adatbázisának mennyiségét értjük: amelyet három mutatóval mérnek - az indexelt információk teljes mennyiségével, az egyedi szerverek számával és az egyedi dokumentumok számával. Mélység alatt azt értjük, hogy van-e határ

oldalak száma vagy az egy kiszolgálón egymásba ágyazott könyvtár mélysége.

Hogyan ellenőrizhető: Egyes gépek robotstatisztikát írnak a weboldalukra. De ezt Ön is ellenőrizheti - be kell állítania több, egy szóból álló keresési lekérdezést (hogy kizárja a lekérdezési nyelv hatását, beleértve a tér különböző értelmezését), és egyidejűleg meg kell néznie az eredmények statisztikáit a gép - általában a lista elején szerepel, hogy összesen hány dokumentumot találtak. Amellett, hogy a szavaknak különböző területekről kell származniuk, érdemes figyelembe venni a különböző „súlyú” szavakat - ritka, „közepes” és „nehéz” (gyakoriság), és összehasonlítani a talált mennyiséget. A nehéz szavak különösen a keresőmotor teljes szövegét (a dokumentumban szereplő összes szó indexelését) tesztelik.

Nehezebb ellenőrizni a robot bejárási mélységét – ehhez ki kell venni néhány oldalt, például elágazó archív struktúrával, és ellenőrizni kell, hogy vannak-e olyan dokumentumok, amelyek például csak 6 kattintással érhetők el. a linkek indexelve vannak.

2. A linkek feltérképezési sebessége és relevanciája.

A web feltérképezésének sebessége megmutatja, hogy az újonnan hozzáadott erőforrás milyen gyorsan indexelődik, és milyen gyorsan frissülnek az adatbázisban lévő információk. A keresőmotor (robotja) minőségének fontos mutatója nem csak az új területek „befogása”, hanem

a már lefedett személyek állapotának nyomon követése. A szerverek eltűnnek és megjelennek, a rajtuk lévő oldalak frissülnek. Linkek biztosítottak keresőmotor a megtaláltak listáján egyrészt léteznie kell, másrészt tartalmuknak meg kell felelnie a kérésnek.

Hogyan ellenőrizhető: Objektív információhoz juthatunk a szervernaplók elemzésével – egy keresőrobot általában a gépe nevével (vagy hasonló képpel) mutatkozik be, így láthatja, hogy milyen gyakran látogatja a szervert, hány oldalt néz meg stb. Sajnos általában csak a webhely naplója érhető el tanulmányozásra, így marad a kísérleti módszer.

A feltérképezés sebességének meghatározásához valahol létre kell hoznia egy szöveges oldalt, hozzá kell adnia a keresőmotorokhoz, és látnia kell, milyen gyorsan kezd el megjelenni. Vagy módosítson egy meglévő oldalt. A hivatkozások relevanciájának megállapításához ellenőrizze a dokumentumokat legalább a lista első oldalán, amely több lekérdezés esetén megtalálható. A "Nem található" üzenet azt jelzi, hogy a dokumentum már nem létezik.

3. Keresés minősége(szubjektív mutató).

Minden keresőmotornak saját algoritmusa van a keresési eredmények rendezésére. Minél közelebb van a lista tetejéhez a szükséges dokumentum, annál jobban működik a relevancia.

Hogyan ellenőrizhető: Csak kísérlet útján. Összehasonlítás céljából ajánlatos különböző hosszúságú lekérdezéseket készíteni. Használhat lekérdező nyelvet is, és aki nem szívesen olvassa el a leírást, használhatja a kibővített lekérdező oldalt (az Aportban és a Yandexben „speciális keresés”, a Ramblerben „részletes lekérdezés” – fordítási lehetőségek orosz nyelvre „bővített keresés”).

A relevancia mellett fontos felhasználói jellemzők is vannak.

1. Keresési sebesség. Ha egy keresőmotor lassan reagál, akkor hatástalan lesz. Érdemes hozzátenni, hogy a felhasználó számára látható sebesség nemcsak magától a keresőtől, hanem az internetes csatornáktól is függ.

Hogyan ellenőrizhető: Kísérletezéssel különböző hosszúságú, különböző „súlyú” szavakat kell keresni, különböző napszakokban (a szerver terhelése a nap folyamán jelentősen egyenetlen, a csúcs délután három-négy óra körül van) .

2. Keresési lehetőségek (dokumentumnyelvvel való munkavégzés, lekérdezési nyelv). További összehasonlítási szempont, hogy mit és hogyan ír be a kereső az indexbe. A teljes szövegű keresőmotor a felhasználó számára látható szövegben szereplő összes szót indexeli. A morfológia jelenléte lehetővé teszi, hogy a keresett szavakat minden deklinációban vagy ragozásban megtaláljuk. Ezen kívül be HTML nyelv Vannak olyan címkék, amelyeket kereső is fel tud dolgozni (címsorok, linkek, képfeliratok stb.). Szinte minden gép rendelkezik lekérdezési nyelvvel szabványos logikai operátorok formájában (ÉS, VAGY, NEM). Vannak, akik tudják, hogyan keressenek kifejezéseket vagy szavakat adott távolságból – ez gyakran fontos az ésszerű eredmény eléréséhez. Kiegészítő funkció egy keresés a dokumentumterületeken - címsorok, hivatkozások, kulcsszavak (META KULCSSZAVAK) stb. A lekérdezési nyelv további jellemzője a természetes nyelvű lekérdezés, amely nem igényli az operátorok ismeretét.

Hogyan ellenőrizhető:Általában ezeket az információkat a kereső szerverén teszik közzé (a Súgóban), azonban valós kérések esetén ajánlatos ellenőrizni, mivel néha a kívánt valóságként jelenik meg.

3. Kiegészítő szolgáltatások. Ezek olyan kiegészítő szolgáltatások, amelyeket a keresőmotor biztosít a felhasználóknak. Ez magában foglal mindenféle keresési lehetőséget (speciális oldalak, hasonló dokumentumok keresése, keresési terület korlátozása), és a talált szerverek listája, valamint dátum és szerver szerinti keresés, valamint kényelmes keresőfelület, személyre szabhatóság.

Hogyan ellenőrizhető: Előfordulhat, hogy az információkat részben közzéteszik a keresőmotor szerverén, de a legjobb, ha megpróbálja saját maga használni ezeket a funkciókat.

A keresőmotorok a következőkből állnak keresési könyvtárak és keresési indexek, Sok keresési index könyvtárakat is tartalmaz. Nézzük meg őket.

3.1 Könyvtárak keresése

Bármely könyv tartalomjegyzékkel kezdődik, és betűrendes tárgymutatóval végződik. Annak ellenére, hogy a könyvben különböző helyeken helyezkednek el, és teljesen másképp néznek ki, ugyanaz a feladatuk: segítsen megtalálni a könyvben pontosan azt a részt, amelyre éppen szükség van. A tartalom egy példa a katalogizálásra.

Amikor valaki kiválaszt egy témát, amely érdekli, akkor ennek alapján keresi meg az oldalszámot, ahol ez a téma megvitatásra kerül. Az alfabetikus index egy példa az indexelésre (angolul az index egy index). A személy megtalálja a kívánt kifejezést az indexben, és megkapja az oldalszámot, amelyen megjelenik.

A címtárak eltérnek a keresőmotoroktól. A könyvtárak tematikus részekre gyűjtött webhelyek gyűjteménye. Ezek a címsorok pedig alcímekre bonthatók, amelyekben lehetnek még kisebb alkönyvtárak stb.

A felhasználó szempontjából a címtárak ugyanazok, mint a keresőmotorok. De ezek a katalógusok nem „robotokkal” vannak tele, mint a táblákon, hanem a legtöbb élő emberrel. Ez nagyon jó a felhasználók számára, mivel relevánsabb eredményeket ad a keresőmotorokhoz képest. A keresőindex részben katalógust is tartalmaz, amely tartalomjegyzékek (hiperhivatkozások) formájában jelenik meg a legnépszerűbb témákról.

Az erőforrás katalogizálása során egy tapasztalt szerkesztő alaposan átnézi azt, és meghatározza, hogy melyik tudásterülethez tartozik. ezt az erőforrást, létrehozza kategóriáját ebben az iparágban, és beírja az erőforrást a katalógusba. Az internet legnagyobb könyvtára a Yahoo (www.yahoo.com). Több mint 150 képzett szerkesztőt foglalkoztat. Ez egy nagy szervezet, de erőfeszítései csak egy körülbelül 1 millió erőforrást tartalmazó címtár fenntartására elegendőek. A további terjeszkedést az igény korlátozza

az Internet orosz részén az 1. táblázatban. [melléklet]

3.3 Indexek keresése

A keresési indexek automatizált rendszerek. Emberi beavatkozás nélkül is képesek működni, ezért a valódi internetes forrásokkal kapcsolatos tudásuk jóval (több nagyságrenddel) nagyobb, mint a címtároké. Az indexelt weblapok száma több százmillió is lehet.

A keresési index három szakaszban működik, amelyeket a 2.2.

A keresési index kiválasztására vonatkozó konkrét ajánlások nagyon gyorsan elavulnak. Az internet helyzete szó szerint a szemünk láttára változik. Alig telik el hat hónap anélkül, hogy ne változna valami a keresőmotorokban. Lehet, hogy az a rendszer, amely tegnap a legjobb volt, ma nem lesz a legjobb, holnap pedig nagyon rossz. Ugyanakkor a népszerűség trükkös dolog. Nehéz megkeresni, de sokáig tart. Ennek eredményeként nagyon gyakran találkozunk olyan helyzettel, amikor a legnépszerűbb távolról sem legjobb rendszer. Segítünk az olvasónak megtanulni, hogyan lehet önállóan ellenőrizni a különböző keresőmotorokat, és kiválasztani a legjobb eredményt adókat. Ellenőrzéskor a keresési index mérete nem kritikus. Nem több millió linkre van szükségünk, hanem csak kettő-három, de lehetőleg a legjobbra. Ezért nem csak az a fontos, hogy a keresőmotor hány weboldalt indexelt, hanem az is, hogy mikor tette ezt utoljára, milyen gyakran ellenőrizte ezt követően a hivatkozások relevanciáját, és milyen helyesen jeleníti meg a keresési eredményeket.

A keresőmotorok összehasonlító áttekintése.

Nem kell részletesen beszélni a keresési könyvtárak használatáról. Mivel csak fel kell lépnie az oldalra, válassza ki az Önt érdeklő kategóriát, válasszon ki benne egy részt, és így tovább, amíg meg nem nyílik a konkrét hivatkozások listája.

Sokkal érdekesebb megvizsgálni a keresési indexek használatának technikáit, különösen azért, mert ezek a technikák a különböző indexeknél eltérőek. De mielőtt elkezdené egy adott rendszer tanulmányozását, meg kell fontolnia az összes keresési indexre egyformán érvényes általános fogalmakat, például olyan népszerű és véleményem szerint a legkényelmesebb keresési indexeket, mint a Yandex és a Rambler.

És azzal kezdem, hogy megvizsgálom a keresés főbb típusait. Alapvetően csak négyféle keresés létezik.

Minden keresési index több keresési algoritmust valósít meg. Ezek közé tartozik: egyszerű keresés, speciális keresés, kontextus szerinti keresés és speciális keresés.

Egyszerű keresés. Egy egyszerű kereséssel a lekérdező mezőbe egy vagy több szó kerül be, amely jellemezheti a dokumentum tartalmát. Ha ez egy szó, akkor általában olyan nagy számú link a válasz, hogy nem világos, mit kezdjünk vele. Ha több szót ír be, az eredmény a szavak beírásának módjától függ, ami viszont a használt rendszertől függ. Az egyszerű keresés módszerei a különböző keresőmotorokban általában eltérőek, és használatuk előtt tanácsos elolvasni az utasításokat. Egy egyszerű keresés a Ramblerben a következő címen található:

8. ábra. Amikor beírja a kifejezést: Minden össze van keverve Oblonskyék házában, a keresési indexek a következő eredményeket adják: Rambler 9 (dokumentumok)

Yandex 2400 (dokumentumok)

Speciális keresés. A speciális keresés mindig egy szócsoportból származó lekérdezést foglal magában. A speciális kereséseknél a legtöbb esetben megengedett a kulcsszavak összekapcsolása az AND (AND), OR (OR), NOT (NOT) és más logikai operátorokkal. A speciális keresés fő előnye, hogy a kulcsszavak és logikai operátorok rögzítésének szabályaiként különböző rendszerek vagy ugyanaz, vagy nagyon hasonló. Ezért, miután elsajátította a speciális keresési technikákat, bárhol használhatja őket. Csak először át kell kapcsolnia a rendszert a kívánt üzemmódba (9. ábra).

Ha beírja a kifejezést: Minden össze van keverve Oblonskyék házában, a részletes keresésnél a keresési indexek a következő eredményeket adják: Rambler 9 (dokumentumok)

Yandex 2400 (dokumentumok)

8. ábra Egyszerű keresés a Ramblerben

9. ábra A rendszer váltása speciális keresés módba.

Kontextus szerinti keresés. Ez egy nagyon hasznos keresési típus, amely sajnos nem minden keresési indexben van megvalósítva. Az ezt támogató rendszereket különösen meg kell becsülni. A kontextus szerinti kereséshez egy kifejezés vagy szócsoport pontos egyezése szükséges, például „Minden

összekeveredett Oblonskyék házában. A legtöbb keresőmotorban, amely ezt a módszert használja, a kulcsmondatot idézőjelbe kell tenni: „Minden össze van keverve az Oblonsky-házban (10. ábra).

Amikor beírja a „Minden összekeveredett Oblonskyék házában” kifejezést, a keresési mutatók a következő eredményeket adják:

Rambler 0 (dokumentumok)

Yandex 8 (dokumentumok)

10. ábra. Kontextus szerinti keresés a RAMDLER.RU webhelyen

Különleges keresés. Speciális keresési parancsok segítségével további információkat keres. Például az ilyen parancsok lehetővé teszik annak meghatározását, hogy milyen gyakran találhatók meg a segítségükkel az erőforrásra mutató hiperhivatkozások, találhat kulcsszavakat,

szerepelnek a weboldalak fejlécében stb. A speciális keresőparancsok általában eltérőek a különböző keresőmotorokban.

Azt is figyelembe kell venni általános szabályokat parancsrekordok keresése.

A keresési parancsok írásának általános szabályai:

Szóközökkel elválasztott szavak

Tegyük fel, hogy a felhasználónak találnia kell egy weboldalt, amely a működésről mond valamit Microsoft rendszer Windows. Logikus, hogy szavakat írjon be a keresőmezőbe Microsoft Windowsés várja meg az eredményt. De az eredmény elkeserítő lehet. Egyes keresőmotorok úgy értelmezik az ilyen bejegyzéseket, mint a Microsoft ÉS a Windows - azt fogják adni, amit a felhasználó keres. Mások ezt a bejegyzést Microsoft VAGY Windowsként értelmezhetik – ekkor a rendszer minden olyan weboldalon keres, amely vagy az első szót, vagy a második szót, vagy mindkettőt tartalmazza. A felhasználót természetesen csak azok az oldalak érdeklik, amelyeken a két szó együtt szerepel, de szó szerint el lesznek temetve más oldalak között, amelyekre nincs szüksége.

Amikor elkezd dolgozni egy ismeretlen rendszerrel, először ellenőriznie kell, hogyan kezeli a kulcsszócsoportokat. Először írjon be egy szót: Microsoft. Megnézheti, hány eredményt produkál a rendszer.

Rambler 28184 (dokumentumok)

Yandex 1048379 (dokumentumok)

Ezután a második szó kerül beírásra: Windows. A mennyiséget újra ellenőrzik. Mindkét szó beírásra kerül: Microsoft Windows.

Amikor beírja a Microsoft kifejezést, a keresési indexek a következő eredményeket adják:

Rambler 6641 (dokumentumok)

Yandex 259276 (dokumentumok)

Ha a talált weblapok száma nagyobb, mint az első és a második esetben, az azt jelenti, hogy a rendszer úgy ítéli meg, hogy a kulcsszavak VAGY kapcsolattal kapcsolódnak egymáshoz (a halmazokat összevonják). Ha az eredmény kisebb, mint az első tesztek mindegyikében, akkor a rendszer az ÉS relációt használja (a halmazok metszik egymást). Mindkét esetben meg kell ismerkednie háttérinformációk hogy megtanulja, hogyan érheti el az ellenkező eredményt. Például az összes nagyobb orosz keresőmotor alapértelmezés szerint az ÉS operátort használja a szavak között, bár a Yandex rendszernek megvannak a maga sajátosságai (lásd 2. táblázat). Ott úgy gondolják, hogy ennek a két szónak egyidejűleg nem a dokumentumban, hanem egy mondatban kell jelen lennie. Ha elég, ha jelen vannak a dokumentumban, minden szót elő kell írni<+>. Ugyanakkor felmerül az inverz probléma: hogyan biztosítható, hogy az adott kulcsszót tartalmazó dokumentumokat megkeressük, vagyis hogyan állítsuk be a VAGY arányt?

"Rambler": Microsoft VAGY Windows; (50986 dokumentum)

"Yandex": Microsoft | Ablakok; (2034641 dokumentum)

A nagybetűk szerepe

A legtöbb keresőben a „kenyér” nem egyenlő a „KENYER”-el, hanem a „KENYÉR”*„kenyér”. Az általános szabály: ha a kliens kisbetűket írt be, akkor a kis- és nagybetűket is keresi, de ha a kliens használt nagybetűk, akkor a pontos egyezés csak nagybetűkkel található. Klasszikus példa erre a Piroska. Ha pontosan így, nagybetűvel írja be őket, akkor csak olyan dokumentumokat, amelyek tartalmazzák

Piroska kombinációja. Ha azonban a kulcsszavakat piros sapkával írják, akkor több dokumentum fog megjelenni. Minden dokumentum, amely a következő kombinációkat tartalmazza, átmegy a kiválasztási rostán: Piroska, Piroska, Piroska és Piroska. Ezért nem kell visszaélni a nagybetűk használatával a lekérdezésben, és csak akkor használja őket, ha abszolút biztos az eredményben.

Néhány keresőmotor azonban eltérő. Például a Rambler rendszerben az indexelés során minden nagybetűt erőszakosan kisbetűssé „leeresztenek”. Ez azt jelenti, hogy a nagybetűk használata a lekérdezésben nem hasznos ebben a rendszerben.

Amikor beírja a: Piroska kifejezést, a keresési indexek a következő eredményeket adják:

Rambler 2921 (dokumentumok)

Yandex 16458 (dokumentumok)

A fenntartott szavak szerepe

A fenntartott szavak olyan szavak, amelyeket a rendszer nem vesz figyelembe a kérés feldolgozása során. A weblapok indexelése közben a program eltávolítja azokat a szövegből, ami jelentősen csökkenti az indexek méretét és a keresési időt. Fenntartott szavakra általában

Ide tartoznak a nem tájékoztató jellegű szavak: elöljárószók, kötőszavak, névmások, cikkek és egyéb apró szavak. Így például, ha a Yandex rendszerben a „Minden össze volt keverve Oblonskyék házában” kifejezésre keres, akkor a „Mit kevertek össze Oblonskyék házában” című dokumentumokat is keresni fogják? - és hova keveredett? Oblonskyék házában? Egyes rendszerek lefoglalhatnak olyan szavakat, amelyek rendkívül gyakran előfordulnak, és ezért nem tájékoztató jellegűek. Ha például a rendszer a könyvek keresésére koncentrál, akkor a könyv szó nem tájékoztató jellegű számára. Az auto szó nem informatív az autóipari kérdésekkel foglalkozó keresőrendszerek esetében, a számítógép és az Internet szavak pedig a számítástechnikával kapcsolatos információk keresésére összpontosító rendszerek esetében. Különösen fontos figyelembe venni a fenntartott szavak szerepét a kontextus szerinti keresés során, mert A kontextus szerinti keresés pontos egyezést igényel a felhasználó által megrendelt és a webes dokumentumokban megjelenő között. Ha egy keresőrendszer „megfosztotta” a webes dokumentumoktól a fenntartott szavakat az indexelési szakaszban, akkor nem képes megbirkózni a kontextus szerinti kereséssel, kivéve talán a weboldalak másolatainak „megtekintését”, ha tárol ilyeneket, de ez sok időt vesz igénybe. Ezért ritka az őszinte kontextus szerinti keresés a keresőmotorokban. Oroszországban például a Yandex és a Rambler is csak úgy tesz, mintha kontextus szerinti keresési lehetőségeket biztosítana, a keresett kifejezést idézőjelbe kell tenni. Néhány egyszerű teszt után azonban könnyen belátható, hogy ez valójában nem kontextus szerinti keresés, hanem a foglalt szavakra pontos keresés. Egy példa, amikor a „Minden össze volt keverve Oblonskyék házában” lekérdezés a Mi volt összekeverve Oblonskyék házában eredményt ad. A 2. táblázatban a főbb keresőmotorok (keresőmotorok) összehasonlító leírását adok [Függelék].

4. Két keresőmotor összehasonlító jellemzői alapjánRAmbler. ruÉsYandex. ru

4.1 RAMBLER

A Rambler.ru történelmileg (a Yandex megjelenése előtt) a legnépszerűbb keresőmotor Oroszországban. Korábban kezdett dolgozni, mint mások és hosszú ideig vezető volt a keresési index méretében és a keresési szolgáltatások minőségében. Sajnos ma ezek az eredmények a múlté. Annak ellenére, hogy a Rambler keresési index mérete megközelítőleg 12 millió weblapnak felel meg, hosszú ideig nem frissítették megfelelően, és elavult eredményeket produkál. Ma a Rambler egy népszerű portál, Oroszország legjobb osztályozási és minősítési rendszere, valamint egy hirdetési platform. (10. ábra)

Keresési módszerek a Rambler rendszerben:

Keresés nyelve

A keresési lekérdezés egy vagy több szóból állhat, és írásjeleket is tartalmazhat. Létrehozhat egyszerű lekérdezéseket anélkül, hogy belemenne a lekérdezési nyelv bonyolultságába. Tehát, ha több szót ír be a keresősávba írásjelek és logikai operátorok nélkül, akkor ezeket a szavakat tartalmazó dokumentumokat megtalálja (és egymástól korlátozott távolságban).

A keresőmotor lekérdező nyelvének ismerete és helyes használata azonban segít abban, hogy a Rambler-en történő keresés gyors és hatékony legyen.

Nyilvántartás

Általában a keresőszavak és operátorok írásának esete nem számít, vagyis a house és a DOM, a Not és a nOt egyformán érzékelhető. És csak néha, a keresés minőségének javítása érdekében a szavak esetében keresési lekérdezés figyelembe veszik.

Például, ha a lekérdezés két, három vagy négy szóból áll, amelyek mindegyike nagybetűvel van írva, akkor a rendszer tulajdonnévi keresést feltételez, és a lekérdezőszavak közötti távolság automatikusan megváltozik az alapértelmezett értékről (n) -1)*2 , ahol n a lekérdező szavak száma. Ez lehetővé teszi, hogy megtalálja a lekérdező szavak csoportját, amelyen belül nem több, mint egy „extra” szó vagy írásjel, például „Baden-Baden”, „A Puskin”, „Fjodor Mihajlovics Dosztojevszkij”.

Üzemeltetők

A többszavas lekérdezés operátorokat tartalmazhat. A dokumentumban nem keresnek operátorokat, ezek csak utasításként szolgálnak a keresőmotor számára. Minden keresőmotor-operátor bináris, vagyis van egy bal és egy jobb oldala, amelyek egyben lekérdezés is (alapértelmezés szerint egy szóból áll). A zárójelek és idézőjelek az operátorok hatókörének megváltoztatására szolgálnak (több lekérdező szó csoportosítása operátor argumentummá). Két, az ÉS operátor által összekapcsolt lekérdezés (logikai ÉS) egy összetett lekérdezést alkot, amelyet csak azok a dokumentumok tesznek eleget, amelyek mindkét lekérdezést egyidejűleg kielégítik. Más szóval, a „kutya ÉS macska” lekérdezés csak azokat a dokumentumokat találja meg, amelyek tartalmazzák a „kutya” és a „macska” szót is.

Egy összetett lekérdezést, amely két lekérdezésből áll, amelyeket a VAGY operátor (logikai VAGY) kapcsol össze, minden olyan dokumentum kielégíti, amely e két lekérdezés közül legalább az egyiknek megfelel. A „kutya VAGY macska” lekérdezés olyan dokumentumokat talál, amelyek tartalmazzák a „kutya” vagy „macska” szavak legalább egyikét (vagy mindkét szót együtt). A NOT operátor (logikai ÉS) egy lekérdezést hoz létre, amelyre olyan dokumentumok válaszolnak, amelyek kielégítik a lekérdezés bal oldalát, és nem felelnek meg a jobbnak. Így a „kutya NEM macska” lekérdezés eredménye minden olyan dokumentum lesz, amely tartalmazza a „kutya” szót, és nem tartalmazza a „macska” szót. Ha az operátor nincs kifejezetten megadva, akkor az alapértelmezett ÉS operátort használjuk: csak az összes lekérdező szót tartalmazó dokumentumok találhatók. Így az „információs technológiai hitel” kérelmet „információ ÉS technológia ÉS hitel”ként kell értelmezni. A Speciális keresés oldalon az alapértelmezett operátor helyettesíthető VAGY-val (Keresési lekérdezőszavak: legalább egy).

Minden operátornak van egy rövidítése:

Operátori gyorsírás

A több szóból álló, operátorokkal tarkított lekérdezést a rendszer a prioritásuk szerint értelmezi. Az AND és NOT operátorok hagyományosan magasabb prioritásúak, így a többszavas lekérdezés feldolgozása során először az AND és a NOT operátorok, majd csak azután az OR operátorok csoportosítják. A csoportosítási sorrendet zárójelek használatával módosíthatja.

Idézetek

Idézőjelek kereséséhez használhat dupla idézőjeleket. A dupla idézőjelbe tett lekérdezőszavak keresése a dokumentumokban pontosan abban a sorrendben és formában történik, ahogyan a lekérdezésben megjelennek. Így az idézőjelek segítségével egyszerűen kereshetünk egy szót egy adott formában (a szavak alapértelmezés szerint minden alakban megtalálhatók). Például a „repülőgép „tankolt” leszállt” kérést kielégíti a „... a gép leszállt és tankolt...” szöveget tartalmazó dokumentummal, és nem elégíti ki a „... a gép leszállt tankol...".

Zárójelek

A lekérdezések összeállítása során néha szükségessé válik a lekérdező szavak csoportokba vonása, amelyek valamilyen operátor argumentumai lesznek. Az ilyen csoportok zárójelben vannak. A lekérdezésnek a zárójelbe tett része maga is lekérdezés, és a lekérdezési nyelv szabályai vonatkoznak rá. Zárójelek használata

lehetővé teszi beágyazott lekérdezések felépítését és argumentumként való átadását az operátoroknak, valamint felülírhatja az alapértelmezett operátorprioritásokat. Ha a zárójel nélküli „autó repülőgép |” lekérdezés egyenértékű az „autó ÉS repülőgép VAGY repülőtér” lekérdezéssel, és az üzemeltetők prioritásainak megfelelően azt jelenti, hogy „az „autó” és a „repülőgép” szavakat tartalmazó dokumentumokat, ill. a repülőtér szót, akkor a zárójelben szereplő „autó (repülőgép | repülőtér)” lekérdezés egyenértékű az „autó ÉS (repülőgép VAGY repülőtér)” lekérdezéssel, ami azt jelenti, hogy „olyan dokumentumok keresése, amelyek az „autó” szót és az „a” szavak egyikét tartalmazzák. repülőgép” vagy „repülőtér”.

Metakarakterek

A Rambler még nem támogatja a karakterláncok keresését metakarakterekkel ("*", "?"), amelyek általában "bármilyen részkarakterláncot" és "tetszőleges egyetlen karaktert" jelentenek. Ezek a kezelők azonban hasonló jövőbeni használatra vannak fenntartva.

Lekérdezési nyelv használata

Minden, a Rambler keresőmotorhoz intézett kérés feldolgozása a lekérdezési nyelv szabályai szerint történik. Egyes szavakat és karaktereket a rendszer lekérdezési nyelvi operátorként kezeli, és speciális módon dolgozza fel őket. Valójában a lekérdezési nyelv egy bizonyos képletet ír le, amelyet a keresés során használnak - minden dokumentum „egyezik” vele, és a keresés eredménye csak azok a dokumentumok, amelyek megfelelnek ennek. Például a „repülőgép” lekérdezést minden olyan dokumentum kielégíti, amelyben a „repülőgép” szó legalább egyszer, bármilyen formában megjelenik. A többszavas lekérdezést olyan dokumentumok teljesítik, amelyek ezeket a szavakat bármilyen formában (bizonyos feltételek mellett) tartalmazzák. Azt, hogy egy dokumentum egyezik-e egy bonyolultabb lekérdezéssel, a lekérdezési nyelv operátorainak és konstrukcióinak logikája határozza meg.

Morfológia

Minden egyes lekérdező szó esetében a keresés a megfelelő nyelv inflexiós szabályainak figyelembevételével történik. Rambler érti és megkülönbözteti az orosz és a szavakat angol nyelvek- alapértelmezés szerint a keresés a szó minden alakjában megtörténik. Például, ha a „személy” szóra keres, olyan dokumentumokat is talál, amelyek a „személy”, „férfi”, „személy”, sőt „emberek” szavakat is tartalmazzák. Ha csak egy szóra szeretne keresni, akkor azt dupla idézőjelbe kell tenni, vagy a pontos kifejezésre kell keresnie a speciális keresésben.

Biztonságos szavak

Egyes szavak és szimbólumok alacsony információtartalmuk miatt alapértelmezés szerint ki vannak zárva a kérésből. Ezek az úgynevezett stopszavak - a leggyakoribb szavak az orosz és az angol nyelvben, például elöljárószavak, részecskék és cikkek. Ezeknek a szavaknak a jelenléte lelassíthatja a keresést, és negatívan befolyásolhatja a találatok teljességét. Lehetőség van ezeknek a szavaknak a szükségességét jelezni egy lekérdezésben a lekérdezés dupla idézőjelek közé tételével, vagy a pontos kifejezésre történő keresés használatával a bővített keresésben.

Távolságkorlát

Ha egy lekérdezés egy vagy több szóból áll operátorok és lekérdezési nyelvi konstrukciók használata nélkül, akkor a rendszer megtalálja azokat a dokumentumokat, amelyek az összes lekérdezési szót tartalmazzák. Sőt, minden kérésnél mindig van egy úgynevezett kontextuskorlát - egy pozitív szám, amely alapértelmezés szerint 40 szónyi távolságnak felel meg. Az összes lekérdező szót tartalmazó dokumentum csak akkor kerül visszaadásra, ha a szóbeli távolság a lekérdezési szavak előfordulása között kisebb ennél a számnál. Például a „vörös hadsereg” lekérdezés megkeresi azokat a dokumentumokat, amelyekben a „vörös” és „hadsereg” szavak legalább egyszer szerepelnek, egymástól kevesebb mint 40 szóval. A kontextuskényszer értéke a „(szám, lekérdezés)” konstrukcióval változtatható, ahol a szám bármely pozitív szám, a lekérdezés bármely, a kereső szempontjából helyes lekérdezés, amely több szóból áll. (nyilván egyszavas lekérdezés esetén nincs értelme a szavak közötti távolság határának). Így a „(2, vörös hadsereg)” lekérdezés csak azokat a dokumentumokat fogja megtalálni, amelyekben a „vörös” és a „hadsereg” szavak között legalább egyszer egyetlen szó sincs (hiszen csak azok közvetlen közelsége esetén a különbség a 2-nél kisebb szavak sorszámaiban, azaz egyenlő 1-gyel)

Meg nem talált szavak

Ha a lekérdezés több szóból áll, és ezek egy része egyáltalán nem található meg az interneten, akkor a keresési eredmények egy részleges lekérdezésre kerülnek vissza, amelyből az interneten nem található szavak ki vannak zárva. Ebben az esetben a megfelelő diagnosztika megjelenik a keresési eredményoldalon.

Eredmények rendezése

Alapértelmezés szerint a talált dokumentumok relevancia (a lekérdezésnek való megfelelés) szerint vannak rendezve. Kérheti azonban, hogy helyette a legfrissebb (vagy éppen ellenkezőleg, a legrégebbi) dokumentumok kerüljenek a lista elejére. Ehhez válassza ki a megfelelő beállítást a részletes igénylési oldalon a "Rendezés alapja..." menüben. A keresést egy adott időszak alatt készült dokumentumokra is korlátozhatja: ehhez a részletes kérés oldalon meg kell adni a „Dátumtól... dátumig...” lehetőséget.

Szóköz a szavak között

Megkövetelheti, hogy a Rambler csak azokat a dokumentumokat küldje vissza, amelyekben a kérésben szereplő szavak minimális távolságra vannak egymástól. A "Szavak közötti távolság korlátozása" mód egy részletes lekérdezésben engedélyezhető. A fent felsorolt összes szabály a kívánt sorrendben egymással együtt is használható.

Eredmények kézbesítése

Alapértelmezés szerint a keresési eredmények 15 dokumentumból álló kötegekben jelennek meg. A részletes kérés oldalon a "Kimenet..." menü lehetővé teszi ezt a számot 30-ra vagy 50-re növelni. A "Kimeneti űrlap..." menü lehetővé teszi, hogy megnövelt vagy csökkentett részletességű dokumentumleírásokat kapjon.

4.2 YANDEX

A Yandex.ru egy keresőmotor, amely kérésre megtalálja a legmegfelelőbb weboldalakat az internet orosz részén. A Yandex naponta több százezer weboldalt térképez fel, keresve változtatásokat vagy új hivatkozásokat. A linkek gyűjteménye folyamatosan bővül. A Yandex nem igényel speciális keresési parancsok ismeretét. A Yandex mindenkit megtalál, aki linkelte az oldalt, a kívánt képet tartalmazó fájlokat, a legfrissebb híreket vagy termékeket az elektronikus áruházakban. A Yandex rendszer a legnagyobb indexen – hozzávetőleg 27 millió weboldalon – alapul, de ez nem csak a méret kérdése. Ez nem csak egy mutató az erőforrásokra, hanem a legfrissebb erőforrásokra. A relevancia szempontjából a Yandex ma vitathatatlanul vezető szerepet tölt be (4. ábra)

Keresési technikák a Yandex rendszerben

Mielőtt elkezdené leírni a Yandex rendszer lekérdezési nyelvét, megjegyzem, hogy észrevehetően erősebb és összetettebb, mint más hazai keresőmotorok lekérdezési nyelvei. Az átlagos felhasználónak azonban nem kell félnie. Még akkor is, ha nem igazán szereti az utasításokat olvasni és főleg tanulmányozni, intuitív módon tud dolgozni a rendszerrel.

A Yandex rendszer elvileg olyan heurisztikus algoritmusokat használ, amelyek matematikai szempontból nem teljesen szigorúak. Ennek eredményeként a felhasználó eltérő eredményeket kaphat, például ha olyan dokumentumokat keres, amelyekben a Bush Gore-i választások és a Bush Gore-i választások szavak szerepelnek. De ezeknek az algoritmusoknak köszönhetően a lekérdezések intuitív megközelítése (utasítások olvasása nélkül) nagyon jó eredményeket ad, és nagyon rövid idő alatt.

Egyszavas keresés

Amikor a felhasználó beírja a keresett szót a keresőmezőbe, és rákattint a Keresés gombra, a szavak az összes lehetséges szóalakot figyelembe véve keresnek, ami különösen fontos az orosz nyelv számára. Például ha beírja a hó szót, akkor a rendszer olyan dokumentumokat talál, amelyek tartalmazzák a hó, hó stb. szavakat, de nem havas, havas stb. felkiáltójel például hó!

Keresés szócsoport szerint

Ha a szavakat szóköz választja el, akkor a rendszer olyan dokumentumokat keres, amelyekben az összes beírt szó egy mondatban fordul elő. Tehát a Bush Gore-választások kérésére

a rendszer dokumentumokat állít elő olyan kifejezésekkel, mint... A választások előestéjén hackerek feltörték Bush és Gore weboldalait. Az ilyen keresések eredményei között laza egyezések is előfordulhatnak - a keresőmotor megmutatja intelligenciáját. A szavak mondatban való megjelenésének szigorú biztosítása érdekében + jelet kell eléjük tenni, például: +Bush +Gore +választások. A + jelet a hivatkozott szóval együtt kell írni (szóköz nélkül). A szóköz AND operátorként működik, amit explicit módon is be lehet írni (a & szimbólum), például: +Bush& +Gore& +választások. A logikai operátortól jobbra és balra szóköznek kell lennie.

Ha a szavak egyidejű jelenléte nem csak egy mondatban, hanem az egész dokumentumban szükséges, akkor az && operátort kell használni, például: +Bush&& +Gore&& +választások.

Most megvizsgálom a szavak keresésből való kizárásának technikáit. Ehhez használjuk a - jelet (szigorú kizárás a mondatból), a ~ jelet (nem szigorú kizárás a mondatból) és a ~~ jelet (kizárás a teljes dokumentumból). Így például a +Bush +Gore ~~választások kérése lehetővé teszi

válasszon olyan dokumentumokat, amelyekben a Bush és a Gore szavak ugyanabban a mondatban szerepelnek, de a teljes dokumentum nem tartalmazza a választás szót és annak származékait (választás, választáskor, választás után stb.).

Azokban az esetekben, amikor a kulcsszavakat az OR operátorral kell kombinálni, a | szimbólumot használjuk. (függőleges sáv). Például a kérés Bush | A Gore&& +választások kiválasztják azokat a dokumentumokat, amelyek említik George W. Bush-t vagy Albert Gore-t, de kötelezőek

Megjelenik a választás szó.

Keresés távolság alapján

Réges-régen megjelent a NEAR operátor a keresőkben, lehetővé téve, hogy olyan dokumentumokat találjon, amelyekben két szó egymás közelében található. Való igaz, hogy minden rendszer másként érti, hogy mi a „közel”. A Yandex keresőben konkrétan megadhatja, hogy ezek a szavak milyen messze legyenek egymástól.

Egy dokumentumban minden szónak saját pozíciószáma van. Két szomszédos szó pozíciószáma eggyel különbözik (a jobb oldali szó pozíciószáma nagyobb). A távolság operátort a /+n alakban írjuk, ahol n a távolságnak megfelelő szám. Például a /+1 operátor két szót egyezik egymás után, így a Microsoft/+1 Windows megegyezik a "Microsoft Windows" kifejezéssel.

A távolságoperátornak negatív értéke is lehet. Ez azt jelenti, hogy a lekérdezésben megadott második szónak az első szó előtt kell szerepelnie a dokumentumban. Például a Microsoft/-5 Windows lekérdezés hivatkozást biztosíthat egy olyan dokumentumra, amely a Windows helyébe lépő operációs rendszerekről szóló kifejezést tartalmaz – mondta a Microsoft egyik vezetője.

Távolságjelzéssel végzett kereséskor nem a szavak közötti pontos távolságot, hanem egy tartományt adhat meg, például /(-5 +5). Ebben az esetben olyan dokumentumok kerülnek kiválasztásra, amelyekben a lekérdezésben kulcsszóként megadott szavak a megadott tartományba esnek. Valójában, ha a paraméter előjele nincs megadva, akkor ez is egy keresés a tartományban. Tehát a /5 operátort valójában /(-5 +5) tartománynak kell tekinteni. A Bush/5 Gore lekérdezés olyan mondatokat találhat, mint: A nők szimpatizáltak Bush-al, a férfiak pedig - Gore vagy Gore Bush nem édesebb.

A Yandex rendszer meglehetősen összetett lekérdezési nyelvi szabályokkal rendelkezik (a Ramblerhez képest), de kiterjedt képességekkel rendelkezik. Például nemcsak a szavak, hanem a mondatok közötti távolságok is mérhetők. Ez a mértékegység akkor használatos, ha dupla && vagy ~~ karaktert használ a lekérdezés. Így a Bush/+1&&Gore lekérdezés olyan dokumentumokat ad vissza, amelyekben a Bush és a Gore szavak vagy ugyanabban a mondatban, vagy a szomszédos mondatokban szerepelnek.

Zárójelek használata

A keresési feladat lényegében egy logikai kifejezés, amely szűrőként működik a keresőmotor adatbázisában szereplő dokumentumok megtekintésekor. IN

A logikai kifejezésekben, akárcsak az aritmetikai kifejezésekben, használhatunk zárójeleket. A cselekvések sorrendjének szabályozására szolgálnak. Tipikus példa: Bush&Gore&(választások | szavazás). Ez a lekérdezés olyan weboldalakra mutató hivatkozásokat ad vissza, amelyek olyan mondatokat tartalmaznak, amelyek a Bush, Gore, choice vagy Bush, Gore, szavazás szavakat tartalmazzák.

Rangsorkezelés

A rangsorolás célja annak biztosítása, hogy a weboldalak

azok, amelyek a legjobban megfeleltek a lekérdezésnek, a lehető legkorábban megjelentek a találati listában. Az, hogy egy keresőmotor milyen algoritmusokat használ a rangsoroláshoz, az a dolga. A felhasználók vagy elégedettek a munkájukkal, vagy másik keresőmotorhoz fordulnak. A Yandex rendszerben a súlyozási együtthatók segítségével önállóan módosíthatja a rangsorolási mechanizmus algoritmusát. Ez az együttható bármelyikhez hozzárendelhető kulcsszó vagy a teljes kifejezést, ha zárójelben van: A súlyozási együtthatók kettősponton keresztül írhatók be, például Bush:5 Gore-választások. Ezzel a lekérdezéssel azok a dokumentumok kapnak elsőbbséget, amelyekben a Bush szó gyakrabban fordul elő, és magasabb pozíciókban jelennek meg a kapott listában.

A rangsor kezelésének másik technikája a minősítő szóhoz kapcsolódik. Ez egy olyan szó, amelynek nem feltétlenül kell szerepelnie a kiválasztott dokumentumokban, de ha ott van, akkor ez a dokumentum előnyt élvez a rangsorolásnál. A minősítő szót a karakterek után kell beírni<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Különleges keresés

Különösen figyelemre méltóak a weboldalak fejlécében található speciális mezőkben található információk keresésének technikái (minden weboldal fejlécében szolgáltatásmezők találhatók), vagy a weboldalakon található speciális elemek, például hiperhivatkozások keresése. A Yandex rendszerben a fejlécmezőkben speciális keresési parancsok kezdődnek

a $ szimbólummal, valamint a weblapok egyes elemeinek keresési parancsait - a # jellel. Minden speciális keresőeszköz észrevehetően lassabban működik, mint a hagyományos.

Csapat	Leírás	Példa	Magyarázat
$title (kifejezés)	A kifejezésben megadott kulcsszavak keresése csak a weboldalak címében történik	$title (szóköz)	Csak azokon a weboldalakon keres, amelyek címében szerepel a szóköz (7.10. ábra)
	A kifejezésben megadott kulcsszavak keresése csak a weboldalak belső hivatkozásainak horgonyaiban történik	$anchor (bevezető)	Háztartási (kifejezés)
#kulcsszavak = (kifejezés)		#kulcsszavak - (hírek)
#absztrakt = (kifejezés)	Keresés egy weboldal megjegyzésében	#absztrakt = (Bush \| Gore)
#image = "fájlnév"	Az illusztrációs fájlok keresése a nevük alapján	#image -"Bokor.*"	Ha nem ismert előre, hogy a fájlnév milyen kiterjesztésű lehet, használja a „*” helyettesítő karaktert, amely tetszőleges számú karaktert helyettesít.
#célzás- (kifejezés)	Keressen szavakat az alternatív szöveg illusztrációiban	(Bush \| Gore)
#url = " URL-cím"	Keressen egy webhelyet vagy weboldalt	#uri.= "www.anysite.ru"	Általában a keresések lokalizálására szolgál. Például, hogy a keresést egy webhelyre korlátozza, vagy fordítva, kizárja azt a keresési területről
#link - cím"			Általánosan használt " URL- azonosítani azokat a weboldalakat, amelyek saját oldalára vezetnek

Következtetés

Teljesen meg tudtam válaszolni a feltett kérdéseket, és megértettem ezt a témát (hogyan végezzek hatékony keresést az interneten?). Saját tapasztalataim alapján meggyőződtem arról, hogy a csúcstechnológia korszakában a hatékony információkeresés nem megoldható, és továbbra is az egyik fő probléma. Ezt a következőképpen tudom megmagyarázni.

Először is, nem maguknak a keresőmotoroknak a tökéletessége vonja kétségbe a keresést.

A keresőkből hiányzik a rendezettség, a felépítés, a felépítés, a strukturáltság, valamint a rendszerezés, rendszerezés, rendszerezés, a legtöbb kereső robotja rengeteg haszontalan hiperhivatkozást hoz,

Másodszor a felhasználók tapasztalatlansága, mert... az interneten található szövegek halomában keresni és megtalálni, amire szüksége van, nemcsak a keresőmotor, hanem a kérdést feltevő felhasználó készsége is.

Harmadrészt a programozók és az őket felvevő reklámügynökségek kapzsisága, akik azt szeretnék, hogy oldalaikat minél gyakrabban kérjék le. Ezek a „kapzsi” programozók megtévesztik a robotokat, és feltesznek egy weboldalt az internetre, amely állítólag tartalmazza a felhasználónak szükséges információkat, de vannak reklámfüzetek vagy automatikus hiperhivatkozás, amely hirdetési oldalt, vagy ami még rosszabb, fizetős oldalt kér. Bár a keresőmotorokat kiszolgáló szakemberek küszködnek ezzel a jelenséggel, még mindig napról napra elterjedtebb.

Az internetet ma a felhasználók 23%-a használja referenciaként, 15%-a kutatási eszközként, 14%-a szórakoztató, 12%-a pedig csak hírforrásként használja.

Nem túl optimista vélemény, hogy a felhasználók 10%-ának mindig, de 73%-ának gyakran sikerül megtalálnia a szükséges információkat.

Arra a kérdésre, hogy melyik kereső a legjobb és melyiket használnám szívesebben, úgy válaszolok: te azt a gépet használd, amelyik kényelmesebb, nekem pedig a Yandex.

Az internet megkönnyítette a keresést, és speciális ismereteket igényel a keresésről, ma még nem mindig hatékony; Ezért nem szabad megfeledkeznünk a régi, nem kevésbé hatékony információkeresésről - könyvekről és könyvtárakról, ez az információforrás az „Alexandrian Library” ideje óta indokolt, és az internet a közeljövőben csak hatékonyabb lesz. és szinte pótolhatatlan lesz.

Felhasznált irodalom jegyzéke

1. Andrey Alikberov „Pár szó a keresőrobotok működéséről.”

#"#">A Yandex keresőmotor nyelve használatos

Keresés kifejezés alapján

Előtagok

Iteratív keresés (a találatok között)

Bejelentkezés után kattintson a Tovább gombra...

a szó egy részének cseréje

* (nem mindig helyes)

2. táblázat

Összefoglaló táblázat a vezető keresőmotorokról
	énindex			Export!	AltaVista
Keresési terület, adatbázis kötet	Az internet orosz része. Keressen a webhely oldalain a katalógus részből, régió szerint.	Speciális keresés hírek, termékek, képek között.		Az internet orosz része.	Az internet orosz része. Hírek, termékek, képek, MP3 speciális keresése	Hírek, termékek, szórakoztatás, hang (MP3) és videó speciális keresése.
Speciális keresés amerikai egyetemekre, Apple, Linux, BSD	Alapkötet 2001 elején	Több mint 31 millió dokumentum		Több mint 12 millió dokumentum	Több mint 14 millió dokumentum	Több mint 250 millió dokumentum
1,25 milliárd oldal	Indexelés típusa	Indexelés típusa			Indexelés típusa	teljes szöveges indexelés
teljes szövegű indexelés és indexelés linkekkel	További szolgáltatások elérhetősége			A rendszer egy keresőmotort és egy katalógust, valamint számos további projektet (Zakladki.Ru, Narod.Ru, intelligens termékválasztási rendszer, CY stb.) egyesít.	A rendszer egy keresőt, egy katalógust és kiegészítő szolgáltatásokat (online vásárlás stb.) egyesít.	A rendszer egy keresőt, egy katalógust és számos további szolgáltatást (tárhelyszolgáltatás, domain név regisztráció, fordítás stb.) egyesít.
A rendszer egy keresőt és egy 15 szekciót és 1,5 millió weblapot tartalmazó katalógust egyesít.
Keresési nyelv szintaxisa	logikus ÉS		szóköz vagy & (mondaton belül)&& (dokumentumban)	ÉS, &, szóköz a szavak között alapértelmezés szerint	ÉS, ÉS, &,+, szóköz alapértelmezés szerint a szavak között	ÉS, & (csak összetett kereséseknél)
alapértelmezett minden keresési szóhoz					logikai VAGY
VAGY (alapértelmezett az egyszerű kereséshez), \| (csak összetett keresésekhez)	bináris NAND operátor ~ (egy mondaton belül)		~ ~ (dokumentumban)	lecserélve a "-" előtag operátorra (ÉS alapértelmezés szerint szóköz)	ÉS NEM, ! (csak összetett keresésekhez)	helyébe a "-" előtag operátor
kötelező (+) és tiltott (-) szavak előtagjai			nem használt		+, - (csak egyszerű kereséshez)
szócsoportosítás						~ ~ (dokumentumban)
a kulcsszavak közötti távolság a keresés során	/(n m) - szavakban, &&/(n m) - mondatokban (- vissza, + előre)		speciális kereséssel - dokumentumok megjelenítése csak minimális szavak közötti távolsággal	sl2(...), с2(...), w2(...), (- hátra, + előre)	NEAR (10 szón belül, csak összetett kereséseknél)	~ ~ (dokumentumban)
kifejezés keresése
szóhelyettesítő szimbólumok			*, ? (bármely karakter cseréje)	* (csak a szó végén)
dokumentumok nyelvi korlátozása	választható: bármilyen, cirill, latin		Választható: bármilyen, orosz, angol	választás: orosz, angol	25 nyelv közül választhat	25 nyelv közül választhat
morfológia	alapértelmezés szerint minden ragozás és ragozás, ! (keresse a pontos szóalakot)		# (a szavak minden formája), @ (azonos gyökerű szavak)	!
(normál forma jelzése)
dátum szerinti keresés			korlátozza a keresést mezők szerint
Keresés címekben, címekben, dokumentumnevekben (csak speciális kereséssel).
Keressen hasonló dokumentumokat.	Fejlett űrlapképességek, a segítség minősége		fejlett űrlap beállítása	szótárszűrő beállítása, beállítások dátum, webhely, hivatkozás, kép, speciális objektum szerint	dokumentum, dátum, ÉS, VAGY módok, szavak közötti távolság, szócsonkítás szerint
dokumentum, cím, kép, dátum, 5 rész (weboldalak, MP3, képek, termékek, hírek) szerint			logikai kérdőív, dátum, oldal, link, kép, szöveg stb. szerint.	eredmények kimenet beállítása	oldalankénti találatok számának beállítása, kimeneti forma	oldalankénti találatok számának beállítása, kimeneti forma
meghatározva a kibocsátási űrlapot			találatok számának beállítása az oldalon, a kimeneti űrlap összes eleme	keresési eredmények rangsorolása	relevancia vagy dátum szerint rendezni	a webhely népszerűsége szerint
a SORT-ban meghatározott feltételek szerint	idézet alapján (más oldalak oldalára mutató hivatkozások)		iteratív keresés (a keresési eredmények között)	Igen. A jelölőnégyzet bejelölésével történik	Igen. A keresési hatókör kapcsolójával végrehajtva
A jelölőnégyzet bejelölésével történik	felhasználásával végezve		a súgórész minősége	van egy részletes leírás a lekérdezési nyelvről, egy szintaktikai táblázat és egy rész a kategóriákban történő keresésről	rövid Súgó rész	részletes hivatkozás a lekérdezési nyelvre, sok orosz szinonimája van az alapvető operátoroknak
az ebben a táblázatban tárgyalt legnagyobb on-line oktatóanyag a lekérdezési nyelvről

4.5.1. Hagyományos internetes keresők

Az információk kereséséhez speciális külső szolgáltatásokat használnak - keresőszervereket: keresőmotorokat és címtárakat.

A keresőmotorok olyan szerverek, amelyek automatikusan, speciális robotprogramok segítségével gyűjtenek információkat az oldalak tartalmáról.

A címtárszerverek információit az emberek választják ki. A keresőmotorokkal ellentétben a címtárak információi pontosabban strukturáltak, és függőleges hierarchikus formában vannak.

Mind a keresőmotorok, mind a címtárak külső szolgáltatások, vagy ahogy más néven autonóm rendszerek. Az autonóm rendszerek sajátossága, hogy az információval való munka ciklusa teljes egészében közvetlenül ezen a rendszeren történik, kezdve az elsődleges forrásból származó információk megszerzésével és a végfelhasználónak nyújtott keresési szolgáltatással.

Az automatizált keresőmotorok nagyobb mennyiségű információt fednek le, információik gyakrabban frissülnek, így relevánsabbak.

Az ilyen szervereken található információk azonban rosszul strukturáltak, mivel egy adott webhely tartalmának felmérése nehezen formalizálható feladat. Leggyakrabban a robotprogram csak a keresett szavaknak a dokumentum szövegében való jelenléte alapján választ ki dokumentumokat. Példa a keresőmotorra az AltaVista (http://www.altavista.com).

A katalógusokban minden információ világos vertikális hierarchikus szerkezettel rendelkezik. Ráadásul ez a struktúra szemantikai tartalom alapján épül fel. Ez a fő értéke az emberek által feldolgozott könyvtáraknak: nem sok olyan oldal található, amelyek ezeket a kulcsszavakat tartalmazzák, de sok olyan oldal, amely ennek a témának szentelte magát. A címtárra példa a Yahoo szerver (http://www.yahoo.com).

A nagyszámú bejegyzést tartalmazó WWW-könyvtárak oldalaikon gyakran helyi keresőmotorok találhatók. Hagyományos sablonok formájában valósítva meg, amelyek nem sokban különböznek az automatikus indexeken alapuló sablonoktól.

A térbeli skála célja, hogy egy bizonyos véges határra korlátozza az elsődleges információforrások számát. Például egy keresőmotort egyetlen webhelyen belül is fel lehet építeni. A keresés egyetlen földrajzi tartományra korlátozódhat (például ru).

Az ilyen rendszereket regionálisnak nevezzük.

Sok olyan keresőszerver van, amelyen nincsenek ilyen korlátozások. Globális információ-visszakereső rendszereknek nevezik őket.

A regionális megközelítés sajátosságai a globális rendszerekben is jelen lehetnek. Így a Lycos rendszer (http://www.lycos.com) a keresési eredményeket attól függően rendezi, hogy melyik régióból érkezett a kérés.

A legnépszerűbb keresőszerverek annyira le vannak terhelve, hogy szükség van „tükrök” létrehozására. A tükröknek tartalmazniuk kell az elsődleges keresőmotor pontos másolatát, és garantálniuk kell az adott földrajzi területről érkező kérések gyors kiszolgálását.

Egy adott keresőmotor elérésekor mérlegelnie kell, hogy milyen szolgáltatásokat nyújt. Például a hazai Yandex keresőben (http://www.yandex.ru) nem csak oldalakra, hanem szerverekre is bevezették a keresést. Ennek a módszernek az a lényege, hogy a kulcsszavakat nem minden oldalra keresik, hanem csak a címük alapján (ami a HTML-ben a "title" tagek között található). A külföldi AltaVista külön Valódi nevek szolgáltatással rendelkezik, amely tartalmazza a cégek és szervezetek összes regisztrált oldalának listáját.

Egy másik fontos szempont, hogy egy adott rendszer milyen lekérdezési nyelvet használ. Minél összetettebb ez a nyelv, annál finomabb a keresés. Jelenleg nincs egyetlen egységes lekérdezési nyelv a keresőmotorok számára. Egy ilyen nyelv fejlesztése lehetővé tenné a különböző keresőszolgáltatások egyetlen szuperkereső rendszerbe való integrálását. 1999 februárjában elindult a SESP (Search Engine Standards Project) projekt, amelyben a 15 legnagyobb internetes kereső vesz részt. A projekt feladata a keresőszolgálatok munkájának egységesítése (az erről szóló anyagok a http://www.searchenginewatch.com oldalon találhatók).

4.5.2. Metakereső motorok

Az online keresőszolgáltatások fejlesztésének másik ígéretes iránya a metakereső motorok alkalmazása.

A metakereső motorok magja a felhasználó és a különféle keresőmotorok közötti interfész. A metakereső motort nem az információk indexelésére és felhalmozására tervezték. célja a puszta keresés és a keresési eredmények feldolgozása.

A metarendszer lehetővé teszi, hogy a felhasználó kívánsága szerint keresését bizonyos keresőszerverekre korlátozza, ellenőrizze a keresési eredmények által mutatott erőforrások meglétét, finomított kereséseket hajtson végre a keresési eredményekben stb. A metakereső motorokat gyakran hívják a keresőmotorok klienseinek.

A metakereső rendszerre példa a "DISCo Seeker" hazai fejlesztése a "DISCo" cég által (http://www.disco.ru).

A metakereső rendszerek új generációjának fő jellemzője a különböző specializációjú keresőszerverek kombinációja.