Mik azok a keresőmotorok? A keresőmotorok működésének elve: mindent rendet teszünk. Miért van szüksége erre

Ilja Szegalovics tavaly júliusban hunyt el, a Yandex alapítója és technológiai igazgatója, a keresőmotor első verziójának megalkotója és nevének szerzője. Ennek a kiváló embernek és közéleti személyiségnek az emlékére, aki sokaknak segített, többek közöttCOLTA. RU, újra közreadjuk az információkeresésről és az azt megalapozó matematikai modellekről. Ilya Segalovich a keresőmotorokat a világ két új csodája egyikének nevezte. Mindenesetre nélkülük, beleértve Segalovich fő agyszüleménye, a Yandex nélkül, az életünk teljesen más lenne.

Több száz keresőt írnak a világon, és ha számoljuk a legtöbbben megvalósított keresőfunkciókat különböző programokat, akkor a számnak ezerben kell lennie. És függetlenül attól, hogy a keresési folyamat hogyan valósul meg, bármilyen matematikai modellen alapul, a keresést megvalósító ötletek és programok meglehetősen egyszerűek. Bár ez az egyszerűség láthatóan abba a kategóriába tartozik, amelyről azt mondják, hogy „egyszerű, de működik”. Így vagy úgy, a keresőmotorok váltak a világ két új csodájának egyikévé homosapiens korlátlan és azonnali hozzáférés az információkhoz. Az első csodának nyilvánvalóan az Internetet tekinthetjük, annak univerzális kommunikációs képességeivel.

Keresőmotorok történelmi perspektívában

Az a közhiedelem, hogy a szoftverek minden új generációja fejlettebb, mint az előző. Azt mondják, hogy korábban minden tökéletlen volt, most azonban mindenhol a mesterséges intelligencia uralkodik. Egy másik szélsőséges nézőpont az, hogy „minden új az elfeledett régi”. Úgy gondolom, hogy ami a keresőmotorokat illeti, az igazság valahol középen van.

De mi változott valójában az elmúlt években? Nem algoritmusok vagy adatstruktúrák, nem matematikai modellek. Bár ők is. A rendszerek használatának paradigmája megváltozott. Egyszerűen fogalmazva: egy olcsóbb vasat kereső háziasszony és egy kisegítő bentlakásos iskolát végzett, abban a reményben, hogy autószerelőként elhelyezkedhet, a képernyőhöz ült a keresősorral. Az internet előtti korszakban lehetetlen tényező – a keresőmotorok iránti teljes kereslet tényezőjének – megjelenése mellett még egy-két változás nyilvánvalóvá vált. Először is világossá vált, hogy az emberek nem csak „szavakban gondolkodnak”, hanem „szavakban keresnek is”. Arra számítanak, hogy a rendszer válaszában a lekérdezési karakterláncba beírt szót látják. Másodszor: nehéz „újra tanítani a keresőt keresni”, mint ahogy beszélni vagy írni is nehéz. A 60-80-as évek álmai a lekérdezések iteratív finomításáról, a természetes nyelv megértéséről, a jelentés szerinti keresésről, a kérdésre adott koherens válasz generálásáról ma már aligha állják ki a valóság próbáját.

Algoritmus + adatstruktúra = kereső

Mint minden program, a keresőmotor is adatstruktúrákon működik, és egy algoritmust hajt végre. Az algoritmusok sokfélesége nem túl nagy, de létezik. Nem számítva a kvantumszámítógépeket, amelyek varázslatos áttörést ígérnek nekünk a keresés „algoritmikus bonyolultságában”, és amelyekről a szerző szinte semmit sem tud, a keresőalgoritmusoknak négy osztálya létezik. Négy algoritmusból három „indexelést” igényel, a dokumentumok előzetes feldolgozását, amelynek során egy segédfájl, azaz egy „index” jön létre, amely magát a keresést egyszerűsíti és gyorsítja. Ezek fordított fájlok, utótagfák és aláírások algoritmusai. Degenerált esetben nincs előzetes indexelési szakasz, és a keresés a dokumentumok szekvenciális szkennelésével történik. Ezt a keresést közvetlennek nevezzük.

Közvetlen keresés

A legegyszerűbb változata sokak számára ismerős, és nincs olyan programozó, aki életében legalább egyszer ne írt volna hasonló kódot:

Látszólagos egyszerűsége ellenére a közvetlen keresés intenzíven fejlődött az elmúlt 30 évben. Számos olyan ötlet született, amelyek többszörösére csökkentik a keresési időt. Ezeket az algoritmusokat a különböző szakirodalom részletesen leírja, összefoglalók és összehasonlítások találhatók. Jó értékelések A közvetlen keresési módszerek megtalálhatók a tankönyvekben, például a Sedgwick vagy a Corman. Figyelembe kell venni, hogy folyamatosan jelennek meg az új algoritmusok és azok továbbfejlesztett változatai.

Bár az összes szöveg közvetlen beolvasása meglehetősen lassú feladat, nem szabad azt gondolni, hogy az interneten nem használnak közvetlen keresési algoritmusokat. Norvég kereső Gyors olyan chipet használt, amely megvalósítja az egyszerűsített reguláris kifejezések közvetlen keresésének logikáját (fastpmc) , és 256 zsetont helyezett el egy táblára. Ez megengedte Gyors időegység alatt meglehetősen nagy számú kérést szolgálnak ki.

Ezen kívül sok olyan program létezik, amely kombinálja az indexkeresést egy szövegblokk megtalálásához a további közvetlen kereséssel a blokkon belül. Például nagyon népszerű, többek között a RuNetben, Bepillantás.

Általánosságban elmondható, hogy a közvetlen algoritmusok alapvetően mindenki számára előnyös megkülönböztető jellemzőkkel rendelkeznek. Például korlátlan lehetőségek közelítő és fuzzy keresésre. Végtére is, minden indexelés mindig a kifejezések egyszerűsítésével és normalizálásával jár, és ezért az információ elvesztésével. A közvetlen keresés közvetlenül az eredeti dokumentumokból működik, torzítás nélkül.

Fordított fájl

Ezt a legegyszerűbb adatstruktúrát a titokzatos idegen neve ellenére intuitív módon ismeri minden írástudó ember és minden olyan adatbázis-programozó, aki még csak nem is foglalkozott teljes szöveges kereséssel. Az emberek első kategóriája a „konkordanciák” alapján tudja, mi az, ábécé sorrendben rendezett, egy szövegből származó vagy egy szerzőhöz tartozó szavak átfogó listája (például „Összhang A. S. Puskin verseivel”, „Az újságírás szótára-konkordanciája, F. M. Dosztojevszkij”). Utóbbiak valamilyen fordított listával foglalkoznak, amikor egy „kulcsmezőn” adatbázis-indexet építenek vagy használnak.

Illusztráljuk ezt a szerkezetet egy csodálatos orosz konkordancia segítségével - a „Szimfónia”, amelyet a Moszkvai Patriarchátus adott ki a Biblia zsinati fordításának szövege alapján.

Itt van a szavak ábécé sorrendben rendezett listája. Minden szónál fel van sorolva minden „pozíció”, amelyben ez a szó előfordult. A keresési algoritmus abból áll, hogy megtalálja a kívánt szót, és betölti a memóriába a már kibővített pozíciólistát.

Megtakarítani lemezterületés felgyorsítja a keresést, általában két módszert alkalmaznak. Először is megtakaríthatja magának a pozíciónak a részleteit. Hiszen minél részletesebben van megadva egy ilyen pozíció (például a „Symphony” esetében ez „könyv+fejezet+vers”), annál több hely kell majd a fordított fájl tárolására.

A legrészletesebb változatban az invertált fájl tárolhatja a szószámot, a szöveg elejétől számított bájt eltolást, a színt és a betűméretet és még sok minden mást. Gyakrabban egyszerűen feltüntetik a dokumentum számát (mondjuk a Biblia könyvét), és azt, hogy hányszor szerepel benne ez a szó. Ezt az egyszerűsített struktúrát tekintik alapvetőnek a klasszikus elméletben információkeresés - InformációVisszakeresés(IR) .

A második (semmiképpen nem kapcsolódik az elsőhöz) tömörítési módszer: rendezze az egyes szavak pozícióit a címek növekvő sorrendjében, és minden pozícióhoz ne a teljes címét tárolja, hanem az előzőtől való eltérést. Így nézne ki egy ilyen lista oldalunkon, feltéve, hogy a fejezetszámig emlékezünk a pozícióra:

Emellett néhány egyszerű csomagolási módszer is rákerül a címtárolás differenciális módszerére: miért adjunk fix „nagy” számú bájtot egy kis egész számnak, mert majdnem annyi bájtot adhatunk neki, amennyit megérdemel. Itt érdemes megemlíteni a Golomb kódokat vagy egy népszerű nyelv beépített funkcióját Perl: csomag("w») .

A szakirodalomban megtalálható a legszélesebb körű csomagolási algoritmusok nehezebb tüzérsége is: aritmetika, Huffman, LZW stb. Ezen a területen folyamatos az előrelépés. A gyakorlatban ritkán használják őket a keresőmotorokban: a nyereség kicsi, és a processzor teljesítménye nem hatékony.

Az összes leírt trükk eredményeként az invertált fájl mérete általában az eredeti szöveg méretének 7-30 százaléka, a címzési részletektől függően.

Felkerült a Vörös Könyvbe

Többször javasoltak a fordított és közvetlen kereséstől eltérő algoritmusokat és adatstruktúrákat. Ezek mindenekelőtt utótagfák (Manber, Gonnet), valamint aláírások (Faloutsos).

Közülük az első az interneten is működött, szabadalmaztatott keresőalgoritmusként OpenText. Hazai keresőkben utótag-indexekkel találkoztam. A második, az aláírási módszer magában foglalja a dokumentum konvertálását a szavai hash értékeinek blokkonkénti táblázataivá - „aláírás”, és a keresés során az „aláírások” szekvenciális szkennelését.

Egyik módszer sem volt széles körben elterjedt, ezért nem érdemelte meg ebben a rövid cikkben a részletes tárgyalást.

Matematikai modellek

Ötből körülbelül három keresőmotor és modul matematikai modellek nélkül működik. Pontosabban kidolgozóik nem tűzik ki maguk elé absztrakt modell megvalósítását és/vagy nincsenek tudatában annak létezésének. Az elv itt egyszerű: mindaddig, amíg a program talál legalább valamit. Mindenesetre. És akkor a felhasználó maga fogja kitalálni.

Amint azonban a keresés minőségének javításáról van szó, nagy mennyiségű információról, a felhasználói lekérdezések áramlásáról, az empirikusan megállapított együtthatók mellett hasznosnak bizonyul néhány, bár egyszerű elméleti módszerrel operálni. berendezés. A keresési modell a valóság bizonyos leegyszerűsítése, amely alapján egy (önmagában senki számára haszontalan) képletet kapunk, amely lehetővé teszi a program számára, hogy eldöntse: melyik dokumentumot tekinti megtaláltnak és hogyan rangsorolja. A modell elfogadása után az együtthatók gyakran fizikai jelentést kapnak, és a fejlesztő számára is egyértelműbbé válnak, és érdekesebbé válik a kijelölésük.

A hagyományos információkeresési modellek sokfélesége (IR) általában három típusra osztják: halmazelméleti (Boole-féle, fuzzy halmazok, kiterjesztett logikai), algebrai (vektor, általánosított vektor, látens szemantikai, neurális hálózat) és valószínűségi.

Valójában a Boole-modellcsalád az első, amely a teljes szöveges keresést megvalósító programozónak eszébe jut. Ha van szó - a dokumentum megtaláltnak minősül, ha nem - nem található. Valójában a klasszikus Boole-modell egy híd, amely összeköti az információ-visszakeresés elméletét a keresés és adatmanipuláció elméletével.

A Boole-modell kritikája, ami meglehetősen igazságos, az, hogy rendkívül merev és alkalmatlan a rangsorolásra. Ezért 1957-ben Joyce és Needham javasolta a szavak gyakorisági jellemzőinek figyelembevételét, hogy „... az összehasonlítási művelet a vektorok közötti távolság aránya legyen...” (Joyce, 1957). A vektormodellt 1968-ban sikeresen implementálta az információkeresés tudományának alapító atyja, Gerard Salton. (GerardSalton) a keresőben SMART(Salton"sMágikusAutomatikusVizslaaSzöveg) .

Ebben a modellben a rangsor azon a természetes statisztikai megfigyelésen alapul, hogy minél magasabb egy kifejezés helyi gyakorisága egy dokumentumban (TF) és a gyűjteményben szereplő kifejezés több „ritkasága” (vagyis fordított előfordulása a dokumentumokban). (IDF) , minél nagyobb a súlya e dokumentumból kifejezéssel kapcsolatban. Kijelölés IDF Karen Spark-Jones mutatta be 1972-ben a megkülönböztető hatalomról szóló cikkében (kifejezéstsajátosság) . Mostantól a megnevezés TF*IDF széles körben használják a vektoros modell szinonimájaként.

Végül 1977-ben Robertson és Spark-Jones egy valószínűségi modellt igazoltak és valósítottak meg (1960-ban javasolták (Maron)), amely egyben egy egész család alapjait is lefektette. Ebben a modellben a relevancia annak a valószínűsége, hogy egy adott dokumentum érdekes lehet a felhasználó számára. Ez magában foglalja a releváns dokumentumok már meglévő kezdeti készletének jelenlétét, amelyet a felhasználó választott ki, vagy valamilyen egyszerűsített feltételezés alapján automatikusan beszerzett. Az egyes következő dokumentumok relevánsságának valószínűségét a vonatkozó halmazban és a gyűjtemény többi, „irreleváns” részében előforduló kifejezések aránya alapján számítjuk ki. Noha a valószínűségi modelleknek van néhány elméleti előnyük – a dokumentumokat a „relevánsság valószínűsége” szerinti csökkenő sorrendbe sorolják –, a gyakorlatban sohasem nyertek nagyobb teret.

Nem megyek bele a részletekbe, és nehézkes képleteket írok ki minden modellhez. Összefoglalójuk, vitával együtt, tömörített formában 35 oldalt foglal el a „Modern Information Retrieval” (Baeza-Yates) című könyvben. Fontos megjegyezni, hogy mindegyik családban a legegyszerűbb modell a szavak kölcsönös függetlenségének feltételezésén alapul, és van egy egyszerű szűrési feltétele: a lekérdező szót nem tartalmazó dokumentumok soha nem találhatók meg. Az egyes családok fejlett („alternatív”) modelljei nem tekintik egymástól függetlennek a lekérdező szavakat, ráadásul lehetővé teszik olyan dokumentumok megtalálását, amelyek egyetlen szót sem tartalmaznak a lekérdezésből.

Keresés "jelentés szerint"

A lekérdezésben szereplő szavakat nem tartalmazó dokumentumok megtalálásának és rangsorolásának képességét gyakran a mesterséges intelligencia vagy a jelentés szerinti keresés jelének tekintik, és eleve a modell előnyeinek tulajdonítják. Azt a kérdést, hogy ez igaz-e vagy sem, a cikk keretein kívül hagyjuk.

Példaként csak egy, talán a legnépszerűbb modellt írok le, amely értelmesen működik. Az információkeresés elméletében ezt a modelltáltalában látens szemantikai indexelésnek (más szóval rejtett jelentések azonosításának) nevezik. Ez az algebrai modell a szavakat dokumentumokhoz társító téglalap alakú mátrix szinguláris értékbontásán alapul. A mátrix egyik eleme egy frekvenciaválasz, amely tükrözi a szó és a dokumentum közötti kapcsolat mértékét, például TF*IDF. Az eredeti milliódimenziós mátrix helyett a Furnas és Dirvester módszer szerzői 50-150 „rejtett jelentés” használatát javasolták, amelyek a szinguláris dekompozíció első fő összetevőinek felelnek meg.

Valós mátrix szinguláris dekompozíciója A méretek m*n az alak bármely dekompozícióját nevezzük A= USV, Hol U m*m, V - ortogonális méretű mátrix n*n, S- átlós méretű mátrix m*n, melynek elemei sij = 0 , Ha én nem egyenlő j, És sii=si >= 0 . Mennyiségek si a mátrix szinguláris értékeinek nevezzük, és megegyeznek a számtani értékekkel négyzetgyökök a mátrix megfelelő sajátértékeiből AAT. Az angol nyelvű irodalomban szinguláris dekompozíciót szoktak nevezni SVD- bomlás.

Már régen bebizonyosodott (Eckart), hogy ha az elsőt elhagyjuk k szinguláris számok (a többit nullával egyenlővé tesszük), az eredeti rangmátrix lehető legközelebbi közelítését kapjuk k(bizonyos értelemben a „rangsor legközelebbi szemantikai értelmezése k"). A rang csökkentésével kiszűrjük a lényegtelen részleteket; A növeléssel igyekszünk tükrözni a valós adatok szerkezetének minden árnyalatát.

A keresési műveletek vagy a hasonló dokumentumok megtalálása nagymértékben leegyszerűsödik, mivel minden szó és minden dokumentum egy viszonylag rövid vektorral van társítva. k jelentések (a megfelelő mátrixok sorai és oszlopai). Azonban a „jelentések” értelmetlensége vagy más okból, de a használat miatt LSI a homlokban a keresés soha nem nyert elosztást. Bár segédcélokra (automatikus szűrés, osztályozás, gyűjtemények szétválasztása, más modelleknél a dimenziók előzetes csökkentése) ez a módszer láthatóan alkalmazásra talál.

Minőségértékelés

„...a robusztussági vizsgálat azt mutatta, hogy a releváns dokumentumok átfedése bármely két értékelő között átlagosan körülbelül 40% volt<...>az értékelők között mért pontosság és felidézés, körülbelül 65%<...>Ez gyakorlatilag 65% körüli felső határt szab a keresési minőségnek..."

(„Amit tanultunk, és nem tanultunk a TREC-től”, Donna Harman)

Bármi is legyen a modell, a keresőmotornak „hangolásra” van szüksége - a keresés minőségének felmérésére és a paraméterek beállítására. A minőségértékelés a kereséselmélet alapvető gondolata. Ugyanis éppen a minőségértékelésnek köszönhetően lehet beszélni egy adott modell alkalmazhatóságáról vagy alkalmatlanságáról, sőt elméleti vonatkozásairól is beszélhetünk.

Konkrétan a keresés minőségének egyik természetes korlátja az epigráfban megfogalmazott megfigyelés: két „értékelő” (relevancia ítéletet hozó szakember) véleménye átlagosan nem nagyon esik egybe egymással! Ez a keresés minőségének természetes felső határát jelenti, mivel a minőséget az értékelő véleményével való összehasonlítás eredményei alapján mérik.

„...megdöbbentem, amikor valaki a Google-tólazt mondta nekem, hogy egyáltalán nem használnak semmit, amit a TREC-ben fejlesztettek ki, mert az „önkényes kérések” nyomán kihegyezett algoritmusokat a spam zúzza szét...”

Ideje visszatérni ahhoz a témához, amellyel ez a cikk indult: mi változott a keresőmotorokban az elmúlt években? utóbbi időben?

Mindenekelőtt nyilvánvalóvá vált, hogy az interneten végzett keresés nem végezhető korrekt módon, pusztán a dokumentumszöveg (akármilyen mélységű, szemantikai stb.) elemzésén alapul. Végül is szövegen kívüli (le-oldal) tényezők nem kisebb, sőt néha nagyobb szerepet játszanak, mint maga az oldal szövege. Az oldalon elfoglalt pozíció, forgalom, a forrás tekintélye, a frissítések gyakorisága, az oldal és a szerzők hivatkozása - mindezek a tényezők nem figyelmen kívül hagyhatók.

Mivel az emberi fajok fő referencia-információi forrásává váltak, a keresőmotorok az internetes oldalak forgalmának fő forrásaivá váltak. Ennek eredményeként azonnal „megtámadták” őket a gátlástalan szerzők, akik bármi áron meg akartak jelenni a keresési eredmények első oldalain. A népszerű szavakban, álcázási technikákban, „vakszövegekben” és sok más, a keresőmotorok megtévesztésére tervezett technikában gazdag belépőoldalak mesterséges generálása azonnal ellepte az internetet.

Az internetes keresők készítőinek a helyes rangsorolás problémája mellett egy kolosszális gyűjtemény frissítését, szinkronizálását kellett megoldaniuk heterogén formátumokkal, szállítási módokkal, nyelvekkel, kódolásokkal, valamint rengeteg értelmetlen és duplikált szöveggel. Az adatbázist a maximális frissesség állapotában kell fenntartani (sőt, elég a frissesség illúzióját kelteni - de ez egy másik beszélgetés témája), esetleg figyelembe véve a felhasználók egyéni és kollektív preferenciáit. A hagyományos információ-visszakereső tudományban ezek közül a problémák közül sok még soha nem foglalkozott.

Példaként nézzünk meg néhány ilyen problémát és azok megoldásának gyakorlati módjait az internetes keresőkben.

Rangsorolási minőség

Nem minden szövegen kívüli kritérium egyformán hasznos. 1999-2000-ben a link népszerűsége és származékai bizonyultak a döntő tényezőnek. a keresőmotorok világa és a hozzájuk visszatért felhasználók hűsége. Mivel a keresőmotorok segítségével megtanulták tisztességesen és önállóan (a manuálisan szerkesztett eredmények támogatása nélkül) rangsorolni a rövid gyakoriságú lekérdezések válaszait, amelyek a keresési folyamat jelentős részét teszik ki.

A linkek népszerűségének globális (azaz statikus) követésére a legegyszerűbb ötlet az oldalakra mutató hivatkozások számának megszámlálása. Ez körülbelül az, amit a hagyományos könyvtártudományban idézési indexnek neveznek. Ezt a kritériumot 1998 előtt alkalmazzák a keresőmotorokban. Azonban könnyen ki van téve a csalásnak, ráadásul nem veszi figyelembe maguknak a forrásoknak a súlyát.

Ennek az ötletnek a természetes fejlődésének tekinthető a Brin és Page 1998-ban javasolt algoritmusa PageRank- egy iteratív algoritmus, amely hasonló a svájci sakkverseny győztesének meghatározásához használthoz. Az oldalra mutató linkek lexikális keresésével kombinálva (egy régi, nagyon termékeny ötlet, amelyet a 80-as években használtak a hipertext keresőmotorokban), ez az intézkedés drámai módon javította a keresési minőséget.

Kicsit korábban mint PageRank, egy helyi (azaz dinamikus, lekérdezés alapú) népszerűség-elszámolási algoritmust javasoltak - HITS(Kleinberg), amelyet elsősorban számítási költsége miatt nem alkalmaznak a gyakorlatban. Körülbelül ugyanazért, mint a szavakkal operáló lokális (azaz dinamikus) módszerek.

Mindkét algoritmust, képleteiket és konvergenciafeltételeiket részletesen ismertetjük, beleértve az orosz nyelvű szakirodalomban is. Csak azt jegyzem meg, hogy a statikus népszerűség kiszámítása önmagában nem értékes feladat, számos segédcélra használják: a dokumentumok bejárási sorrendjének meghatározása, a keresések rangsorolása a linkek szövege alapján, stb. A népszerűség kiszámításának képleteit folyamatosan fejlesztik, figyelembe véve további tényezők- a dokumentumok tematikus közelsége (például népszerű keresőmotor www.teoma.com), szerkezetük stb., ami lehetővé teszi a nepotizmus befolyásának csökkentését. Érdekes külön téma a megfelelő adatstruktúrák hatékony megvalósítása (Bharat).

Index minőség

Bár az internetes adatbázis mérete első pillantásra nem tűnik kritikus tényezőnek, nem az. Nem csoda, hogy megnőtt az olyan autók forgalma, mint pl GoogleÉs Gyors, jól korrelál alapjaik növekedésével. A fő ok: a „ritka” lekérdezések, vagyis azok, amelyekhez 100-nál kevesebb dokumentum tartozik, a keresések teljes tömegének körülbelül 30% -át teszik ki - ez nagyon jelentős rész. Ez a tény teszi az adatbázis méretét az egyik legkritikusabb rendszerparaméterré.

Azonban a növekedés a bázis mellett technikai problémák a lemezekkel és szerverekkel is korlátozzák a logikaiakat: a szemétre, ismétlődésekre stb. Nem tudok mást tenni, mint leírni azt a zseniális algoritmust, amelyet a modern keresőkben használnak a "nagyon hasonló dokumentumok" kizárására.

Az interneten található dokumentumok másolatainak eredete változhat. Ugyanazon a szerveren ugyanaz a dokumentum technikai okok miatt eltérhet: eltérő kódolásban és formátumban jelenhet meg, tartalmazhat beszúrási változókat - hirdetést vagy az aktuális dátumot.

Az interneten található dokumentumok széles skáláját másolják és szerkesztik aktívan – hírügynökségi hírcsatornák, dokumentációk és jogi dokumentumok, bolti árlisták, válaszok a gyakran ismételt kérdésekre stb. A változtatások népszerű típusai: lektorálás, átszervezés, átdolgozás, kivonatolás, témafeltárás stb. Végül a publikációkat a szerzői jogokat sértő módon másolhatják, és rosszindulatúan módosíthatják, hogy megnehezítsék a felfedezést.

Emellett az adatbázisokból generált oldalak keresőmotorok általi indexelése egy másik gyakori, megjelenésükben nem nagyon eltérő dokumentumosztályt eredményez: kérdőívek, fórumok, elektronikus áruházak termékoldalai.

Nyilvánvaló, hogy a teljes ismétléssel nincs különösebb probléma, elegendő a szöveg ellenőrző összegét eltárolni az indexben, és figyelmen kívül hagyni az összes többi, azonos ellenőrzőösszegű szöveget. Ez a módszer azonban még csak kissé megváltozott dokumentumok észlelésére sem működik.

A probléma megoldásához Udi Manber (a híres közelítő közvetlen keresőprogram szerzője agrep) 1994-ben javasolta az ötletet, és 1997-ben Andrei Broder állt elő a névvel, és eszébe jutott a „zsindely” algoritmus (a szóból övsömör- „csempék, mérlegek”). Itt egy durva leírás róla.

Minden tízszavas szöveghez egy ellenőrző összeget (zsindelyt) számítanak ki. A szavak tízesei átfedik egymást, átfedik egymást, hogy egyetlen egy se vesszen el. És akkor az ellenőrző összegek teljes halmazából (nyilván annyi van belőlük, ahány szó van a dokumentumban mínusz 9), csak azok kerülnek kiválasztásra, amelyek mondjuk 25-tel oszthatók, mivel az ellenőrző összegek értékei el vannak osztva egyenletesen a kiválasztási kritérium semmilyen módon nem kötődik a szöveg jellemzőihez. Nyilvánvaló, hogy akár egy tízszavas mondat ismétlése is jelentős jele a duplikációnak, de ha sok van belőlük, mondjuk több mint a fele, akkor bizonyos (könnyen megbecsülhető a valószínűsége) biztonsággal meg tudjuk mondd: másolatot találtak! Végül is a mintában egy egyező zsindely körülbelül 25 egyező tízszavas szónak felel meg a teljes szövegben!

Nyilvánvalóan így meg lehet határozni a szöveg átfedésének százalékos arányát, azonosítani az összes forrását stb. Ez az elegáns algoritmus valóra váltotta a docensek régi álmát: mostantól megoldottnak tekinthető a „kitől másolta a hallgató ezt a tananyagot” fájdalmas kérdés! Bármely cikkben könnyű felmérni a plágium arányát.

Hogy az olvasóban ne alakuljon ki az a benyomásom, hogy az információkeresés kizárólag nyugati tudomány, megemlítek egy alternatív algoritmust a majdnem duplikátumok azonosítására, amelyet itt a Yandexben (Iljinszkij) találtak ki és implementáltak. Kihasználja azt a tényt, hogy a legtöbb keresőmotornak már van egy indexe fordított fájl (vagy fordított index) formájában, és ez a tény kényelmesen felhasználható a közel duplikátumok megtalálásának eljárásában.

Az ára egy százalék

Építészetileg a modern keresőrendszerek összetett, több számítógépes rendszerek. Egy bizonyos ponttól kezdve a rendszer növekedésével a fő terhelés egyáltalán nem a robotra, hanem a keresésre esik. Hiszen kérések tucatjai és százai érkezik meg egy másodpercen belül.

A probléma megoldása érdekében az indexet részekre bontják, és több tíz, száz vagy akár több ezer számítógépre osztják szét. Maguk a számítógépek 1997 óta (kereső Inktomi) normál 32 bites gépek ( Linux, Solaris, FreeBSD, Győzelem32 ) megfelelő ár- és teljesítménykorlátozással. Kivétel a általános szabály már csak az maradt AltaVista, amely a kezdetektől viszonylag "nagy" 64 bites számítógépeket használt Alpha.

Az internetes keresők (és általában minden nagy keresőmotor) felgyorsíthatják munkájukat lépcsőzetes és metsző technikákkal.

Az első technika az, hogy az indexet nyilvánvalóan relevánsabb és kevésbé releváns részekre osztjuk. A keresést először az első részben hajtja végre, majd ha semmit vagy keveset talál, a kereső hozzáfér az index második részéhez. Prüning (angolból. metszés- „kivágás, csökkentés”) a kérelem feldolgozásának dinamikus leállítása elegendő mennyiségű releváns információ felhalmozása után. Létezik statikus metszés is, amikor bizonyos feltételezések alapján az indexet olyan dokumentumok rovására csökkentik, amelyeket biztosan soha nem fognak megtalálni.

Külön probléma a többszámítógépes rendszerek zavartalan működésének megszervezése, a zökkenőmentes indexfrissítés, valamint az egyes komponensek meghibásodásával és késleltetésével szembeni ellenállás. Speciális protokollokat fejlesztenek ki a keresési szerverek és a válaszokat gyűjtő és a keresési eredményoldalt alkotó szerverek közötti kommunikációhoz.

Vegye figyelembe, hogy egy tízezer számítógépes rendszer teljesítményének egy százaléka (mondjuk egy rosszul megírt nyilatkozat valamilyen ciklusban) körülbelül száz számítógépbe kerül. Ezért elképzelhető, hogyan tisztítják meg az eredmények kereséséért és rangsorolásáért felelős kódot, hogyan optimalizálják az összes lehetséges erőforrás felhasználását: a memória minden bájtját, minden lemezelérést.

A teljes komplexum architektúrájának a kezdetektől való végiggondolása kulcsfontosságú, hiszen minden változtatás – például egy szokatlan tényező hozzáadása a rangsorhoz vagy egy összetett adatforrás – rendkívül fájdalmas és összetett eljárássá válik. Nyilvánvaló, hogy a később induló rendszerek előnyt élveznek ebben a helyzetben. Ám a felhasználói tehetetlenség nagyon nagy: például két-négy évbe telik, amíg egy többmillió dolláros közönség, ha lassan is, de átvált egy szokatlan keresőrendszerre, még akkor is, ha annak tagadhatatlan előnyei vannak. Kiélezett verseny körülményei között ez néha nem kivitelezhető.

A web szintaktikai klaszterezése
Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse
6. világháború, 1997

Az egyik mátrix közelítése egy másik alacsonyabb rangú mátrixra
Eckart, G. Young Psychometrika, 1936

Aláírási fájl módszerek leírása és teljesítményelemzése
Faloutsos, S. Christodoulakis
ACM TOIS, 1987

Információkeresés a látens szemantikai struktúra szinguláris értékbontási modelljével
G.W. Furnas, S. Deerwester, S.T. Dumais, T.K. Landauer, R. A. Harshman, L.A. Streeter és K.E. Lochbaum
ACM SIGIR, 1988

Példák az oxfordi angol szótárra alkalmazott PAT-ra
Gonnet G.
Waterloo Egyetem, 1987

A tezaurusz-megközelítés az információkereséshez
T. Joyce és R.M. Needham
Amerikai dokumentáció, 1958

Hatékony módszer a webdokumentumok ismétlődéseinek észlelésére fordított index használatával
S. Iljinszkij, M. Kuzmin, A. Melkov, I. Szegalovics
WWW2002, 2002

Utótagtömbök: Új módszer az online karakterlánc-keresésekhez
U. Manber, G. Myers
1. ACM-SIAM Szimpózium a Diszkrét Algoritmusokról, 1990

Hasonló fájlok keresése nagy fájlrendszerben
U. Manber
USENIX Konferencia, 1994

A relevanciáról, a valószínűségi indexelésről és az információkeresésről
NEKEM. Maron és J.L. Kuhns
Az ACM folyóirata, 1960

A keresési kifejezések relevancia súlyozása
S.E. Robertson és K. Sparck Jones
JASIS, 1976

Algoritmusok C++ nyelven
Robert Sedgewick
Addison-Wesley, 1992

A kifejezés-specificitás statisztikai értelmezése és alkalmazása a visszakeresésben
K. Spark Jones
Dokumentációs folyóirat, 1972

Természetes nyelvű információkeresés
Tomek Strzalkowski (szerk.)
Kluwer Academic Publishers, 1999

Szimfónia vagy szótár-mutató az Ó- és Újszövetség Szentírásához
Összeállította: M.A. Bondarev, M.S. Kosyan, S.Yu. Kosyan
A Moszkvai Patriarchátus kiadója, 1995

Szójegyzék

Értékelő (értékelő, szakértő) - a témakör szakértője, aki következtetést von le egy keresőmotor által talált dokumentum relevanciájáról.

Boole-modell (logikai érték, Boolean, Boolean, binary) egy keresési modell, amely a halmazok metszéspontja, egyesítése és kivonása műveletein alapul.

Vektoros modell- információ-visszakereső modell, amely a dokumentumokat és a lekérdezéseket a szótérben lévő vektoroknak, a relevanciát pedig a köztük lévő távolságnak tekinti.

Valószínűségi modell- információ-visszakereső modell, amely a relevanciát annak valószínűségeként tekinti, hogy egy adott dokumentum szavai egy ideális válasszal egyeznek meg egy lekérdezéssel.

Szövegen kívüli kritériumok (le-oldal, off-page) - a dokumentumok keresőmotorokban történő rangsorolásának kritériumai, figyelembe véve azokat a tényezőket, amelyek nem szerepelnek magában a dokumentum szövegében, és nem onnan semmilyen módon nem származnak ki.

Belépő oldalak (ajtónyílások, folyosók) - olyan oldalak, amelyeket a keresőmotorok rangsorának mesterséges növelésére hoztak létre (keresőlevélszemét). Amikor leszállnak, a felhasználó a céloldalra kerül.

Egyértelművé tétel (címkézés, részabeszédegyértelművé tétele, címkézés) - a több homonima közül egy kiválasztása kontextus segítségével; V angol gyakran a „beszédrész” nyelvtani kategória automatikus hozzárendelésére vezethető vissza.

Ismétlődések (másolatok) - különböző, a felhasználó szempontjából azonos tartalmú dokumentumok; hozzávetőleges másolatok (közelmásolatok, Közel-duplikált), a pontos ismétlődésektől eltérően kisebb eltéréseket tartalmaznak.

A frissesség illúziója- az internetes keresők által a felhasználók által gyakrabban talált dokumentumok rendszeresebb feltérképezésével elért látszólagos frissesség hatása.

Fordított fájl (fordítottfájlt, inverz fájl, fordított index, fordított lista) egy keresőmotor-index, amely felsorolja egy dokumentumgyűjtemény szavait, és minden szóhoz felsorolja az összes helyet, ahol előfordult.

Index (index, index) - lásd Indexelés.

Hivatkozási index (idézetindex) - egy tudományos cikk említésének (idézésének) számát a hagyományos bibliográfiai tudományban egy adott időszakra, például évente számítják.

Indexelés (indexelés, indexelés) egy mutató (index) - a későbbi kereséshez szükséges szolgáltatási adatstruktúra - összeállításának vagy hozzárendelésének folyamata.

Információkeresés (InformációVisszakeresés, IR) - strukturálatlan információk keresése, amelyek megjelenítési egysége egy tetszőleges formátumú dokumentum. A keresés tárgya a felhasználó információigénye, amely informálisan kifejeződik a keresési lekérdezésben. Mind a keresési feltétel, sem annak eredményei nem determinisztikusak. Ezek a jellemzők megkülönböztetik az információ-visszakeresést az „adat-visszakereséstől”, amely formálisan meghatározott predikátumok halmazán működik, strukturált információkkal foglalkozik, és amelynek eredménye mindig determinisztikus. Az információkeresés elmélete a keresési folyamat összes összetevőjét tanulmányozza, nevezetesen a szöveg előfeldolgozását (indexelés), a lekérdezések feldolgozását és végrehajtását, a rangsorolást, a felhasználói felületet és a visszajelzést.

Álcázás (álcázás) - a kéretlen levelek keresési technikája, amely abból áll, hogy a keresőmotor robotja (indexelő ügynöke) dokumentumainak szerzői felismerik, és ehhez speciális tartalmat generálnak, amely alapvetően különbözik a felhasználónak adott tartalomtól.

Term Kontraszt- lásd: Megkülönböztető erő.

Látens szemantikai indexelés- szabadalmaztatott jelentéskereső algoritmus, amely megegyezik a faktoranalízissel. A szavak és dokumentumok közötti kapcsolatok mátrixának szinguláris értékbontása alapján.

Lemmatizálás (lemmatizálás, normalizálás) - egy szó alakjának szótári formává, azaz lemmává hozása.

Csalás keresőmotorok- Lásd: Keresőmotor spam.

Nepotizmus- a keresőmotorok kéretlen levelének egy fajtája, a dokumentumok szerzői általi kölcsönös hivatkozások telepítése azzal a céllal, hogy javítsák rangjukat a keresési eredmények között.

Fordított előfordulás a dokumentumokban (fordítottdokumentumfrekvencia, IDF, inverz gyakoriság a dokumentumokban, inverz dokumentum gyakoriság) a szó keresési értékének (megkülönböztető erejének) mutatója; A „fordított” szó azért van, mert ennek a mutatónak a kiszámításakor a tört nevezője általában tartalmazza az ezt a szót tartalmazó dokumentumok számát.

Visszacsatolás- a felhasználói válasz a keresési eredményre, a talált, a keresőrendszer által rögzített és például a lekérdezés iteratív módosítására felhasznált dokumentumok relevanciájára vonatkozó ítéletei. Meg kell különböztetni a pszeudótól visszacsatolás- lekérdezésmódosítási technikák, amelyekben az első néhány megtalált dokumentum automatikusan relevánsnak minősül.

Homonímia- lásd Poliszémia.

Warp- egy szó része, amely közös származékos és ragozós (gyakrabban) halmazában.

Keresés jelentés szerint- információ-visszakereső algoritmus, amely képes megtalálni a lekérdező szavakat nem tartalmazó dokumentumokat.

Keressen hasonló dokumentumokat (hasonlódokumentumkeresés) - információkeresési feladat, amelyben maga a dokumentum lekérdezésként működik, és az adotthoz leginkább hasonló dokumentumokat kell megtalálni.

Keresőmotor (keresésmotor, S.E., információ-visszakereső rendszer, IRS, kereső, kereső, „kereső”, „keresőmotor”) – információk, általában szöveges dokumentumok keresésére tervezett program.

Keresés recept (lekérdezés, kérés) - általában egy szövegsor.

Poliszémia (poliszémia, poliszémia) - ugyanazon szó több jelentésének jelenléte.

Teljesség (visszahívás,lefedettség) a keresőmotor válaszában található releváns anyagok aránya a gyűjtemény összes releváns anyagához viszonyítva.

Majdnem-másolatok (közel- ismétlődések, hozzávetőleges ismétlődések) – lásd: Ismétlődések.

Prüning (metszés) - a nyilvánvalóan irreleváns dokumentumok levágása a keresés során a lekérdezés végrehajtásának felgyorsítása érdekében.

Közvetlen keresés- közvetlen keresés a dokumentumok szövegében, előzetes feldolgozás nélkül (indexelés nélkül).

Pszeudovisszajelzés- lásd a Visszajelzést.

A szavak megkülönböztető ereje (kifejezéstsajátosság, kifejezéstmegkülönböztetőhatalom, kontraszt, megkülönböztető erő) - a szó szélességének vagy szűkségének mértéke. A túl tág keresési kifejezések túl sok információt tartalmaznak, és ezek nagy része haszontalan. A túl szűk kifejezések túl kevés, bár pontosabb dokumentum megtalálását segítik elő.

Reguláris kifejezés (szabályoskifejezés, minta, „sablon”, ritkábban „stencil”, „maszk”) - a keresési utasítás rögzítésének módja, amely lehetővé teszi a keresett szó kívánságainak meghatározását, annak lehetséges helyesírását, hibáit stb. Tágabb értelemben ez egy olyan nyelv, amely lehetővé teszi korlátlan összetettségű lekérdezések megadását.

Relevancia (relevanciáját, relevancia) - a dokumentum megfelelése a kérésnek.

Aláírás (aláírás, aláírás) - egy bizonyos szövegblokk szavainak hash értékeinek halmaza. alapján keresve aláírási módszer a gyűjteményben lévő összes blokk összes aláírását egymás után keresi a lekérdezési szavak hash értékeivel való egyezés keresése.

Inflexió (inflexió) - egy bizonyos nyelvtani jelentésű, adott nyelvtani kontextusban általában kötelező, egy adott típusú szavakra jellemző rögzített alakhalmazhoz (paradigmához) tartozó alakzat kialakítása. A szóalkotástól eltérően soha nem vezet típusváltozáshoz, és kiszámítható jelentést ad. A nevek ragozását deklinációnak nevezzük (hanyatlás) , és igék - ragozás (konjugáció) .

Szóalkotás (származtatás) - egy szó vagy tő képződése másik szóból vagy tőből.

Megkülönböztető- lásd: Megkülönböztető erő.

Keresőmotor spam (spam, spamdexelés, keresőmotorok csalása) - kísérlet az információkeresés eredményének befolyásolására a dokumentumok készítői részéről.

Statikus népszerűség- cm. PageRank.

Származás- a szótő azonosításának folyamata.

Biztonságos szavak (Stop-szavak) - azok a kötőszavak, elöljárószavak és egyéb gyakori szavak, amelyeket egy adott keresőmotor kizárt az indexelési és keresési folyamatból, hogy javítsa teljesítményét és/vagy keresési pontosságát.

Utótag fák, utótag tömbök (utótagfák, utótagtömbök, PAT-tömbök) egy olyan index, amely egy szöveg összes jelentős utótagjának megjelenítésén alapul az úgynevezett adatszerkezetben "bór" (próbáld meg) . Utótag ez az index minden olyan „alkarakterláncra” utal, amely a szöveg valamely pontján kezdődik (a szöveget egy folyamatos sorként kezeljük) és a végéig tart. Valós alkalmazásokban az utótagok hossza korlátozott, és csak a jelentős pozíciókat indexeli – például a szavak elejét. Ez az index lehetővé teszi összetettebb lekérdezések végrehajtását, mint egy fordított fájlokra épített index.

Tokenizálás (tokenizálás, lexikáliselemzés, grafematikai elemzés, lexikális elemzés) - szavak, számok és egyéb jelzők kiemelése a szövegben, beleértve például a mondathatárok megtalálását.

Pontosság (pontosság) - a releváns anyagok aránya a keresőmotor válaszában.

Hash érték (hash-érték) - jelentése hash függvények (hash-funkció) , amely tetszőleges hosszúságú adatokat (általában karakterláncot) alakít át fix sorrendű számmá.

Gyakoriság (szavak) a dokumentumokban (dokumentumfrekvencia, bizonylatokban való előfordulás, bizonylatgyakoriság) - adott szót tartalmazó dokumentumok száma a gyűjteményben.

Term gyakorisága (kifejezéstfrekvencia, TF) - egy szó használatának gyakorisága egy dokumentumban.

Zsindely (zsindely) - fix hosszúságú szövegszavak folyamatos sorozatának hash értéke.

PageRank- az egyik szerzőről, Lawrence Pageről elnevezett algoritmus egy internetes oldal statikus (globális) népszerűségének kiszámítására. Megfelel annak a valószínűségének, hogy a felhasználó egy véletlenszerű sétamodellben megüt egy oldalt.

TF*IDF- egy szó és egy dokumentum közötti megfelelés numerikus mértéke vektormodellben; a több mint viszonylag gyakrabban a szó megjelent a dokumentumban és viszonylag ritkábban- a gyűjteményben.

Sziasztok, a blogoldal kedves olvasói. Ha professzionális szinten (pénzért kereskedelmi projektek reklámozása) és amatőr szinten () keresőoptimalizálást végez, akkor minden bizonnyal találkozni fog azzal a ténnyel, hogy ismernie kell a munka alapelveit. annak érdekében, hogy sikeresen optimalizálja számukra a saját vagy valaki más webhelyét.

Az ellenséget, ahogy mondják, látásból kell ismerni, bár természetesen ők (a RuNetnél ez a Yandex és) egyáltalán nem ellenségek számunkra, hanem inkább partnerek, mert a legtöbb esetben az ő részesedésük a forgalomból az uralkodó. és a fő. Természetesen vannak kivételek, de ezek csak megerősítik ezt a szabályt.

Mi az a kódrészlet, és hogyan működnek a keresőmotorok?

De itt először azt kell kitalálnia, hogy mi az a kódrészlet, mire való, és miért olyan fontos a tartalma az optimalizáló számára? A keresési eredmények között közvetlenül a talált dokumentumra mutató hivatkozás alatt található (amelynek szövege abból származik, amit már írtam):

A dokumentum szövegrészei általában kivonatként használatosak. Az ideális lehetőség arra szolgál, hogy a felhasználónak lehetősége legyen véleményt alkotni az oldal tartalmáról anélkül, hogy rámenne (de ez akkor van, ha sikeresnek bizonyul, és ez nem mindig van így).

A kódrészlet automatikusan generálódik, és Ön dönti el, hogy mely szövegrészleteket használja fel benne, és ami fontos, ugyanazon a weboldalon különböző kérésekhez különböző töredékek lesznek.

De előfordulhat, hogy a Description címke tartalma néha kivonatként használható (főleg a Google-ban). Természetesen ez attól is függ, hogy melyik probléma jelenik meg a keresési eredmények között.

De a Description címke tartalma például akkor jelenhet meg, ha a lekérdezés kulcsszavai egybeesnek a leírásban használt szavakkal, vagy ha maga az algoritmus még nem talált szövegtöredékeket a webhelyén minden olyan lekérdezéshez, amelyre az Ön oldala megjelenik. A Yandex vagy a Google találatai.

Ezért ne legyen lusta, és töltse ki a Leírás címke tartalmát minden cikkhez. Ez megtehető a WordPressben, ha a leírtat használod (és erősen javaslom, hogy használd).

Ha Ön Joomla rajongó, használhatja ezt az anyagot -.

De a töredéket nem lehet beszerezni a fordított indexből, mert csak az oldalon használt szavakról és a szövegben elfoglalt helyükről tárol információkat. Pontosan azért, hogy ugyanabból a dokumentumból kivonatokat hozzon létre a különböző keresési eredmények között (különböző lekérdezésekhez), amit szeretett Yandexünk és Google-nk a fordított indexen kívül (közvetlenül a kereséshez szükséges - olvassa el lejjebb) is mentse. közvetlen index, azaz a weboldal másolata.

Azáltal, hogy elmentik a dokumentum másolatát az adatbázisukba, kényelmesen kivághatják belőle a szükséges töredékeket, anélkül, hogy az eredetire hivatkoznának.

Hogy. Kiderült, hogy a keresőmotorok a weboldal előre és fordított indexét egyaránt tárolják adatbázisukban. A töredékek kialakítását egyébként közvetetten befolyásolhatja, ha egy weboldal szövegét úgy optimalizálja, hogy az algoritmus pontosan azt a szövegrészletet választja ki, amelyre gondol. De erről ebben a részben egy másik cikkben fogunk beszélni.

A keresőmotorok működése általában

Az optimalizálás lényege, hogy „segítsen” a keresőalgoritmusoknak abban, hogy bizonyos lekérdezések esetén az Ön által reklámozott oldalak oldalai a lehető legmagasabb pozícióba kerüljenek a keresési eredmények között.

Az előző mondatban a „segítség” szót idézőjelbe tettem, mert... Optimalizálási műveleteinkkel nem igazán segítünk, sőt gyakran teljesen meg is akadályozzuk, hogy az algoritmus a kérés szempontjából teljes mértékben releváns (mintegy titokzatos) eredményeket produkáljon.

De ez az optimalizálók kenyere, és amíg a keresési algoritmusok nem lesznek tökéletesek, a belső és külső optimalizálás révén lehetőség nyílik pozíciójuk javítására a Yandex és a Google találatai között.

Mielőtt azonban rátérne az optimalizálási módszerek tanulmányozására, legalább felületesen meg kell értenie a keresőmotorok működésének alapelveit, hogy minden további akciók tudatosan tegyük, megértve, miért van rá szükség, és hogyan reagálnak rá azok, akiket meg akarunk csalni.

Nyilvánvaló, hogy munkájuk teljes logikáját az elejétől a végéig nem fogjuk megérteni, hiszen sok információ nem tartozik nyilvánosságra, de nekünk eleinte elég lesz az alapelvek megértése. Tehát kezdjük.

Egyébként hogyan működnek a keresők? Furcsa módon, de a munkájuk logikája elvileg ugyanaz, és a következő: információkat gyűjtenek a hálózaton található összes weboldalról, amelyet elérhetnek, majd ezeket az adatokat ravaszul feldolgozzák, hogy kényelmes legyen kutatást végeznek. Ez minden, valójában ez a cikk teljesnek tekinthető, de azért adjunk hozzá egy kis konkrétumot.

Először is tisztázzuk, hogy a dokumentum arra utal, amit általában webhelyoldalnak nevezünk. Ezenkívül saját egyedi címmel () kell rendelkeznie, és ami figyelemre méltó, a hash hivatkozások nem vezetnek új dokumentum (körülbelül) megjelenéséhez.

Másodsorban érdemes elidőzni az összegyűjtött dokumentumadatbázisban az információkeresés algoritmusainál (módszereinél).

Közvetlen és fordított indexes algoritmusok

Nyilvánvaló, hogy az adatbázisban tárolt összes oldal egyszerű iterációja nem lesz optimális. Ezt a módszert algoritmusnak nevezik közvetlen keresésés bár ez a módszer lehetővé teszi, hogy biztosan megtalálja a szükséges információkat anélkül, hogy bármi fontosat kihagyna, teljesen alkalmatlan nagy mennyiségű adat kezelésére, mert a keresés túl sok időt vesz igénybe.

Ezért a nagy mennyiségű adattal való hatékony munka érdekében inverz (invertált) index-algoritmust fejlesztettek ki. És figyelemre méltó, hogy a világ összes nagy keresője ezt használja. Ezért részletesebben foglalkozunk vele, és megfontoljuk működésének elveit.

Az algoritmus használatakor fordított indexek A dokumentumok szöveges fájlokká konvertálódnak, amelyek tartalmazzák a bennük található összes szót.

Az ilyen listákban (indexfájlokban) szereplő szavak ábécé sorrendben vannak elrendezve, és mindegyik mellett koordináták formájában jelzik a weboldal azon helyeit, ahol ez a szó előfordul. A dokumentumban elfoglalt pozíción kívül minden szóhoz más paraméterek is tartoznak, amelyek meghatározzák a jelentését.

Ha emlékszel, sok könyvben (főleg műszaki vagy tudományos) utolsó oldalain a könyvben használt szavak listája, az oldalszámokkal együtt, ahol szerepelnek. Természetesen ez a lista nem tartalmazza a könyvben használt összes szót, de ennek ellenére példaként szolgálhat indexfájl felépítésére fordított indexek használatával.

Felhívjuk figyelmét, hogy a keresőmotorok információkat keresnek nem az interneten, valamint az általuk feldolgozott weboldalak fordított indexeiben. Bár direkt indexeket is mentenek (eredeti szöveg), mert később szükség lesz rá a töredékek összeállításához, de erről már a kiadvány elején beszéltünk.

A fordított index algoritmust minden rendszer használja, mert lehetővé teszi a folyamat felgyorsítását, ugyanakkor elkerülhetetlen információvesztés a dokumentum indexfájllá konvertálása által okozott torzulások miatt. A tárolás megkönnyítése érdekében a fordított indexfájlokat általában okos módon tömörítik.

A rangsoroláshoz használt matematikai modell

A fordított indexek használatával történő kereséshez egy matematikai modellt használnak, amely leegyszerűsíti a szükséges weboldalak észlelésének folyamatát (a felhasználó által bevitt lekérdezés alapján), valamint az összes talált dokumentum relevanciájának meghatározását a lekérdezés szempontjából. Minél jobban egyezik ezt a kérést(minél relevánsabb), annál magasabban kell megjelennie a keresési eredmények között.

Ez azt jelenti, hogy a matematikai modell által végrehajtott fő feladat az, hogy az adott lekérdezésnek megfelelő oldalakat keressen a fordított indexek adatbázisában, majd azokat a lekérdezés szempontjából releváns csökkenő sorrendbe rendezze.

Egy egyszerű logikai modell használata, amikor egy dokumentumot megtalálunk, ha megtaláljuk benne a keresett kifejezést, nem felel meg nekünk, mivel rengeteg ilyen weboldal kerül a felhasználó elé.

A keresőmotornak nemcsak listát kell adnia az összes olyan weboldalról, amelyen a lekérdezésben szereplő szavak megjelennek. Ezt a listát olyan formában kell megadnia, hogy a felhasználó kérésére leginkább releváns dokumentumok a legelején legyenek (relevancia szerint rendezve). Ez a feladat nem triviális, és alapértelmezés szerint nem hajtható végre tökéletesen.

Az optimalizálók egyébként kihasználják bármely matematikai modell tökéletlenségét, így vagy úgy, hogy befolyásolják a dokumentumok rangsorolását a keresési eredmények között (természetesen az általuk népszerűsített webhely javára). Az összes keresőmotor által használt matematikai modell a vektorosztályba tartozik. Olyan fogalmat használ, mint egy dokumentum súlya a felhasználó által megadott lekérdezéshez képest.

Az alapvektormodellben egy dokumentum súlyát egy adott lekérdezésnél két fő paraméter alapján számítják ki: az adott szó milyen gyakorisággal jelenik meg benne (TF - kifejezés gyakorisága), és milyen ritkán fordul elő ez a szó az összes többi oldalon. a gyűjtemény (IDF - inverz dokumentum gyakoriság).

Gyűjtemény alatt a kereső által ismert oldalak teljes halmazát értjük. Ezt a két paramétert megszorozva egymással, megkapjuk a dokumentum súlyát egy adott kérésre.

Természetesen a különböző keresőmotorok a TF és IDF paraméterek mellett sok különböző együtthatót használnak a súly kiszámításához, de a lényeg ugyanaz: annál nagyobb lesz az oldal súlya, minél gyakrabban jelenik meg a keresési lekérdezésben szereplő szó. benne (bizonyos határokig, ami után a dokumentum spamként ismerhető fel), és annál ritkábban jelenik meg ez a szó minden más, a rendszer által indexelt dokumentumban.

A képlet minőségének értékelése az értékelők által

Így kiderül, hogy bizonyos kérések eredményeit generálják teljesen a képlet szerint emberi beavatkozás nélkül. De egyik képlet sem fog tökéletesen működni, különösen eleinte, ezért figyelemmel kell kísérnie a matematikai modell működését.

Erre a célra speciálisan képzett embereket használnak – akik megtekintik a különböző lekérdezések eredményeit (különösen az őket bérlő keresőmotort), és értékelik az aktuális képlet minőségét.

A matematikai modell felállításáért felelős személyek minden észrevételt figyelembe vesznek. Képletében módosítások vagy kiegészítések történnek, aminek eredményeként javul a keresőmotor munkájának minősége. Kiderült, hogy az értékelők egyfajta visszacsatolásként működnek az algoritmus fejlesztői és felhasználói között, ami a minőség javításához szükséges.

A képlet minőségének értékelésének fő kritériumai a következők:

A keresőmotor találatainak pontossága a releváns dokumentumok százalékos aránya (amelyek megfelelnek a lekérdezésnek). Minél kevesebb olyan weboldal (például ajtók) van, amely nem kapcsolódik a kérés témájához, annál jobb.
A keresési eredmények teljessége az adott lekérdezésnek megfelelő (releváns) weboldalak százalékos aránya a teljes gyűjteményben elérhető összes releváns dokumentumhoz viszonyítva. Azok. kiderül, hogy az ismert keresendő dokumentumok teljes adatbázisában egy adott lekérdezésnek több weboldal lesz, mint amennyi a keresési eredmények között szerepel. Ebben az esetben a kibocsátás hiányosságáról beszélhetünk. Lehetséges, hogy a releváns oldalak egy része a szűrő alá került, és például összetéveszthető ajtónyílásokkal vagy más salakkal.
A keresési eredmények relevanciája az, hogy egy internetes webhelyen található valós weboldal mennyire felel meg a keresési eredményekben róla írottaknak. Például előfordulhat, hogy egy dokumentum már nem létezik, vagy nagymértékben megváltozik, de az adott kérés keresési eredményei között jelen lesz, annak ellenére, hogy a megadott címen fizikailag nem, vagy éppen nem felel meg az adott kérésnek. Az eredmények relevanciája attól függ, hogy a keresőrobotok milyen gyakorisággal szkennelnek be dokumentumokat a gyűjteményükből.

Hogyan gyűjti össze a Yandex és a Google a gyűjteményét

A weboldalak indexelésének látszólagos egyszerűsége ellenére sok árnyalatot kell ismernie, és ezt követően használnia kell saját vagy egyedi webhelyeinek optimalizálásakor (SEO). A hálózati indexelést (gyűjteménygyűjtés) egy speciálisan erre a célra kialakított program, az úgynevezett keresőrobot (bot) végzi.

A robot megkapja a címek kezdeti listáját, amelyeket meg kell látogatnia, átmásolja ezen oldalak tartalmát, és ezt a tartalmat továbbítja az algoritmusnak további feldolgozásra (fordított indexekké alakítja).

A robot nem csak egy előre megadott listát tud követni, hanem az ezeken az oldalakon található linkeket és az ezeken található indexdokumentumokat is követheti. Hogy. a robot pontosan ugyanúgy viselkedik, mint rendszeres felhasználó, a következő linkeket.

Ezért kiderül, hogy egy robot segítségével mindent indexelni lehet, ami egy böngészőt használó felhasználó számára általában elérhető a szörfözéshez (a keresőmotorok olyan közvetlen láthatósági dokumentumokat indexelnek, amelyeket bármely internetező láthat).

Számos funkció kapcsolódik a dokumentumok indexeléséhez az interneten (hadd emlékeztessem Önöket, hogy már tárgyaltuk).

Az első jellemzőnek tekinthető, hogy a hálózatról letöltött eredeti dokumentumból létrejövő fordított index mellett a kereső egy másolatot is eltárol, vagyis a keresők a közvetlen indexet is tárolják. Miért van erre szükség? Kicsit korábban már említettem, hogy erre a beírt lekérdezéstől függően különböző töredékek összeállításához van szükség.

Egy webhely hány oldalát jeleníti meg a Yandex a keresési eredményekben és az indexben?

Szeretném felhívni a figyelmet a Yandex munkájának egy olyan jellemzőjére, mint az, hogy egy adott kérelem keresési eredményei között csak egy dokumentum szerepel minden webhelyről. Egészen a közelmúltig nem fordulhatott elő, hogy ugyanabból az erőforrásból két oldal különböző pozíciókban szerepeljen a keresési eredmények között.

Ez volt a Yandex egyik alapvető szabálya. Még ha egy webhelyen száz oldal is releváns egy adott lekérdezéshez, csak egy (a legrelevánsabb) jelenik meg a találatok között.

A Yandex érdekli, hogy a felhasználó különféle információkat kapjon, és ne görgessen végig a keresési eredmények több oldalát ugyanazon webhely oldalaival, amelyekről ez a felhasználó valamilyen okból nem érdekes.

Sietek azonban kijavítani magam, mert amikor befejeztem a cikk írását, megtudtam a hírt, hogy kiderült, hogy a Yandex megkezdte egy második dokumentum megjelenítését ugyanabból az erőforrásból a keresési eredmények között, kivételként, ha ez az oldal „nagyon jónak és megfelelőnek” bizonyul (más szóval nagyon releváns a kérés szempontjából).

Ami figyelemre méltó, hogy ezek a további eredmények ugyanarról az oldalról is számozottak, ezért emiatt az alacsonyabb pozíciókat elfoglaló erőforrások egy része kiesik a csúcsról. Íme egy példa az új Yandex kimenetre:

A keresőmotorok arra törekszenek, hogy minden weboldalt egyenletesen indexeljenek, de ez gyakran nem egyszerű a rajtuk lévő teljesen eltérő oldalszám miatt (van, ahol tíz, míg másokon tízmillió található). Mi a teendő ebben az esetben?

A Yandex úgy száll ki ebből a helyzetből, hogy korlátozza az egy webhelyről az indexbe helyezhető dokumentumok számát.

A projektekhez domain név második szint, például egy weboldal, a Runet tükör által indexelhető oldalak maximális száma száz és százötvenezer között van (a konkrét szám az adott projekthez való viszonytól függ).

Harmadik szintű domain névvel rendelkező forrásokhoz - tíz-harmincezer oldal (dokumentumok).

Ha van egy webhelye második szintű domainnel (), és például egymillió weboldalt kell indexelnie, akkor az egyetlen kiút ebből a helyzetből az, ha sok aldomaint () hoz létre.

A második szintű domain aldomainjei így nézhetnek ki: JOOMLA.site. A Yandex által indexelhető második szint aldomainjeinek száma valamivel több mint 200 (néha akár ezer is), így ezen az egyszerű módon több millió weboldalt helyezhet el a RuNet tükör indexébe.

Hogyan kezeli a Yandex a nem orosz domain zónáiban lévő webhelyeket

Tekintettel arra, hogy a Yandex a közelmúltig csak az internet orosz nyelvű részén keresett, főként orosz nyelvű projekteket indexelt.

Ezért ha nem olyan domain zónákban hoz létre webhelyet, amelyek alapértelmezés szerint orosz nyelvűek (RU, SU és UA), akkor nem kell gyors indexelésre számítani, mert nagy valószínűséggel legkorábban egy hónappal később találja meg. De a későbbi indexelés ugyanolyan gyakorisággal történik, mint az orosz nyelvű tartományzónákban.

Azok. A tartományzóna csak az indexelés megkezdése előtt eltelt időt befolyásolja, de a későbbiekben nem befolyásolja annak gyakoriságát. Egyébként mitől függ ez a frekvencia?

A keresőmotorok oldalak újraindexelésének logikája hozzávetőlegesen a következőkből áll:

Miután talált és indexelt egy új oldalt, a robot másnap meglátogatja
Miután a tartalmat összevetette a tegnapival, és nem talált különbséget, a robot csak három nap múlva tér vissza hozzá.
ha ezúttal nem változik rajta semmi, akkor egy hét múlva jön stb.

Hogy. Idővel a robot látogatási gyakorisága ezen az oldalon megegyezik a frissítések gyakoriságával, vagy ahhoz hasonló lesz. Sőt, a robot visszatérési ideje a különböző helyszíneken percekben és években is mérhető.

Ezek azok az intelligens keresőmotorok, amelyek egyedi látogatási ütemtervet készítenek a különféle erőforrások különböző oldalaihoz. Lehetőség van azonban arra, hogy a keresőket arra kényszerítsük, hogy kérésünkre újraindexeljenek egy oldalt, még akkor is, ha semmi nem változott rajta, de erről egy másik cikkben.

A következő cikkben folytatjuk a keresés alapelveinek tanulmányozását, ahol megvizsgáljuk azokat a problémákat, amelyekkel a keresőmotorok szembesülnek, és figyelembe vesszük az árnyalatokat. Nos, és persze sok minden más, ami ilyen vagy olyan módon segít.

Sok sikert neked! Hamarosan találkozunk a blog oldalain

Lehet, hogy érdekel

Rel Nofollow és Noindex - hogyan lehet blokkolni az indexelést a Yandex és a Google által külső hivatkozások a weboldalon
Figyelembe véve a nyelv morfológiáját és a keresőmotorok által megoldott egyéb problémákat, valamint a magas frekvenciájú, közepes és alacsony frekvenciájú lekérdezések közötti különbséget
Webhely-bizalom – mi ez, hogyan mérhető az XToolsban, mi befolyásolja, és hogyan növelheti webhelye tekintélyét
SEO terminológia, mozaikszavak és zsargon
Relevancia és rangsor - mi ez, és milyen tényezők befolyásolják a webhelyek pozícióját a Yandex és a Google találatai között
Milyen keresőoptimalizálási tényezők befolyásolják a weboldal népszerűsítését és milyen mértékben?
Keresőoptimalizálás szövegek - a kulcsszavak optimális gyakorisága és ideális hossza
Tartalom az oldalhoz – hogyan segít egyedi és hasznos tartalommal feltöltése a modern weboldal népszerűsítésében
A metacímkék, a cím, a leírás és a kulcsszavak akadályozzák a promóciót
Yandex frissítések – mik ezek, hogyan lehet nyomon követni a melleket, a keresési eredmények változásait és minden egyéb frissítést

Az internetre sok felhasználónak szüksége van ahhoz, hogy választ kapjon a feltett kérdésekre (kérdésekre).

Ha nem lennének keresőmotorok, a felhasználóknak önállóan kellene keresniük a szükséges webhelyeket, emlékezniük kellene rájuk, és le kellene írniuk őket. Sok esetben nagyon nehéz lenne „manuálisan” találni valami megfelelőt, és gyakran egyszerűen lehetetlen.

Mindezt a rutinmunkát végezzük az információk keresésével, tárolásával és rendezésével a webhelyeken.

Kezdjük a híres Runet keresőmotorokkal.

Internetes keresők orosz nyelven

1) Kezdjük a hazai keresővel. A Yandex nemcsak Oroszországban, hanem Fehéroroszországban és Kazahsztánban, Ukrajnában és Törökországban is működik. Angolul is van Yandex.

2) Google kereső Amerikából érkezett hozzánk, orosz nyelvű lokalizációval rendelkezik:

3) Belföldi kereső Mail ru, amely egyidejűleg képviseli közösségi hálózat VKontakte, Odnoklassniki, My World, a híres Answers Mail.ru és más projektek.

4) Intelligens kereső

Nigma (Nigma) http://www.nigma.ru/

2017. szeptember 19. óta a nigma „értelmiségi” nem működik. Megszűnt az alkotóinak anyagi érdeke, átváltottak egy másik CocCoc keresőmotorra.

5) A jól ismert Rostelecom cég létrehozta a Szputnyik keresőt.

Van egy Sputnik nevű kereső, kifejezetten gyerekeknek készült, erről írtam.

6) A Rambler volt az egyik első hazai keresőmotor:

Vannak más híres keresőmotorok is a világon:

Bing,
Jehu!,
Baidu,
Ecosia,

Próbáljuk meg kitalálni, hogyan működik egy keresőmotor, nevezetesen, hogyan indexelhetők a webhelyek, hogyan elemezzük az indexelési eredményeket és hogyan generálnak keresési eredményeket. A keresőmotorok működési elve megközelítőleg megegyezik: információk keresése az interneten, tárolása és kézbesítésre történő rendezése a felhasználói kérések alapján. A keresőmotorok által használt algoritmusok azonban nagyon eltérőek lehetnek. Ezeket az algoritmusokat titokban tartják, nyilvánosságra hozataluk tilos.

Ha ugyanazt a lekérdezést beírja a különböző keresőmotorok keresősoraiba, különböző válaszokat kaphat. Ennek az az oka, hogy minden keresőmotor a saját algoritmusát használja.

A keresőmotorok célja

Először is tudnia kell, hogy a keresőmotorok kereskedelmi szervezetek. Céljuk a profitszerzés. Hasznos lehet a kontextuális hirdetésekből, más típusú hirdetésekből, valamint abból, hogy a szükséges webhelyeket a keresési eredmények tetejére helyezi. Általában sok módja van.

Ez a közönség nagyságától függ, vagyis attól, hogy hányan használják ezt a keresőt. Minél nagyobb a közönség, annál több embernek jelenik meg a hirdetés. Ennek megfelelően ez a reklám többe fog kerülni. A keresőmotorok saját hirdetéseik révén növelhetik közönségüket, valamint szolgáltatásaik minőségének, algoritmusaik és a keresés kényelmének javításával vonzzák a felhasználókat.

A legfontosabb és legnehezebb dolog itt egy teljesen működőképes keresési algoritmus kifejlesztése, amely a legtöbb felhasználói lekérdezéshez releváns eredményeket biztosítana.

A keresőmotor munkája és a webmesterek tevékenysége

Minden keresőmotornak megvan a maga algoritmusa, amelynek számos különböző tényezőt kell figyelembe vennie az információk elemzésekor és az eredmények összeállítása során, válaszul a felhasználó kérésére:

egy adott webhely kora,
webhely domain jellemzői,
az oldalon található tartalom minősége és típusai,
a navigáció jellemzői és a webhely szerkezete,
használhatóság (kényelem a felhasználók számára),
viselkedési tényezők (a keresőmotor meg tudja határozni, hogy a felhasználó megtalálta-e, amit keresett az oldalon, vagy a felhasználó újra visszatért a keresőbe, és ott ismét ugyanarra a kérdésre keres választ)
stb.

Minderre pontosan azért van szükség, hogy a felhasználó kérésére az eredmények a lehető legrelevánsabbak legyenek, kielégítve a felhasználó kéréseit. Ugyanakkor a keresőmotorok algoritmusai folyamatosan változnak és finomodnak. Ahogy mondani szokás, a tökéletességnek nincs határa.

Másrészt a webmesterek és optimalizálók folyamatosan új módszereket találnak ki webhelyeik népszerűsítésére, amelyek nem mindig őszinték. A keresőalgoritmus fejlesztőinek feladata, hogy olyan változtatásokat hajtsanak végre rajta, amelyek ne engedjék, hogy tisztességtelen optimalizálók „rossz” oldalai megjelenjenek a TOP-ban.

Hogyan működik a kereső?

Most pedig beszéljünk arról, hogyan is működik a kereső. Legalább három szakaszból áll:

szkennelés,
indexelés,
terjedő.

Az interneten található oldalak száma egyszerűen csillagászati. És minden oldal információ, információs tartalom, ami az olvasók (élő emberek) számára jön létre.

Szkennelés

Ez egy olyan keresőmotor, amely az interneten bolyongva új információkat gyűjt, linkeket elemez és olyan új tartalmakat keres, amelyek segítségével a felhasználó kérésére visszatérhet. A kereséshez a keresőmotorok speciális robotokkal rendelkeznek, amelyeket keresőrobotoknak vagy pókoknak neveznek.

A keresőrobotok olyan programok, amelyek automatikusan felkeresik a webhelyeket, és információkat gyűjtenek róluk. A feltérképezés lehet elsődleges (a robot először látogat meg egy új webhelyet). A webhelyről származó információk kezdeti összegyűjtése és a kereső adatbázisba való beírása után a robot bizonyos rendszerességgel látogatni kezdi az oldalait. Ha bármilyen változás történt (új tartalom került hozzáadásra, régi tartalom törlése), akkor ezeket a változásokat a kereső rögzíti.

A keresőpók fő feladata, hogy új információkat találjon, és elküldje a keresőmotornak a feldolgozás következő szakaszához, vagyis az indexeléshez.

Indexelés

A keresőmotor csak azon oldalak között tud információt keresni, amelyek már szerepelnek az adatbázisában (az általa indexelve). Ha a feltérképezés egy adott webhelyen elérhető információk keresésének és gyűjtésének folyamata, akkor az indexelés az a folyamat, amikor ezeket az információkat beviszik a keresőmotor adatbázisába. Ebben a szakaszban a kereső automatikusan eldönti, hogy ezt vagy azt az információt beírja-e az adatbázisába, és hova, az adatbázis melyik részébe írja be. A Google például szinte minden információt indexel, amit robotjai találtak az interneten, míg a Yandex válogatósabb és nem indexel mindent.

Az új webhelyek esetében az indexelési szakasz hosszú lehet, így a keresőmotorokból érkező látogatók sokáig várhatnak az új webhelyekre. A régi, jól reklámozott oldalakon megjelenő új információk pedig szinte azonnal indexelhetők, és szinte azonnal az „indexbe”, vagyis a kereső adatbázisába kerülnek.

Tartózkodás

A rangsor a korábban indexelt és egy adott kereső adatbázisába bevitt információk rangsor szerinti elrendezése, vagyis hogy a kereső először milyen információkat jelenít meg felhasználóinak, és milyen információkat helyez el. rang” alacsonyabb. A rangsor a keresőmotor-szolgáltatás szakaszának tulajdonítható ügyfelének - a felhasználónak.

A keresőszervereken a kapott információkat feldolgozzák, és a legkülönbözőbb lekérdezések széles köréhez generálnak eredményeket. Itt lépnek életbe a keresőmotor-algoritmusok. Az adatbázisban szereplő összes webhely téma szerint van osztályozva, a témák pedig lekérdezéscsoportokra vannak osztva. Minden egyes kéréscsoporthoz összeállítható egy előzetes kiadás, amelyet utólag korrigálunk.

Az internetes kereső definíció szerint egy információkereső rendszer, amely segít információt találni a világhálón. Ez megkönnyíti a globális információcserét. De az internet egy strukturálatlan adatbázis. Exponenciálisan növekszik, és az információk hatalmas tárházává vált. Az interneten információk keresése nehéz feladat. Szükség van egy eszközre az óceáni információk kezelésére, szűrésére és visszakeresésére. A kereső ezt a célt szolgálja.

Hogyan működik a kereső?

Az internetes keresőmotorok olyan motorok, amelyek információkat keresnek és lekérnek az interneten. A legtöbbjük bejáró indexelő architektúrát használ. Ezek a pályamoduljaiktól függenek. A bejárók, más néven pókok, olyan kis programok, amelyek weboldalakat térképeznek fel.

A feltérképező robotok felkeresik az URL-ek kezdeti készletét. Kibányászzák a feltérképezett oldalakon megjelenő URL-eket, és elküldik ezeket az információkat a bejáróvezérlő modulnak. A bejáró eldönti, hogy mely oldalakat keresse fel legközelebb, és megadja ezeket az URL-eket a bejáróknak.

A különböző keresőmotorok által lefedett témák az általuk használt algoritmusoktól függően változnak. Egyes keresőmotorok úgy vannak programozva, hogy egy adott témájú webhelyeken keressenek, míg mások feltérképező robotjai a lehető legtöbb helyet felkereshetik.

Az indexelő modul minden meglátogatott oldalról információkat nyer ki, és beírja az URL-t az adatbázisba. Ez egy hatalmas keresési táblázatot eredményez az információs oldalakra mutató URL-ek listájával. A táblázat a feltérképezés során lefedett oldalakat mutatja.

Az elemző modul egy másik fontos része a keresőmotor architektúrának. Létrehoz egy hasznossági indexet. Az index segédprogram hozzáférést biztosít adott hosszúságú oldalakhoz, vagy bizonyos számú képet tartalmazó oldalakhoz.

A feltérképezési és indexelési folyamat során a kereső eltárolja az általa letöltött oldalakat. Átmenetileg az oldaltárolóban tárolódnak. A keresőmotorok gyorsítótárat tartanak fenn az általuk meglátogatott oldalakról, hogy felgyorsítsák a már meglátogatott oldalak visszakeresését.

A keresőmotor lekérdező modulja kulcsszavak formájában fogadja a keresési lekérdezéseket a felhasználóktól. A rangsoroló modul rendezi az eredményeket.

A bejáróindexelő architektúrának számos változata van. Változnak az elosztott keresőmotor-architektúrában. Ezek az architektúrák gyűjtőkből és brókerekből állnak. A gyűjtők indexelési információkat gyűjtenek a webszerverekről, míg a brókerek biztosítják az indexelő motort és a lekérdező felületet. A brókerek a gyűjtőktől és más brókerektől kapott információk alapján indexelik a frissítést. Tudják szűrni az információkat. Manapság sok keresőmotor használja ezt a fajta architektúrát.

Keresőmotorok és oldal rangsorolása

Amikor létrehozunk egy lekérdezést egy keresőben, az eredmények meghatározott sorrendben jelennek meg. A legtöbben hajlamosak a felső oldalakat felkeresni, és figyelmen kívül hagyni az alsókat. Ennek az az oka, hogy úgy gondoljuk, hogy az első néhány oldal relevánsabb a lekérdezésünk szempontjából. Tehát mindenkit érdekel, hogy oldala a keresőmotorok legjobb tíz találata között szerepeljen.

A kereső lekérdező felületén felsorolt szavak a következők kulcsszavakat, amelyeket a keresőkben kértek. Ezek a keresett kulcsszavakhoz kapcsolódó oldalak listája. A folyamat során a keresőmotorok lekérik azokat az oldalakat, amelyeken gyakran előfordulnak ezek a kulcsszavak. Kapcsolatokat keresnek a kulcsszavak között. A kulcsszavak elhelyezése is számít, csakúgy, mint az ezeket tartalmazó oldalak rangsorolása. Az oldalcímekben vagy URL-ekben megjelenő kulcsszavak nagyobb súlyt kapnak. Azok az oldalak, amelyek linkjei mutatnak rájuk, még népszerűbbé teszik őket. Ha sok más webhely hivatkozik egy oldalra, az értékesnek és relevánsabbnak tűnik.

Van egy rangsorolási algoritmus, amelyet minden keresőmotor használ. Az algoritmus egy számítógépes képlet, amelyet arra terveztek, hogy releváns oldalakat biztosítson a felhasználó kérésére. Mindegyik keresőmotornak eltérő rangsorolási algoritmusa lehet, amely elemzi a motor adatbázisában lévő oldalakat, hogy meghatározza a keresési lekérdezésekre adott releváns válaszokat. A keresőmotorok eltérően indexelik a különböző információkat. Ez ahhoz a tényhez vezet, hogy egy konkrét kérés két különböző felé fordult keresőmotorok, különböző sorrendben töltheti le az oldalakat, vagy kérheti le a különböző oldalakat. Egy webhely népszerűsége olyan tényezők, amelyek meghatározzák a relevanciát. Egy webhely átkattintási népszerűsége egy másik tényező, amely meghatározza a rangját. Ez a webhely látogatási gyakoriságának mértéke.

A webmesterek megpróbálják becsapni a keresőmotor-algoritmusokat, hogy javítsák webhelyük rangsorát a keresési eredmények között. Weboldalak feltöltése kulcsszavakkal vagy metacímkék használata a keresőmotorok rangsorolási stratégiáinak megtévesztésére. De a keresők elég okosak! Javítják az algoritmusaikat, hogy a webmesterek machinációi ne befolyásolják a keresési eredményeket.

Meg kell értenie, hogy még a lista első néhány utáni oldala is pontosan azt az információt tartalmazhatja, amit keresett. De biztos lehetsz benne, hogy a jó keresőmotorok mindig az első helyen jelenítik meg a releváns oldalakat!

21.11.2017

Bármilyen kérdés is aggasztja a modern embert, nem a könyvekben keresi a választ. Az interneten keresi őket. Ezenkívül nem kell tudnia annak a webhelynek a címét, ahol a szükséges információ található. Több millió ilyen oldal létezik, és a kereső segít megtalálni a megfelelőt.

Hazai internetünk hatalmas területén a két legnépszerűbb kereső a Google és a Yandex.

Gondolkozott már azon, hogyan működik egy kereső? Hogyan érti meg, hogy melyik webhelyet mutassa meg, a több millió forrás közül melyikben van biztosan válasz a kérésére?

Mi az a kereső?

A kereső az hatalmas alap webdokumentumok, amely folyamatosan frissül és bővül. Minden keresőmotor rendelkezik keresőrobotokkal, amelyek speciális robotok, amelyek feltérképezik a webhelyeket, indexelik a rajtuk közzétett tartalmat, majd rangsorolják őket minőségük és a felhasználói keresési lekérdezések szempontjából való relevanciájuk szerint.

A keresőmotorok úgy működnek, hogy bárki bármilyen információt megtalálhat. Ezért igyekeznek először azokat a webes dokumentumokat bemutatni, amelyek a legrészletesebb választ tartalmazzák az ember kérdésére.

A keresőmotor lényegében webhelyek könyvtára, egy címtár, amelynek fő funkciója az információk keresése ebben a könyvtárban.

Ahogy fentebb írtam, két népszerű rendszerünk van - a Google (globális) és a Yandex (orosz nyelvű szegmens). De vannak olyan rendszerek is, mint a Rambler, a Yahoo, a Bing, a Mail.Ru és mások. A működési elve mindegyiknél hasonló, csak a rangsorolási algoritmusok térnek el (és akkor sem túl jelentősen).

Hogyan működik egy internetes kereső?

A keresőmotorok működésének elve nagyon összetett, de megpróbálom egyszerű szavakkal elmagyarázni.

Egy keresőrobot (pók) feltérképezi a webhely oldalait, letölti azok tartalmát és kivonja a hivatkozásokat. Ezután az indexelő megkezdi munkáját - ez egy olyan program, amely elemzi a pókok által letöltött összes anyagot, saját algoritmusaira támaszkodva.

Így létrejön egy kereső adatbázis, amelyben az algoritmus által feldolgozott összes dokumentumot tárolják.

A keresési lekérdezéssel való munka a következőképpen történik:

a felhasználó által bevitt lekérdezést elemzi;
az elemzési eredmények egy speciális rangsoroló modulba kerülnek át;
az összes dokumentum adatait feldolgozzák, kiválasztják a bevitt kérelem szempontjából legrelevánsabbakat;
egy részlet jön létre - a cím, leírás, a kérés szavai félkövérrel vannak kiemelve;
a keresési eredmények SERP (eredményoldal) formájában jelennek meg a felhasználó számára.

Hogyan működnek a keresők

Minden keresőmotor fő feladata, hogy a felhasználó kérésére a leghasznosabb és legpontosabb információkat nyújtsa. Ezért a keresőrobot folyamatosan feltérképezi a webhelyeket. Közvetlenül az indítás után, egy bizonyos ütemterv szerint, a pók meglátogatja Önt, feltérképez néhány oldalt, majd indexelve lesz.

A keresőmotorok működési elve két fő szakaszon alapul:

olyan oldalak feltérképezése, amelyeken keresztül adatokat gyűjtenek;
index hozzárendelése, melynek köszönhetően a rendszer gyorsan tud keresni egy adott oldal tartalmában.

A webhely oldalának indexelése után már megjelenik a keresési eredmények között egy adott keresési lekérdezés esetén. A Webmestereszközök segítségével ellenőrizheti, hogy egy új oldal szerepel-e a keresőmotor indexében. Például a Yandex.Webmasterben azonnal láthatja, hogy mely oldalak kerültek indexelésre és mikor, és mely oldalak estek ki az indexből és milyen okból.

De az, hogy melyik oldalra kerül, az az indexelés mértékétől és a tartalom minőségétől függ. Ha az Ön oldala a legpontosabb választ adja egy lekérdezésre, az magasabb lesz, mint az összes többi.

A weboldal rangsorolásának alapelvei a keresőkben

Rájöttünk, hogy a keresőrobotok milyen elven működnek. De hogyan rangsorolják a webhelyeket?

A rangsorolás két fő pilléren alapul - az oldal szöveges tartalmán és a nem szöveges tényezőkön.

Szöveges tartalom– ez az oldal kontextusa. Minél teljesebb, minél pontosabb, minél relevánsabb a kérés szempontjából, annál előrébb kerül az oldal a keresési eredmények között. Magán a szövegen kívül a kereső figyel a cím (oldalcím), leírás (oldalleírás), H1 (szövegcím) címkék kitöltésére.

Nem szöveges tényezők Ezek belső linkek és külső hivatkozások. A lényeg: ha az oldal érdekes és hasznos, akkor más tematikus források hivatkoznak rá. És minél több ilyen hivatkozás, annál hitelesebb az erőforrás.

De ezek a legalapvetőbb elvek, nagyon röviden. Haladjunk egy kicsit mélyebben.

Alapvetőweboldal rangsorolási tényezők

Számos tényező befolyásolja a webhely rangsorolását. A főbbek a következők:

1. Bbelső webhely-rangsorolási tényezők

Ez a szöveg az oldalon és annak kialakítása - alcímek, kiemelve a szöveg fontos pontjait. A belső linkelés itt is érvényes. Szintén fontos vizuális elemek: képek, fényképek, videók, grafikonok felhasználása. Maga a szöveg minősége és tartalma is fontos.

2. A webhely külső rangsorolási tényezői amelyek meghatározzák a népszerűségét. Ezek ugyanazok a külső hivatkozások, amelyek más forrásokból az Ön webhelyére vezetnek. Nem csak ezeknek az oldalaknak a számát határozzák meg, hanem a minőségüket is (kívánatos, hogy az oldalak témájuk hasonló legyen az Önéhez), valamint az általános minőségük link profil(milyen gyorsan jelentek meg ezek a linkek, természetesen vagy a tőzsdén történő vásárlás révén).

A fentiek alapján egy következtetést vonhatunk le: a keresőmotorok igyekeznek úgy működni, hogy azokat az oldalakat mutassák meg a felhasználónak, amelyek a legteljesebb választ adják a kérésére, és már kiérdemeltek egy bizonyos jogosultságot. Ebben az esetben számos tényezőt figyelembe vesznek: a webhely tartalmát, beállításait és a felhasználók hozzáállását. A minden szempontból jó weboldal minden bizonnyal előkelő helyen szerepel a keresési eredmények között.