tévék. Konzolok. Projektorok és tartozékok. Technológiák. Digitális TV

29 technológia az információkereséshez az interneten. Az internet óriási ütemben növekszik, és nem túl könnyű megtalálni az adott felhasználó számára szükséges információkat. De lehetséges, mivel vannak olyan források az interneten, amelyek segítenek abban, hogy ne fulladjon bele az információk óceánjába és


A téma tanulmányozása után megtanulja és megismétli:

Mire valók a keresőszerverek?
- a keresőszerverek fő részeinek célja;
- milyen típusú információkeresés létezik az interneten;
- a lekérdezés létrehozásának alapvető szabályai a Yandex keresőmotorban.

Keresés URL alapján

Az interneten történő információkeresés leggyorsabb és legmegbízhatóbb módja az URL szerinti keresés. Sokukat nyomtatott kiadványokban, speciális kézikönyvekben mutatják be, és hallják a népszerű rádióállomásokon és a tévéképernyőkön.

♦ A Zenit futballklub szurkolói fejből tudják a www.fc-zenit.ru címet.
♦ A „The King and the Jester” csoport rajongói jól ismerik a csoport hivatalos weboldalát: www.korol.spb.ru.
♦ Az NTV csatorna rajongói könnyen megtalálhatják weboldalát a www.ntv.ru címen. Mert gyors hozzáférés A fenti források eléréséhez egyszerűen indítson el például egy böngészőprogramot internet böngésző, és tárcsázza egy barátját URL-cím a címsorban.

Kereső motorok

Hatalmas mennyiségű dokumentum koncentrálódik az interneten. A szükséges információk könnyebb megtalálása érdekében speciális keresőmotorokat hoznak létre.

Kereső motorok- Ezt automata rendszerek, lekérdező szerverek kapcsolódnak a globális hálózathoz, és adatbázisukban tárolják a szervereken elérhető adatokkal kapcsolatos információkat. Egy speciálisan összeállított lekérdezés alapján a keresők tájékoztatást adnak arról, hogy hol szerezheti be a szükséges adatokat.

A keresőmotorok általában három részből állnak: robot, index és lekérdezés feldolgozó program.

Robot (pók, robot vagy bot) egy olyan program, amely felkeresi a weboldalakat, és elolvassa (teljesen vagy részben) azok tartalmát. A keresőrobotok a weboldal tartalmának elemzésére szolgáló egyéni sémájukban különböznek.
Keresőmotor indexe a robotok által meglátogatott oldalak keresési képeinek tárháza. A dokumentum keresőképe (beleértve a weboldalt is) a dokumentum tartalmának leírása egy speciális információkereső nyelven. Ez a leírás a dokumentumok jelentését és tartalmát tükröző kulcsszavak kódjait tartalmazza. Az egyes keresőmotorokban található indexek a tárolt információk mennyiségében és rendszerezési módjában különböznek. A vezető keresők adatbázisai több tízmillió dokumentumról tárolnak információkat, indexük pedig több száz gigabájtot tesz ki. Az indexeket időszakonként frissítjük és kiegészítjük, így az azonos lekérdezéssel rendelkező keresőmotorok eredményei eltérhetnek, ha a keresés különböző időpontokban történt.

Kérjen feldolgozási programot egy olyan program, amely a felhasználó kérésének megfelelően az indexen keresztül „keresi” a szükséges információk meglétét, és visszaküldi a talált dokumentumokra mutató hivatkozásokat. A rendszer kimenetén lévő hivatkozások halmazát a program a relevancia csökkenő sorrendjében osztja el, vagyis a hivatkozás legnagyobb megfelelési fokától a legkevesebbig.

Jelenleg az orosz internetfelhasználók körében a legnépszerűbb három nagy index típusú keresőmotor:

Ezek a rendszerek figyelembe veszik az orosz nyelv nyelvtani sajátosságait, így az orosz nyelvű forrásokban végzett keresésük eredményei jobban eltérnek. jó minőség mint a nyugati rendszerek.

A keresőmotorok lefedettsége eltérő információs források:

♦ az általános keresőmotorok minden tudásterületen adatbázissal rendelkeznek, és kiterjedt indexükkel és nagy mennyiségű felhalmozott információval különböztethetők meg;
♦ A speciális célú keresőmotorok csak egy adott témájú oldalakat néznek meg, például zenét vagy múzeumokat.

A keresőmotorok főbb jellemzői:

♦ az indexben szereplő dokumentumok mennyisége;
♦ az információfrissítés gyakorisága;
♦ a keresőrobot által lefedett információs tér és a különféle típusú dokumentumok, amelyekről információkat gyűjtenek;
♦ kérés feldolgozási sebessége;
♦ a relevancia meghatározásának kritériuma (a talált dokumentum megfelelése a keresési lekérdezésnek);
♦ a kérés részletezésének és pontosításának képessége.

Keresés keresőmotor kategória szerint

A keresési könyvtárak más internetes forrásokra mutató hivatkozások szisztematikus gyűjteménye (kijelölése). A hivatkozások egy tematikus rubrikátorba vannak rendezve, ami egy hierarchikus struktúra, amelyen keresztül mozogva megtalálhatja a szükséges információkat.

Példaként hozzuk fel a Yandex internetes keresőkatalógus felépítését. Ez egy könyvtár Általános rendeltetésű, mivel szinte minden lehetséges területen tartalmaz hivatkozásokat az internetes forrásokhoz. Ebben a katalógusban a következő témák kerülnek kiemelésre:

♦ Üzleti és gazdasági;
♦ Könyvtárak és hivatkozások;
♦ Társadalom és politika;
♦ Otthon és család;
♦ Tudomány és oktatás;
♦ Szórakozás és kikapcsolódás;
♦ Számítógépek és kommunikáció;
♦ Kultúra és művészet.

Minden téma számos alfejezetet tartalmaz, ezek pedig címsorokat stb.

Tegyük fel, hogy a Győzelem Napjára készül egy eseményre, és meg akarja találni az interneten Bulat Okudzhava híres katonadalának „Hallod a csizmák csörgését” szavait. A keresés a következőképpen szervezhető: Yandex katalógus Kultúra és művészet Zene Szerző dala.

Ez a keresési módszer meglehetősen gyors és hatékony. A végén mindössze 5 hivatkozást kínálnak, amelyek között vannak linkek a híres bárdok dalait tartalmazó webhelyekre. Nincs más hátra, mint megkeresni a honlapon az archívumot B. Okudzhava dalainak szövegeivel, és kiválasztani belőle a kívánt szöveget.

Egy másik példa. Tegyük fel, hogy vásárolni fog mobiltelefonés szeretné összehasonlítani a különböző cégek készülékeinek jellemzőit. A keresés a következő katalóguscímek szerint végezhető el: Yandex katalógus Számítógépek és kommunikáció mobil kapcsolat Mobiltelefonok.

A korlátozott számú link beérkezése után a cégek jellemzőit és a készülékek módosításait megvizsgálva gyorsan megtekintheti és kiválaszthatja a telefont.

Keresés kulcsszavak alapján

A legtöbb keresőmotor képes kulcsszó alapján keresni. Ez az egyik leggyakoribb keresési típus. Ha kulcsszavakkal szeretne keresni, egy speciális ablakban be kell írnia a keresett szót vagy több szót, majd kattintson a Keresés gombra. A keresőmotor megtalálja és megjeleníti ezeket a szavakat tartalmazó dokumentumokat az adatbázisában. Sok ilyen dokumentum lehet, de sok benne ebben az esetben nem feltétlenül jelent jót.

Végezzünk el néhány kísérletet bármelyik keresőmotorral. Tételezzük fel, hogy úgy döntünk, hogy akváriumot indítunk, és minden információ érdekel minket ebben a témában.

Első pillantásra a legegyszerűbb az „akvárium” szóra keresni. Ellenőrizzük ezt például a Yandex keresőjében. A keresés eredménye több mint 460 000 oldal lesz 3500 webhelyen – rengeteg link. Sőt, ha jobban megnézzük, közöttük lesznek olyan oldalak, amelyek megemlítik B. Grebenscsikov „Akvárium” csoportját, bevásárlóközpontokat és azonos nevű informális egyesületeket, és még sok mást, aminek semmi köze az akváriumi halakhoz.

Nem nehéz kitalálni, hogy egy ilyen keresés még a legigénytelenebb felhasználót sem tudja kielégíteni. Túl sok időt kell majd fordítani arra, hogy a javasolt dokumentumok közül kiválasztjuk azokat, amelyek a számunkra szükséges témához kapcsolódnak, és még inkább a tartalmuk megismerésére.

Rögtön megállapíthatjuk, hogy az egy szóval való keresés általában nem praktikus, mert egy szó használatával nagyon nehéz meghatározni, hogy egy dokumentum, weboldal vagy webhely melyik témának szól. Kivételt képeznek a ritka szavak és kifejezések, amelyeket szinte soha nem használnak a tematikus területükön kívül.

Próbáljuk meg tisztázni a keresési feltételeket, és írjuk be az „akváriumi halak” kifejezést. A keresés eredménye valamivel több mint 20 000 oldal és körülbelül 650 webhely lesz. Mint látható, a linkek száma több mint 20-szorosára csökkent. Ez az eredmény jobban megfelel nekünk, de a javasolt linkek között továbbra is lehetnek például halak képével ellátott gyufacímkék orosz szuvenír készletei, képernyővédők gyűjteményei a számítógép asztalára, valamint akváriumi halak katalógusai fényképekkel és akváriumi kiegészítők üzletek.

Nyilvánvaló, hogy tovább kell haladnunk a keresési feltételek tisztázása felé.

A keresés eredményesebbé tétele érdekében minden keresőmotor rendelkezik saját szintaxissal rendelkező speciális lekérdezési nyelvvel. Ezek a nyelvek sok tekintetben hasonlóak. Elég nehéz mindegyiket tanulmányozni, de bármelyik keresőmotor megteszi súgórendszer, amely lehetővé teszi a kívánt nyelv elsajátítását.

Íme tíz egyszerű szabály a lekérdezés létrehozásához a Yandex keresőmotorban.

1. A lekérdezésben szereplő kulcsszavakat kisbetűvel (kis) kell írni. Ez biztosítja, hogy mindenki megtalálható legyen kulcsszavakat, és nem csak azokat, amelyek nagybetűvel kezdődnek.

2. A keresés során a szó minden formáját figyelembe veszik az orosz nyelv szabályai szerint, függetlenül a lekérdezésben szereplő szó formájától. Például, ha a „tudom” szó szerepel a lekérdezésben, akkor a „tudjuk”, „tudod” stb. szavak is kielégítik a keresési feltételt.

3. Ha stabil kifejezést szeretne találni, tegye idézőjelbe a szavakat, például: „porcelán edények”.

4. A pontos szóforma szerinti kereséshez a szó elé kell tenni Felkiáltójel. Például, ha a „szeptember” szóra keresi a származási kisbetűt, a „!Szeptember” kifejezést kell írnia.

5. Egy mondaton belüli kereséshez a lekérdezésben szereplő szavak szóközzel vagy & jellel vannak elválasztva: „kalandregény” vagy „kalandregény”. A lekérdezésben több szóközzel elválasztott szó azt jelenti, hogy mindegyiknek szerepelnie kell a keresett dokumentum egy mondatában.

6. Ha csak azokat a dokumentumokat szeretné kijelölni, amelyek a lekérdezésben megadott szavakat tartalmazzák, tegyen mindegyik elé egy plusz jelet. Ha éppen ellenkezőleg, bármilyen szót ki szeretne zárni a keresési eredményből, tegyen mínusz „-” jelet a szó elé. A „+” és „-” jeleket az előzőtől szóközzel elválasztva és a következő szóval együtt kell írni. Például a „Volga-car” lekérdezés olyan dokumentumokat talál, amelyek a „Volga” szót tartalmazzák, és nem az „autó”.

7. Ha szinonimákat vagy hasonló jelentésű szavakat keres, függőleges sávot helyezhet el a szavak közé. Például a „gyermek | baba | baba" dokumentumokat, amelyek ezen szavak bármelyikét tartalmazzák.

8. Egy lekérdezésben egy szó helyett egy teljes kifejezést is helyettesíthet. Ehhez zárójelbe kell tenni, például: "(gyermek | baba | gyerekek | baba) + (gondozás | oktatás)."

9. A *~" (tilde) jel lehetővé teszi, hogy olyan dokumentumokat találjon, amelyekben az első szó szerepel, de a második nem. Például a „books ~ store” lekérdezés minden olyan dokumentumot megtalál, amely a „books” szót tartalmazza, amely mellett (a mondaton belül) nincs „áruház” szó.

10. Ha az operátor egyszer megismétlődik (például & vagy ~), a keresés a mondaton belül történik. A kettős operátor (&&, -) a dokumentumon belüli keresést határozza meg. Például a „rák – asztrológia” lekérdezés olyan „rák” szót tartalmazó dokumentumokat talál, amelyek nem kapcsolódnak az asztrológiához.

A leggyakrabban használt kifejezések egy bizonyos készletével rendelkezik kívánt területet, használhatja a speciális keresést. ábrán. A 3.3. ábra a Yandex keresőmotor speciális keresési ablakát mutatja. Ebben a módban a lekérdezési nyelv képességei űrlap formájában valósulnak meg. Hasonló szolgáltatást, beleértve a szótárszűrőket is, szinte minden keresőmotor kínálja.

Rizs. 3.3. Példa egy speciális keresésre a Yandex rendszerben

Tekintettel arra a helyes választás a kívánatos és kötelező szavak és a nemkívánatos kifejezések kizárása esetén egy ilyen keresés jó eredményeket adhat.

Térjünk vissza az akváriumi halakkal kapcsolatos példához. A keresőmotor által kínált számos dokumentum elolvasása után világossá válik, hogy az internetes információkeresést nem szabad az akváriumi halak kiválasztásával kezdeni. Az akvárium egy összetett biológiai rendszer, melynek létrehozása és karbantartása speciális tudást, időt és komoly befektetést igényel.

A kapott információk alapján az interneten kereső személy gyökeresen megváltoztathatja a további keresés stratégiáját, ha úgy dönt, hogy tanulmányozza a vizsgált témához kapcsolódó szakirodalmat.

Irodalom vagy teljes szövegű dokumentumok kereséséhez a következő lekérdezés lehetséges:

"+(akvárium | akvarista | akváriumi hobbi) + kezdőknek + (tanácsok | irodalom) + (cikk | szakdolgozat | teljes szöveg) - (ár | bolt | szállítás | katalógus)."

A kérés keresőmotor általi feldolgozását követően a következő eredményt kaptuk: oldalak - 195, webhelyek - legalább 43.

Amint az a keresési statisztikákból látható, az eredmény nagyon sikeres volt. Már az első linkek a szükséges dokumentumokhoz vezetnek:

Akvárium elhelyezése > Tippek kezdő akvaristának >
Cikkek > Aq uascope. ru
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32KB) – szigorú betartás.
TANÁCSOK KEZDŐ AKVÁRIUMOSOKNAK. Hogyan válasszunk és telepítsünk akváriumot, hogyan...
http://www.aquariums.ru/sovna.htm (2KB) 2002.07.23. – nem szigorú megfelelés.

Most összefoglalhatja a keresési eredményeket, levonhat bizonyos következtetéseket, és dönthet a lehetséges intézkedésekről:

♦ Hagyja abba a további keresést, mert különböző okok miatt nem tudja fenntartani az akváriumot.
♦ Olvassa el a javasolt cikkeket, és kezdje el az akvárium felállítását.
♦ Keressen anyagokat hörcsögökről vagy törpepapagájokról.

Professzionális keresés

A kutatóknak és a szakembereknek átgondoltabban kell megszervezniük a keresést. Nál nél professzionális keresés Az internetes információnak meg kell felelnie a következő követelményeknek:

Magassebesség keresés lefolytatása;
♦ a kapott információk megbízhatósága;
♦ az erőforrások teljes lefedettsége a keresés során.

Sebesség. A keresés sebessége elsősorban két tényezőtől függ: a hozzáértő keresés tervezésétől (kiválasztás keresési szolgáltatásokés eszközök) és készségek egy már kiválasztott erőforrással való munkavégzéshez (az a képesség, hogy gyorsan megértsük annak szerkezetét és navigációs módszereit). A keresési indexek nem elegendőek a keresés sebességének biztosításához. Rajtuk kívül számos keresési forrás található az interneten, amelyek használata biztosítja a professzionális keresést.

Hitelesség. Az internetről kapott információk megbízhatóságának kérdése nagyon aktuális, hiszen ott bárki bármilyen információt közzétehet anélkül, hogy ellenőrizné a valóságnak való megfelelést. Ez viszont nagyszámú megbízhatatlan forráshoz vezet, mint például az esszék és a kurzusok, amelyek elárasztják az internetet.

Vannak speciális keresési szolgáltatások, amelyek lehetővé teszik az internetes információforrás megbízhatóságának felmérését.

Teljesség. Szükséges feltétel A sikeres, teljes körű információgyűjtés a ma létező főbb erőforrástípusok ismerete és a különböző keresőszolgáltatások használata. Egyetlen kereső sem képes lefedni az összes internetes forrást.

A pozitív eredmény eléréséhez a felhasználónak általában több keresőmotor szolgáltatásait kell igénybe vennie. Ezt megteheti saját maga, rendszerről rendszerre haladva, vagy rábízhatja ezt a munkát valamelyik metakeresőre (a meta az első összetevő rendszereket jelölő összetett szavak más rendszerek leírására és tanulmányozására).

Rizs. 3.4. Metakereső motor ablakai

A metakeresőknek nincs saját keresőadatbázisuk, és sok más keresőmotor erőforrásait használják fel a kereséshez. Emiatt nagyon nagy a valószínűsége a szükséges információk megtalálásának. A metakereső rendszerekben végzett munka ugyanazon szabályok szerint történik, mint a keresőmotorokban. Ez annak köszönhető, hogy a metakeresők a keresőmotorok egyfajta kiegészítői, és az index adatbázisaikat használják munkájuk során. A metakereső motorok megjelenése hasonló kinézet híres keresőmotorok. ábrán. A 3.4 a myweb.ru és a metabot.ru metakereső ablakait mutatja.

A tapasztalat azt mutatja, hogy a legtöbb esetben jobb eredmény érhető el több független keresőindex használatával, mint egyetlen metakereső használatával.

Tesztkérdések és feladatok

1. Mi a célja egy böngészőprogramnak?

2. Milyen böngészőprogramokat ismer?

3. Hol találhat URL-eket a webkereső?

4. Mi a technológia a keresőmotor rubrikátorával történő kereséshez?

5. Mi a kulcsszavas keresés technológiája?

6. Milyen követelményeknek kell megfelelni az interneten történő szakszerű információkeresés során?

7. Mikor kell a „+” vagy „-” jeleket megadni a keresési feltételek között?

8. Milyen keresési feltételeket határoz meg a következő kifejezés a Yandexben:

(dada | tanár | nevelőnő) ++ (gondozás | nevelés | felügyelet).

9. Mit jelent az előjel megduplázása (∼∼ vagy ++) összetett lekérdezés létrehozásakor?

10. Mi a keresési relevancia?

11. Mi a metakereső motorok célja?

ELŐADÁS 6. FELHASZNÁLÓI INFORMÁCIÓÁRAMLÁS KIALAKÍTÁSA, KEZELÉSE ÉS VÉDELME AZ INTERNETES VIRTUÁLIS KÖRNYEZETBEN

  1. Információkeresési módszerek.
  2. Információ keresése itt a közösségi hálózatokon.
  3. Információkeresés keresőmotorok segítségével.
  4. Felhasználói információáramlás kialakítása RSS technológiák segítségével.
  5. Felhasználói információáramlás kialakítása levelezési szolgáltatások segítségével.

INFORMÁCIÓKERESÉSI MÓDSZEREK

A megbízható információk megtalálásának problémája az egyik legégetőbb probléma modern társadalom. Önmagában az a tény, hogy az emberi tudás hatalmas rétegét tárolják az internet virtuális terében, nem garantálja az információkeresés hatékonyságát és megbízhatóságát. Még akkor is, ha a keresett információ kényelmes formában jelenik meg, végső soron a személyen múlik, hogy elsajátítsa azt. Munkájának eredményessége és minősége pedig attól függ, mennyire sajátítja el a megbízható információkeresés módszereit.

Az információkeresés szakaszai

Az első szakasz az információigénylés megfogalmazása és pontosítása. Ez a szakasz hagyományosan vezető szerepet tölt be. A talált információforrások későbbi kiválasztása a kérés helyes megfogalmazásától függ. Ebben a szakaszban tanácsos:

Kérelem megfogalmazása természetes nyelven;

Az információkeresés céljának meghatározása;

A szükséges keresési korlátozások meghatározása;

A tájékoztatáskérés végső megfogalmazása.

Az információkeresés céljának meghatározása, amely lehetővé teszi az információk megkívánt teljességének fokát, ami a keresők kiválasztását is befolyásolja. Az információkeresés hagyományosan egymással ellentétes céljai az:

A probléma előzetes megismertetése;

A probléma alapos tanulmányozása.

Az információkeresés szokásos célja általában valahol e két véglet között van, vagyis a felhasználónak szüksége van némi információra, de nincs szüksége az információk abszolút teljességére.

A fő korlátozások hagyományosan a következők: a kiadványtípusokra, a kiadványok nyelvére, a földrajzi és kronológiai keresési körre vonatkozó korlátozások. Ezért egyértelműen tisztázni kell:

Információ, hogy mely források érdeklik a felhasználót (cikkek, monográfiák, konferencia anyagok stb.);

Milyen nyelven?

Mi a keresés földrajzi hatóköre;

Mi a keresés kronológiai hatóköre?

Az információigénylés véglegesítéséhez a keresendő információ átfogó lexikális elemzését kell elvégezni. A felhasználónak valamilyen forrásból részletes és hozzáértő leírást kell szereznie a vizsgált kérdésről. Ilyen forrás lehet egy nagyon speciális kézikönyv vagy egy általános enciklopédia. A tanulmányozott anyag alapján a lehető legtöbbet kell megfogalmazni kulcsszavak széles választéka egyedi kifejezések, kifejezések, szakmai szókincs és klisék formájában, szükség esetén több nyelven is.

A keresési eljárás tervezési szakaszának fő célja a keresési probléma racionális megoldásának módjai és eszközei meghatározása. Ez magában foglalja a fejlesztést általános program keresés. Ezzel párhuzamosan történik a keresőmotorok kiválasztása és minőségének értékelése, valamint a hiányzó információk felkutatása.

A keresőmotorok kiválasztását és minőségi értékelését a valós információs igényeknek és a kérés sajátosságainak való megfelelés szempontjából kell elvégezni. Minden felhasználónak sajátos követelményei vannak, amelyek befolyásolják a keresőmotor kiválasztását, annak tartalmát és képességeit. A kereső kiválasztásakor a következő paraméterekre kell figyelni: a keresőindex mennyisége, a benne található információk minőség-ellenőrzése és a lekérdező nyelvek lehetőségei.

A keresési taktikák és eszközök jelentősen eltérhetnek attól függően nem csak a témában, hanem egyéb kérési paraméterekben is. Itt számos általános irányelvet kell követnie.

Például a keresés jellegét teljes mértékben a felhasználó által feltett keresési feladat tartalma határozza meg. Ezzel kapcsolatban pedig fontos megkülönböztetni, hogy a keresés eleinte mintegy a témához és tervének részletes, átfogó kidolgozásának céljához kötődik, amikor is az információforrások széles körű lefedettsége különösen szükséges.

Következésképpen először nagyobb az információforrások (vagyis a dokumentumkészletek) keresése. És csak ezután kerül meghatározásra az információkeresés, és csak a megoldandó keresési probléma közvetlen tartalmára korlátozódik. Ebben a szakaszban maguknak a dokumentumoknak a keresése dominál.

Természetesen a keresési folyamat során kombinálnia kell különböző fajtákés a keresési módszerek két fő irányban: egyrészt az általános osztályozó keresőktől a tárgyorientált forrásindexekig, majd a konkrét dokumentumokig és az azokban foglalt tényekig; másrészt az egyedi lekérdező szavaktól és kifejezésektől a tárgyspecifikus forráskeresőkig és/vagy konkrét dokumentumokig.

A keresési probléma végső megoldása. Ide tartozik a megoldásához szükséges eszközök elkészítése is.

Ebben a szakaszban végre kell hajtani következő lépések:

Információs forráskészlet kiválasztása a keresési témában;

Keresés lebonyolítása információs forrásokban;

Az információk teljességének értékelése;

Az információs források körének bővítése.

Az információs forráskészlet kiválasztásának szakaszában keresést hajtanak végre a keresési témában a tervezési szakaszban kiválasztott keresőmotorok csoportjában. A keresés elvégezhető a konkréttól az általánosig és az általánostól a konkrétig. Ennek eredményeként létrejön az információforrások listája, amelyek információkat tartalmazhatnak a témával kapcsolatban. Az információs források listája úgy van megtervezve, hogy a források egymást kiegészítve az előre meghatározott keresési korlátoknak megfelelően maximálisan fedjenek le egy adott témáról szóló információt. Ha túl szűk a körük, előfordulhat, hogy a keresési eredmények nem lesznek kielégítőek, ha pedig túl szélesek, akkor a keresési erőfeszítés megnő.

Ebben a szakaszban egyértelműen meg kell határozni, hogy mi ismert a keresett információról, és mi az, ami ismeretlen, de ki kell deríteni. Például ismert lehet az érdeklődésre számot tartó tárgy neve információs Központ, de az URL-címe ismeretlen. Ezért a hiányzó információk megtalálásához lekérdezések listáját kell létrehozni. Ez a lista az azonosított kulcsszavak és a rendelkezésre álló erőforrás-információk alapján jön létre.

Javasoljuk, hogy a hiányzó hivatkozásokat a forrásleírásban (metaadatokban) keresse kereső és metakereső segítségével. Ha azonban semmit sem tudunk a keresett forrásokról, célszerű osztályozó keresőmotorokhoz vagy speciális szótári keresőrendszerekhez fordulni. Ha a felhasználó nem szakértő ezen a területen, vegye fel a kapcsolatot a tudományos minőségellenőrzéssel rendelkező osztályozó keresőmotorokkal (információs átjárókkal).


Kapcsolódó információ.


Rendkívül fontos feladat az EDS-ben és az elektronikus dokumentumkezelési technológiákban történő dokumentumkeresés problémájának megoldása. Ezen túlmenően a menedzsment folyamatban használt internetes információk keresése is szükséges feladat, ezért a következőkben a keresők felépítésének sajátosságait vesszük figyelembe.

Dokumentumrendszerek: információkereső nyelv, indexelő rendszer, adatfeldolgozási technológia, kereső, dokumentumrendszerek értékelési szempontjai

A modern információs rendszerek működése két feltételezésen alapul:

  • 1) a felhasználó által igényelt dokumentumokat egy bizonyos jellemző vagy jellemzők kombinációja egyesíti;
  • 2) a felhasználó megadhatja ezt az attribútumot.

Mindkét feltevés nem teljesül a gyakorlatban, és csak a teljesülésük valószínűségéről beszélhetünk. Ezért az információkeresés folyamata általában olyan lépések sorozatát jelenti, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, és lehetővé teszik annak teljességének felmérését. Ugyanakkor a felhasználói magatartást, mint a keresési folyamat irányításának szervező kezdetét, nemcsak az információigény, hanem a rendszer által biztosított stratégiák, technológiák és eszközök sokfélesége is motiválja.

A felhasználó általában nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres. Ki tudja értékelni a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét, ha további információkat talál, vagy a folyamatot úgy szervezi meg, hogy a keresési eredmények egy része egy másik rész megfelelőségét megerősítse vagy cáfolja. . A professzionális felhasználókat ugyanakkor stabil tematikus profil jellemzi. Amikor „információorientáltak”, akkor a probléma információs terének megszervezésére való törekvés és képesség jellemzi őket. Ez azt jelenti, hogy a felhasználó egy lényegében új, „független” problémaorientált, egyedileg frissített és feltöltött IR-t hoz létre, amely a dokumentumgyűjtemények mellett metainformációkat is tartalmaz, például speciális terminológiai szótárakat, tantárgyi osztályozókat. , erőforrások leírása stb.

A felhasználó „önkiszolgáló” üzemmódban végzett munkájának sajátossága, az aggregált tevékenységek automatizálásának feladatkörében azt jelenti, hogy a rendszernek olyan környezetet kell biztosítania, amely támogatja a fogyasztó funkcióit a talált információk feldolgozásához, pl. valamint az információközvetítő funkcióihoz hagyományosan kapcsolódóak (kérés értelmezése, információkereső nyelvre fordítása, IR választás, automatizált keresés és anyagok manuális kiválasztása), de olyan „támogató” funkciók is, mint: információ strukturálása. igények, egy lekérdezés lexikális adaptálása, keresési eredmények értékelése, rendszerezése és feldolgozása, mind különálló dokumentum, mind általában információs források szintjén. Technikai képességek, amellyel a felhasználó rendelkezik, lehetővé teszi számára, hogy információforrást hozzon létre - tömböket képezzen, rendszerezze és külső reprezentációkat hozzon létre saját vagy külső használatra.

Az automatizált információs rendszerek (AIPS) számítógépes szoftver- és hardvereszközöket és technológiákat használnak, és arra irányulnak, hogy meghatározott kritériumok szerint információkat találjanak és nyújtsanak a felhasználóknak. A következő két tényező döntő a keresési automatizálási módszerek megértéséhez:

  • 1) nem magukat a tárgyakat hasonlítják össze, hanem a leírásokat - az úgynevezett keresési képeket;
  • 2) maga a folyamat összetett (összetett és nem egylépéses), és általában műveletek sorozatával valósítják meg.

Az adatok speciálisan kifejlesztett beviteli formátumok alapján kerülnek bevitelre az AIPS-be. Az információkereső rendszerben egy objektumra vonatkozó összes információ rendszerezett adat formájában jelenik meg, amely a tábla egy sorát alkotja, és rekordnak nevezzük. Továbbá, ha az I PS egy könyvtár elektronikus katalógusát jelöli, akkor egy dokumentum bármely bibliográfiai leírása (BD) egy rekord, amely a BD elemek számával megegyező mezőkből áll. A rekordok gyűjteménye adatbázist képez, amelyet általában egy fájlban tárolnak. Egy adatbázis-kezelő rendszer által egyesített adatbázisok egy adatbankot alkotnak.

Mivel az AIPS egy olyan eszköz, amelyet az ember használ kereséskor (és nem egy intelligens gép információ keresésére), kész megoldások főtevékenység feladatai), használatának hatékonysága attól függ, hogy egy személy mennyire ismeri a műveleti objektumok természetét és annak az eszköznek a tulajdonságait, amelyen keresztül ezekkel az objektumokkal dolgozik.

Az információkeresés bizonyos stratégiák, módszerek, mechanizmusok és eszközök alkalmazását jelenti. A keresési folyamatot irányító felhasználó viselkedését nemcsak az információigény határozza meg, hanem a rendszer műszeres sokszínűsége - a rendszer által biztosított technológiák és eszközök.

A keresési stratégia a rendszer vagy a felhasználói viselkedés általános terve (koncepció, preferencia, beállítás) a felhasználó információs szükségleteinek kifejezésére és kielégítésére, amelyet mind a cél és a keresés típusa, mind a rendszer „stratégiai” döntései határoznak meg – adatbázis-architektúra. , keresési módszerek és eszközök egy adott AIPS-ben. A stratégia kiválasztása általános eset optimalizálási probléma. A gyakorlatban ezt nagymértékben meghatározza a gyakorlati igények és a rendelkezésre álló eszközök lehetőségei közötti kompromisszum művészete.

A keresési módszer modellek és algoritmusok összessége az egyes technológiai szakaszok megvalósításához: keresési lekérdezés képének (SQI) felépítése, dokumentumkiválasztás (keresési lekérdezés képek és dokumentumok összehasonlítása), lekérdezés bővítése és újrafogalmazása, az eredmények lokalizálása és kiértékelése. A kérés keresőképe olyan idegen nyelven írt szöveg, amely kifejezi az információigénylés szemantikai tartalmát, és tartalmazza az információkeresés leghatékonyabb megvalósításához szükséges utasításokat. Keresési módszerek, pl. a dokumentumok egy olyan részhalmazának azonosítása, amelyek potenciálisan tartalmazzák a dokumentum-kiválasztási (DS) probléma megoldásának leírását, a megoldás keresésének folyamatát tükrözi, és a probléma természetétől és a témakörtől függ. Ma három keresési modellt használnak és fejlesztenek aktívan.

  • 1. Vektoros modell. A legelső modell, amely ma minden rendszerben jelen van, a vektorkereső modell. J. Salton találta fel a 60-as években. A legtöbb gép azon az elven működik, hogy minden lekérdezési kifejezés egy releváns dokumentumban szerepel, figyelembe véve azok előfordulását a dokumentumokban és átlagos nyelvi gyakoriságukat. Ezt a modellt a természetes nyelvű lekérdezések feldolgozásakor használják, különösen a webhelyek keresési oldalain; hasonló dokumentumok keresésére is szolgál.
  • 2. Logikai modell. Aktívan használják a logikai keresési modellt, amely lehetővé teszi logikai operátorok beírását a lekérdezésbe, kontextuális korlátozásokat a szavak közötti távolságra, elágazó hatékony lekérdezéseket, stopszótár használatát és a szkriptnyelvek reguláris kifejezéseihez hasonló lexikai sablonokat. Professzionális rendszerek a felsoroltakon kívül alapmodellek keresést biztosít egy fuzzy logikai keresési modell segítségével, amely lehetővé teszi a keresőmotor számára, hogy relevánsnak ítélt dokumentumokat jelenítsen meg, még akkor is, ha néhány "gyenge" lekérdezési elem nem található bennük.
  • 3. Keresés a szinonimaszótár segítségével. A szemantikus kereséshez széles körben használják a szinonimaszótárakat, amelyeknek köszönhetően a lekérdezés kibővül. Például gépjárműbalesetekkel kapcsolatos dokumentumok keresésekor a „Közúti baleset” lekérdezés tágulási tényezője 1:150, azaz. egy tokenből a rendszer valójában 150 tokent generál a keresőkiszolgáló számára. Az orosz nyelvű tezauruszok aktív használatát manapság nehezíti a naprakész szinonimaszótárak hiánya.

Ha a keresést iteratív folyamatnak tekintjük, a keresési tér (a keresett részhalmaz) csökkentésére szolgáló módszerek alapvetően a keresési stratégia módszertani alapját képezik, és a következő osztályokba oszthatók - keresési módszerek:

  • 1) egy szóköz (általában tematikus);
  • 2) hierarchikusan rendezett tér;
  • 3) alternatív terek;
  • 4) dinamikus (a keresési folyamat során változó) tér.

A POS létrehozásának megvalósított módszerének biztosítania kell hatékony módszerek lekérdezés felépítése különböző típusú célok eléréséhez. A keresési mechanizmusok olyan modellek és algoritmusok halmaza, amelyeket a rendszerben implementálnak a keresési lekérdezésre válaszul dokumentumkimenet generálására. A keresőeszközök egyrészt az információ-visszakereső nyelvek (IRL) és az adatdefiníciós (kezelési) nyelvek egymásra épülő komplexumai, amelyek a feldolgozó objektumok (dokumentumok, szótárak, keresési eredmények halmazai) strukturális és szemantikai transzformációit biztosítják. másrészt olyan felhasználói felület objektumok, amelyek egy adott AI PS működési objektumai kiválasztásának sorrendjét biztosítják.

A keresési technológiák egységes (egy adott AIPS keretein belül optimalizált) szekvenciák az egyes keresési eszközök hatékony használatához a rendszerrel való felhasználói interakció során, hogy következetesen megkapják a végső és köztes eredményeket. A navigáció, mint egy lekérdezési keresési folyamat megvalósítása egy kiválasztott adatbázisban, egy konkrét AIPS módszereinek, eszközeinek és technológiáinak céltudatos, stratégia által meghatározott sorozata az eredmény megszerzése és értékelése érdekében.

A navigációs eszközök segítségével a felhasználó irányíthatja a keresési folyamatot. Ezeket egy olyan felület formájában mutatják be a felhasználónak, amely lehetővé teszi az adatbázissal való interakció többé-kevésbé hatékony folyamatának megszervezését. Ugyanakkor az interfész „barátságosságát” nemcsak az ergonómia és az áttekinthetőség, hanem a működési objektumok választékának változatossága is jellemzi.

Az információkeresés folyamata olyan lépések sorozatát jelenti, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, és lehetővé teszik annak teljességének értékelését. Mivel a felhasználó általában nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres, ezért csak külső vagy köztes értékelések alapján tudja felmérni a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét. eredményeket és általánosításokat, összehasonlítva őket például a korábbiakkal.

A keresési folyamat a következő fő összetevőkkel ábrázolható (4.1. ábra):

  • ? természetes nyelvű kérés megfogalmazása, szelekció kereső motorokés szolgáltatások, a kérést a megfelelő FP-ben formalizálva;
  • ? keresés végrehajtása egy vagy több keresőmotorban;
  • ? a kapott eredmények áttekintése (linkek);
  • ? a kapott eredmények előzetes feldolgozása: linkek tartalmának megtekintése, releváns és releváns adatok kinyerése és tárolása;
  • ? szükség esetén módosítsa a kérelmet és hajtson végre ismételt (finomító) keresést a kapott eredmények utólagos feldolgozásával.

A kiválasztott anyagok mennyiségének csökkentése érdekében a keresési eredményeket a források típusa szerint szűrik (webhelyek, portálok),

Rizs.

matematika és egyéb okok miatt. Az alkalmazott keresési technológiák alapján az IP 4 kategóriába sorolható.

  • 1. Tematikus katalógusok.
  • 2. Szakkatalógusok (online címtárak).
  • 3. Keresőmotorok (teljes szöveges keresés).
  • 4. Metakereső eszközök.

Az interneten az információkereső rendszer egy vagy több szerveren található. Az IPS információkat gyűjt, indexel és regisztrál a rendszer által kiszolgált webszerverek csoportjában elérhető dokumentumokról. A dokumentumokban minden indexelve van értelmes szavak vagy csak a címszavakból. A tematikus katalógusok magukban foglalják a dokumentumok feldolgozását és a több kategória valamelyikébe való besorolását, amelyek listája előre meghatározott. Ez lényegében besorolás alapú indexelés. Az indexelés történhet automatikusan vagy manuálisan a népszerű weboldalakat és komponenseket böngésző szakemberek segítségével Rövid leírásösszefoglaló dokumentumok (kulcsszavak, absztrakt, absztrakt).

A speciális katalógusok vagy címtárak meghatározott iparágak és témák, hírek, városok, címek szerint jönnek létre Email stb. A keresőmotorok (az internet legfejlettebb keresőeszköze) teljes szöveges keresési technológiát valósítanak meg. A lekérdezett szervereken található szövegek indexelve vannak. Az index több millió dokumentumról tartalmazhat információt. Például a népszerű AltaVista információkereső rendszer több mint 56 millió URL-t tartalmaz indexében.

A metakereső eszközök használatakor a lekérdezést egyszerre több keresőmotor hajtja végre. A keresési eredményeket a rendszer egy közös listává egyesíti, amelyek relevancia szerint vannak rendezve. Minden rendszer a hálózati csomópontoknak csak egy részét dolgozza fel, ami lehetővé teszi a keresési bázis bővítését. Ez az osztály magában foglalja a „személyes keresőprogramokat”, amelyek lehetővé teszik saját metakereső eszközök létrehozását (például a gyakran látogatott csomópontok automatikus lekérdezését).

Az információs adatbázisok szinte bármilyen típusú információt tartalmazhatnak, bármilyen kombinációban is. Az információkeresés mind a teljes szövegű EIR-ben létező kifejezések, mind az IPJ-ben szereplő speciális elemek alapján történik. A lekérdezések generálásához speciális információ-visszakereső nyelveket használnak.

Az adóhivatalok a talált mintán belül általában megpróbálják a dokumentumokat „relevánsságuk” szerint rendezni, pl. a felhasználó által bevitt lekérdezés közelsége. Az ilyen közelségnek számos kritériuma van, és a megkereséshez „értelmükben” közel álló dokumentumok azonosítása nem oldja meg az információszerzés problémáját megfelelő dokumentum hiányában. Ez a helyzet meglehetősen triviális, többek között azért, mert a felhasználó gyakran olyan dokumentumot keres, amelyet ő maga fog írni. Meg kell jegyezni, hogy a keresés eredményeként a felhasználó releváns, releváns és irreleváns és nem releváns adatrésztömböket egyaránt kaphat.

Az IPS valójában rendszerek információs támogatásés adatbázisokat és adatbankokat képviselnek. Az objektum bennük egy személy, szervezet, iparág, régió stb. Az információs támogatás alanya az információs szakember, bármely információfogyasztó.

Javasoljuk, hogy a szükséges információk keresésének eljárását kilenc fő szakaszra bontsák.

  • 1. A tudásterület meghatározása.
  • 2. Az adatok típusának és forrásainak kiválasztása.
  • 3. Az információs modell kitöltéséhez szükséges anyagok összegyűjtése.
  • 4. A leghasznosabb információk kiválasztása.
  • 5. Információfeldolgozási módszer kiválasztása (osztályozás, klaszterezés, regressziós elemzés stb.).
  • 6. Mintakereső algoritmus kiválasztása.
  • 7. Minták, formai szabályok és strukturális összefüggések keresése az összegyűjtött információban.
  • 8. A kapott eredmények kreatív értelmezése.
  • 9. A kinyert „tudás” integrálása.

A keresés végrehajtásához a megfelelő adatbázissal való munkavégzéshez szükséges felületet először betöltik a felhasználó számítógépére. Ez lehet helyi vagy távoli adatbázis. Kezdetben el kell döntenie a keresés típusát (egyszerű, speciális stb.). Ezután a keresésre javasolt mezőkészlettel. Az IRS felajánlhat egy vagy több mezőt a bevitelhez. Utóbbi esetben általában a következő mezőkről van szó: szerző, cím (cím), időszak, dokumentum típusa, kulcsszavak, címsorok stb. A kérés kialakításánál szinte minden rendszer lehetővé teszi az „ÉS” logikai elemek használatát, "VAGY NEM".

Az információigények kielégítésére használt keresési eszközöket és technológiákat a felhasználó fő tevékenységi problémájának típusa és állapota határozza meg: tudásának és tudatlanságának aránya a vizsgált tárgyról. Ezenkívül a felhasználói interakció folyamatát a rendszerrel meghatározza a felhasználó tudásszintje az erőforrás tartalmáról (a bemutatás teljessége, a forrás megbízhatósága stb.), valamint a rendszer, mint eszköz funkcionalitása. Általában ezek a tényezők általában a „professzionalizmus” – információs (képzett (képzetlen) felhasználó) és alanyi (szakmai (nem szakmai) „professzionalizmus” – fogalmához vezetnek.

Az információkeresési folyamat általában empirikus jellegű. Lépések sorozatát képviseli, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, lehetővé téve annak teljességének értékelését. Ugyanakkor a felhasználói magatartást, mint a keresési folyamat irányításának szervező kezdetét, nemcsak az információigény, hanem a rendszer által biztosított stratégiák, technológiák és eszközök sokfélesége is motiválja.

A felhasználó jellemzően nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres, így a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét további információk megtalálásával vagy a folyamat, hogy a keresési eredmények egy része felhasználható legyen egy másik rész megfelelőségének megerősítésére vagy tagadására.

A felhasználóknak a keresőrendszerrel való interakciójában közvetlenül részt vevő működési objektumok a dokumentum keresési képe (SID) és a SID, amelyek megfelelését az AIPS keresési mechanizmus formális szinten állapítja meg. A képnek a dokumentum tényleges tartalmának való megfelelőségét az információkonvolúciós folyamat minősége és az alanynak a reflexió eszközeivel kapcsolatos tudásszintje - a témakör fogalmi sémája és a programozási nyelv képességei - határozza meg. A dokumentum keresési képe egy dokumentum leírása, FL-ben kifejezve, és jellemzi a dokumentum fő szemantikai tartalmát vagy bármely más jellemzőjét, amely szükséges a kereséshez. A legtöbb PS kezdetben BO-t vagy hivatkozásokat kínál a különböző AIPS-ben tárolt teljes vagy részleges dokumentumokhoz, azok leírásához stb. A modern szoftverek lehetővé teszik annak meghatározását és jelzését, hogy az információforrás mi és milyen formában érdekli a felhasználót.

Az átalakítások jellege alapján (az eredmények további feldolgozása kapcsán) a keresési eredmények feldolgozására szolgáló módszerek két csoportra oszthatók.

  • 1. Szerkezeti és formátumtranszformációk.
  • 2. Strukturális-szemantikai transzformációk (információs-analitikai, logikai-szemantikai).

Amit gyakran keresnek az interneten: egyénekre és szervezetekre vonatkozó személyes adatok; különböző címadatok; meghatározott anyagok (cikkek, könyvek, fényképek, referencia adatok, szoftverek stb.), beleértve azok tárolási helyét is; hol és mennyibe kerülnek bizonyos anyagok, szolgáltatások, termékek stb.; információs oldalak és portálok stb. Általánosan elfogadott, hogy a keresést a szó kezdeti töredékei alapján szervezik (keresés a jobb oldalon csonkolással), például a „könyvtár” szó helyett megadhatja a „könyvtár*” töredékét. . Ebben az esetben olyan dokumentumokat találunk, amelyek nem csak a „könyvtár” szót tartalmazzák, hanem a „könyvtár”, „könyvtáros”, „könyvtártudomány” stb. szót is. A felhasználónak minden esetben el kell képzelnie, hogy pontosan mit is szeretne megtalálni, hiszen abban, amit felkínálnak neki, sok lehetőség lesz nagy mennyiség dokumentumokat, mint az adott szó teljes megadásakor (csonkítás nélkül). Ilyen esetben lehetőség van a kapott információtömbben pontosító keresést végezni, és ennek eredményeként relevánsabb és relevánsabb adatokhoz jutni.

Az információkereső rendszer szempontjából a benne található keresési eredmény a talált dokumentumok vagy az azokra mutató hivatkozások halmaza (részhalmaza). Általában lista formájában jelenik meg a felhasználó számára. Vagyis a legegyszerűbb kimeneti forma ebben az esetben a hivatkozások listája lesz, teljes vagy részleges BO-k formájában, amelyeket az IR talál. Egy ilyen lista azonnal kinyomtatható vagy bármely e-mail címre elküldhető, ha az IPS ilyen lehetőséget biztosít és a felhasználó csatlakozik az internethez.

A grafikus és teljes szövegű EIR a felhasználó számára csak megtekintésre, másolásra kínálható fel különböző formátumokban és méretekben, részben vagy egészben. A grafikus IR-k általában általánosan elfogadott formátumokban léteznek, például: JPG, GIFF, TIFF, BMP stb., és szöveges anyagokáltalában TXT, DOC stb., HTML és PDF szövegformátumokat használnak – valójában egy olyan grafikus formátumot, amelyben szöveg és grafikus adatok is menthetők. A keresés eredményeként kapott dokumentumok mentésre kerülnek.

A keresés eredményének feltétele, hogy a felhasználó a keresési lekérdezésben megfogalmazott igényeinek leginkább megfelelő dokumentumok listáját, egy dokumentumot vagy annak részeit kapja meg. Az IRS-ben bevett szokás, hogy a keresés eredményeként kapott dokumentumokat relevanciájuk szerint listázzák. A keresési utasítás és a kiadott dokumentum közötti szemantikai és formai megfelelés kritériumai vannak. A keresés teljessége és pontossága egymással összefüggő mutatók. Az egyik növekedése a másik csökkenéséhez vezet. A modern IRS-ben, kiegyensúlyozott keresés mellett, értékük megközelítőleg 70%. Figyelembe kell vennie azt a helyzetet, amikor a keresőmotor által biztosított hivatkozások listája több, néha több tucat különböző címet tartalmaz ugyanazzal a szöveggel. Az ilyen hivatkozásokat ismétlődésként jellemezzük. Ezek közül csak egy dokumentumot veszünk figyelembe az együtthatók kiszámításakor.

Figyelembe véve, hogy az ideális keresési eredménynek meg kell felelnie az egyediség, a teljesség és a következetesség követelményeinek, azt találjuk, hogy a különböző típusú keresések eltérő követelményeket határoznak meg funkcionalitás az eredmények értékelésére szolgáló rendszerek. A tárgykeresés esetében azonban a teljesség bizonyítása triviális: a nem üres keresési eredmény megerősíti a kívánt tulajdonságokkal rendelkező objektum létezését (vagy hiányát). Ugyanakkor a tematikus keresés eredménye többszörös, és utólagos rendszerezést igényel - egy másik eljárási lépés az eredményül kapott objektumok sorba rendezéséhez egy nem kifejezetten meghatározott alap értékei szerint. A problematikus keresés viszont kétszintű rendszerezést feltételez.

A keresési folyamat fejlesztése a POS kifejezés módosításával, a lekérdezés újrafogalmazásával és egy második keresés végrehajtásával történik ugyanabban az adattömbben vagy a kezdeti keresés eredményeként kapott altömbben. Az eredmények feldolgozására és a keresések fejlesztésére szolgáló interfész eszközök kétféle műveleti objektumot használnak - egyedi dokumentumokat vagy dokumentumgyűjteményeket.

Az internetes információk megszerzéséhez speciális keresőmotorokat hoznak létre. Általános szabály, hogy nyilvánosan elérhetők, és a világ bármely pontján szolgálják ki a felhasználókat, ahol elérhető az internet. A keresésre közvetlenül a keresőmotorokat használják, amelyek száma a világon több százra tehető. Bizonyos típusú lekérdezésekre vagy azok kombinációjára összpontosítanak (bibliográfiai, címzési, ténybeli, tematikus stb.). Ezen kívül vannak teljes szövegű, vegyes és egyéb keresőmotorok. Az interneten (WWW) történő kereséshez számos oldal és keresőmotor létezik, így az ilyen rendszerekben nem csak navigálni kell, hanem hatékony keresést is kell tudni bennük végezni, pl. megfelelő technológiákat használni.

A keresési technológia (az angol Search Technology szóból) szabályok és eljárások összességét jelenti, amelynek eredményeként a felhasználó IR-t kap. Az internetes keresés során két összetevőre ajánlott figyelni: a teljességre (semmi sem vész el) és a pontosságra (semmi felesleges). Jellemzően a talált anyagok e kritériumoknak való megfelelését nevezzük relevanciának, azaz relevanciának. a kérdésre adott válasz megfelelése (kérés). A keresőmotorokat az is jellemzi, hogy mennyi ideig tart a keresés, a felhasználónak biztosított felület és a megjelenített találatok típusa. A keresőmotorok kiválasztásakor ügyeljen az olyan paraméterekre, mint a lefedettség és a mélység. A lefedettség a keresőmotor adatbázisának volumenére vonatkozik, amelyet három mutatóval mérnek: az indexelt információk teljes mennyisége, az egyedi szerverek száma és az egyedi dokumentumok száma. Mélység alatt azt értjük, hogy van-e korlátozás az oldalak számára vagy a könyvtárak egymásba ágyazásának mélységére egy szerveren.

Minden keresőmotornak saját algoritmusa van a keresési eredmények rendezésére. Minél közelebb van a keresés eredményeként kapott lista elejéhez, kiderül szükséges dokumentumot, annál nagyobb a relevancia és annál jobban teljesít a keresőmotor. A keresőmotorok általános működési elveket alkalmaznak, amelyek két fő funkció végrehajtására összpontosítanak. Az első funkciót egy robotprogram valósítja meg, amely automatikusan átvizsgálja a különféle szervereket az interneten. Az új vagy módosított dokumentumok keresése után indexeli és továbbítja őket alap számítógép keresőmotor. A robot egy olyan automatizált böngésző, amely betölt egy weboldalt, megvizsgálja azt, és ha szükséges, elnavigál az egyik hiperhivatkozáshoz. Amikor olyan oldalra bukkan, amely nem tartalmaz kapcsolatokat, a robot egy-két lépést visszalép, és az egyik korábban felfedezett kapcsolatnál megadott címre megy. Egy elindított robot hatalmas távolságokat tesz meg az interneten (kibertérben), a webhálózat fejlesztésére fókuszálva és ennek megfelelően változtatja útvonalait. Az indexelő robotok csak HTML fájlokat dolgoznak fel, figyelmen kívül hagyva a képeket és az egyéb multimédiás fájlokat. Képesek: észlelni a már nem létező oldalakra mutató hivatkozásokat; kapcsolatot létesítsen a legnépszerűbb oldalakkal azáltal, hogy megszámolja a rájuk mutató hivatkozások számát más weboldalakon; weboldalak regisztrálása a rendszer növekedésének felméréséhez stb. Leggyakrabban a robotok önállóan vizsgálják a szervereket, újakat találva Külső linkek a már megvizsgált dokumentumokban. A második funkció az azonosított dokumentumok feldolgozása. Ebben az esetben az oldalak teljes tartalmát figyelembe veszik (nem csak a teljes szöveget, hanem az illusztrációk, audio- és videofájlok, Java alkalmazások meglétét is). A dokumentumban minden szó indexelt, ami lehetővé teszi a keresőmotorok használatát a legszűkebb témákban történő részletes kereséshez. Az így létrejövő óriás indexfájlok, amelyek információt tárolnak arról, hogy melyik szót, hányszor, melyik dokumentumban és melyik szerveren tárolják, adatbázist alkotnak, amelyhez a felhasználók a keresősávba POS (kulcsszókombinációk) beírásával férnek hozzá. Az eredményeket egy speciális alrendszer segítségével szállítják, amely az eredmények intelligens rangsorolását végzi. Számításai során a kifejezés helyére, a szövegben való ismétlődésének gyakoriságára, ennek a kifejezésnek az oldalon lévő szöveg többi részéhez viszonyított százalékos arányára és más olyan paraméterekre támaszkodik, amelyek egy adott keresőmotor képességeit jellemzik.

A robotoknak számos fajtája van, ezek közül az egyik a „pók” (angolul: pók). Folyamatosan „kúszik az interneten”, egyik weboldalról a másikra mozog, hogy statisztikai adatokat gyűjtsön magáról a „webről” (a webről) és (vagy) adatbázist alkosson webtartalom indexeivel. Az automatizált „pók” ügynökök rendszeresen átvizsgálják a weboldalakat és frissítik a címadatbázist (hiperhivatkozásokat), az információindexelő eszközöket megadott címeket. Az eredményül kapott indexek segítségével gyorsan és hatékonyan kereshet a felhasználó által megadott kifejezések között. BAN BEN különböző rendszerek ezt a célt különféle módokon érik el. Vannak, akik „ügynököket” küldenek minden weboldalra, amellyel találkoznak, és indexelnek minden szót, amellyel találkoznak. Mások először a címek adatbázisát elemzik, meghatározzák a legnépszerűbbeket (általában megszámolják a hozzájuk elérhető hivatkozások számát). Ezek a weboldalak vannak különböző mértékben indexelve (csak a weboldalak címei és hivatkozásai, beleértve a dokumentumok vagy az összes szöveg automatikus megjegyzéseit).

Egyre gyakrabban használják az „intelligens ügynököket” – olyan kis programokat, amelyek képesek tanulni és önállóan cselekedni a tulajdonos nevében. A felhasználó számítógépéhez kapcsolódva személyi asszisztensként működnek, számos feladatot ellátva a felhasználó igényeinek és érdeklődésének ismeretében. Az intelligens robotügynökök független keresést végeznek a hálózaton saját egyedi algoritmusaik segítségével. Némelyikük nemcsak kulcsszavakat keres, hanem szemantikai elemzést is végez az interneten található információkról, azonosítva annak szemantikai megfelelésének mértékét az adott feladattal.

Az interneten található információkhoz való hatékony hozzáférést olyan külföldi keresők (gépek) biztosítják, mint az Alta Vista, Lycos, Yahoo, Google, OpenText, Wais, WebCrawler stb. Címeik az interneten: www.altavista.com, www.yahoo .com, www.gogle.com, www. opentext.com.

A hazaira kereső motorok tartalmazza: Nygma ( Tudományos projekt"Intelligens keresőrendszer Nigma.ru" MSU. M.V. Lomonoszov, Számítástechnikai és Pszichológiai Karok, Aport (Aport JSC Agama), Rambler (Stack Ltd.), Yandex (CompTek Int), „Russian Search Engine”, „New Russian Search” stb. Címük az interneten található : www.nigma.ru (nigma.rf), www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru stb.

Mindezek a keresőmotorok lehetővé teszik, hogy kulcsszavak, tematikus címsorok és akár egyes betűk használatával gyorsan megtalálja az interneten például az összes vagy majdnem minden olyan szöveget, ahol ezek a szavak szerepelnek. Ebben az esetben a felhasználó tájékoztatást kap azon oldalak címeiről, ahol a talált IR-ek folyamatosan jelen vannak. Azonban egyiküknek sincs elsöprő előnye a többihez képest. Az összetett lekérdezések megbízható keresése érdekében a szakértők különböző információkereső rendszerek egymás utáni vagy párhuzamos (egyidejű) használatát javasolják.

A teljes szövegű keresőmotor a felhasználó számára látható szövegben szereplő összes szót indexeli. A morfológia jelenléte lehetővé teszi, hogy a keresett szavakat minden deklinációban vagy ragozásban megtaláljuk. Ezen kívül be HTML nyelv Vannak olyan címkék, amelyeket kereső is fel tud dolgozni (címsorok, linkek, képfeliratok stb.). Egyes gépek adott távolságon belül kereshetnek kifejezéseket vagy szavakat, ami gyakran fontos az ésszerű eredmény eléréséhez.

A Google az egyetlen olyan vállalat, amely a „végső keresőmotor” fejlesztésére összpontosít, amely Larry Page szavaival élve „pontosan meghatározza, mire gondol a felhasználó, és pontosan a kívánt eredményeket hozza”. Ennek érdekében a Google folyamatosan új módszereket keres, és nem hajlandó elfogadni a meglévő technológiák korlátait. Ennek eredményeként a Google kifejlesztette saját infrastruktúráját és a forradalmi PageRank technológiát, amely megváltoztatta a keresések végrehajtását. A Google fejlesztői a kezdetektől fogva megértették, hogy a legpontosabb eredmények gyorsabb elérése érdekében erre van szükség új út szerver beállításait. A legtöbb keresőmotor több nagy szervert használt, amelyek gyakran lassúak voltak a csúcsterhelés alatt. A Google összekapcsolt PC-ket használt, hogy minden kérdésre gyorsan választ találjon. Ennek az innovatív technológiának a megvalósítása gyorsabb válaszidőt, nagyobb skálázhatóságot és alacsonyabb költségeket eredményezett. Azóta minden más vállalat lemásolta az ötletet, miközben a Google folyamatosan fejleszti belső technológiáját, hogy hatékonyabbá tegye azt.

A technológia megvalósításához használt szoftver Google kereső, egyidejű számítások sorozatát hajtja végre, amelyek legfeljebb a másodperc töredékét vesznek igénybe. A hagyományos keresőmotorok inkább azon alapulnak, hogy egy szó milyen gyakran jelenik meg egy weboldalon. A Google ezzel szemben a teljes internetes linkszerkezetet megvizsgálja, és a PageRank segítségével határozza meg, hogy mely oldalak a legfontosabbak. Ezután elvégzik a hipertext egyezés elemzését, és kiválasztják az adott kereséshez leginkább megfelelő oldalakat. A lekérdezés általános relevanciája és relevanciája alapján a Google először a legrelevánsabb és leghitelesebb találatokat jeleníti meg.

PageRank technológia: A PageRank objektíven értékeli a weboldalak fontosságát egy több mint 500 millió változót és 2 milliárd kifejezést tartalmazó egyenlet alapján. A közvetlen linkek számolása helyett a PageRank az A oldalról B oldalra mutató linket az A oldal B oldala melletti szavazatnak tekinti. A PageRank ezután a kapott szavazatok száma alapján határozza meg az oldal fontosságát. A PageRank értékeli a szavazásban részt vevő egyes oldalak fontosságát is. A nagyobb jelentőségű oldalak szavazataival a link értékesebbé válik. Az értelmes oldalak magasabb PageRank értékkel rendelkeznek, és a keresési eredmények tetején jelennek meg. A Google technológiája összesített webintelligencia segítségével határozza meg egy oldal jelentőségét. Emberi tévedés, vagy a találatok manipulálása lehetetlen, ezért a felhasználók a Google-ra, mint objektív információforrásra bíznak, amelynek keresési eredményei között nincsenek fizetett hirdetések.

Hiperszöveg-megfelelőségi elemzés: A Google keresőmotorja más motorokhoz hasonlóan szintén elemzi az oldal tartalmát. Azonban ahelyett, hogy egyszerűen beszkennelné az oldal szövegét (amit a webes megjelenítő megtehet metacímkékkel – HTML- vagy XHTML-címkékkel, amelyek célja, hogy strukturált metaadatokat biztosítsanak egy weboldalról). A Google technológiája elemzi az oldal teljes tartalmát, a betűtípus-jellemzőket, a szöveglebontásokat és a pontos adatokat. elrendezés minden szót. A Google elemzi a szomszédos weboldalak tartalmát is, hogy megbizonyosodjon arról, hogy a kapott eredmények a legjobban egyeznek a felhasználó lekérdezésével (4.2. ábra).

A Google technológiai innovációja túlmutat az asztali számítógépeken. A Google azt a feladatot tűzte ki maga elé, hogy pontos és gyors keresési eredményeit eljuttassa az interneten szörfölő felhasználókhoz mobil eszközök. Ennek érdekében a Google kifejlesztett egy első fajta technológiát vezeték nélküli keresés a HTML azonnali optimalizált formátumokká alakításához


WAP, i-mode, J-SKY és EZWeb esetén. Jelenleg vezeték nélküli technológia A Google-t számos piacvezető vállalat használja, köztük az AT&T Wireless, a Sprint PCS, a Nextel, a Palm, a Handspring és a Vodafone.

A Google keresés általában kevesebb, mint fél másodpercet vesz igénybe, de ez az eljárás számos olyan lépést tartalmaz, amelyek nélkül a keresési eredmények nem jutnak el a felhasználóhoz. A Google lekérdezés lépései:

  • 1) a webszerver kérést küld az indexelő szervereknek. Az indexszerverek tartalma megegyezik a könyv végén található tartalommal – megmondja, hogy mely oldalak tartalmaznak a lekérdezésnek megfelelő szavakat;
  • 2) a kérést elküldik a tárolt dokumentumokat kereső szervereknek. Részletek jönnek létre az egyes keresési eredmények leírására;
  • 3) csak a másodperc töredéke szükséges a keresési eredmények eléréséhez.

„Az ideális keresőmotor – mondja Larry Page, a Google társalapítója – pontosan meghatározza, mire gondol a felhasználó, és pontosan a kívánt találatokat jeleníti meg. Tekintettel a keresési technológia jelenlegi fejlettségi szintjére, ehhez messzebbre kell tekinteni, kutatást kell végezni, ki kell dolgozni és alkalmazni kell a legújabb munkamódszereket. A Google keményen dolgozik, hogy új utat törjön ezen a területen. Habár Google már elismerten a világ vezető keresőtechnológiai vállalata.

Információs technológiák információkereséshez

Információkeresés: alapfogalmak, szervezési típusok és formák

Az információkeresés vagy információkeresés az egyik alapvető információs folyamat. Az emberiség ősidők óta foglalkozik vele. A keresés céljai, lehetőségei és jellege mindig is az információ elérhetőségétől, fontosságától és hozzáférhetőségétől, valamint a keresés megszervezésének eszközeitől függött.

A 20. század végét - a 21. század elejét hatalmas mennyiségű, folyamatosan bővülő, sokrétű információ jellemzi, amely a társadalom legszélesebb rétegei számára elérhető és érdekes. Sőt, az internetes technológiák, valamint a legtöbb ember számára szintén elérhető szoftver- és hardvereszközök lehetővé teszik, hogy ezt a folyamatot bármikor, szinte bárhol, bármilyen kérés esetén végrehajtsák.

Keresés– olyan folyamat, amelynek során a keresett objektum egy vagy másik sorozatban korrelációra kerül a tömbben tárolt egyes objektumokkal. Minden keresés célja az az igény, szükséglet vagy vágy, hogy különböző típusú információkat találjanak, amelyek segítik a keresőt a számára szükséges információk, ismeretek stb. megszerzésében. saját szakmai, kulturális és bármely más szint fejlesztésére; új információk létrehozása és új ismeretek generálása; vezetői döntések meghozatala stb.

Szakértők szerint több milliárd felhasználó él az interneten. Ebből több száz millióan vannak online (angolul „on-line” – interaktív hozzáférés bármikor), és az ilyen felhasználók száma folyamatosan növekszik. Ez megnehezíti a gyors keresés megszervezését és a sok felhasználó számára szükséges információk megtalálását. Problémák merülnek fel az információkeresés különböző lehetőségei (típusai), azok információkereső rendszerekben (IRS) történő megvalósításának különböző módjai, különböző szinteken felhasználói ismeretek az ilyen rendszerek képességeiről, különösen a lekérdezések generálása és a lekérdezések végrehajtása során nyert adatok feldolgozása terén stb.

A jövőben várhatóan olyan információs rendszerek jönnek létre, amelyek automatikusan képesek alkalmazkodni az egyes felhasználók tudásszintjéhez és kéréseihez, természetes nyelven érzékelik a kéréseket, és mesterséges intelligencia segítségével releváns és releváns információkkal látják el őket. Az ilyen információs rendszerek létrehozásához az információs rendszerek meghatározott felhasználóinak vagy közvetítőinek intelligenciájára és tudására lesz szükség. Addig is a keresőmotor-felhasználók széles körének kell elég jó ismeretekkel rendelkeznie ezen a területen.

Az „információ-visszakeresés” vagy az „információ-visszakeresés” kifejezést különbözőképpen értelmezik.

A " kifejezésinformációszerzés"(angolul: "information retrieval") K. Mooers amerikai matematikus vezette be. Észrevette, hogy az ilyen keresés motiváló oka információs igény , amelyet tájékoztatáskérés formájában fejeznek ki. K. Muers az információkeresés tárgyaként dokumentumokat, elérhetőségükre és (vagy) elhelyezkedésükre vonatkozó információkat, valamint tényszerű információkat tartalmazott.

Elsőként a könyvtárak képviselői oldották meg a ténykeresés problémáit. Kifejlesztették az információkereső eszközöket, az úgynevezett " referencia kereső " (katalógusok, bibliográfiai mutatók stb.). A hazai szakmai sajtóban ez a kifejezés a hetvenes évektől használatos. A könyvtárosok definiálják a " információszerzés "mintha az információban lennékdokumentumok tömbje , megfelelőfelhasználói információk kérése .

A számítástechnika használatának szemszögéből"információszerzés " – logikai és technikai műveletek összessége, amelynek végső célja a fogyasztó kérésére vonatkozó dokumentumok, az azokra vonatkozó információk, tények, adatok megtalálása.

" Relevancia" – állítsa be, mikorinformációszerzés a dokumentum tartalmának megfelelőségeinformációkérés vagy egy dokumentum keresési képe egy keresési előíráshoz.

Vannak más definíciók is. Az információkeresést mindenesetre a felhasználók információigényének kielégítése okozza, akik a keresőmotorok segítségével a szükséges adatok vagy információk gyors megszerzését várják. Ez egy módszer a releváns dokumentumok és (vagy) tények célzott keresésére és kinyerésére különböző információforrásokból, például adatbankokból vagy tárolóeszközökből. Ezek élő és élettelen tárgyak, amelyek különféle információforrásokat és médiákat képviselnek.

Az ilyen információ-visszakeresés megvalósítását biztosító rendszereket hívjukkereső motorok(PS). A hagyományos technológiákban a PS-ek kartotékokat és katalógusokat, cím- és egyéb címtárakat, indexeket, enciklopédiákat, kiadványokhoz és egyéb anyagokhoz tartozó referenciakészülékeket jelentenek.

1945-ben W. Bush amerikai tudós és mérnök „Gondolkodásunk lehetséges mechanizmusa” című cikkében vetette fel először nagy vonalakban az információkeresés gépesítésének szükségességét.

Az 1960-as évek óta megjelentek az információkkal dolgozó automatizált keresőrendszerek. Ettől az időszaktól kezdve intenzív munka folyik az információkeresés elveinek és módszereinek kialakítása és megvalósítása terén.

" Kereső motorok"keresés az adatbázis dokumentumok vagy más géppel olvasható adattömbök között, amelyek meghatározott szavakat tartalmaznak.

A hagyományos vagy intelligens terminálokat (PC-ket) használó elektronikus PS lehetővé teszi a felhasználók számára, hogy a tartalmat leíró formális elemek és speciális logikai operátorok használatával keresési lekérdezéseket hajtsanak végre; keresést végezhet az adatbázis-dokumentumok vagy más, meghatározott szavakat tartalmazó, géppel olvasható adattömbök között. A keresőmotorok csak keresési eljárásokat és kapcsolódó folyamatokat tesznek lehetővé.

Információkereső rendszerek

A funkciók és képességek széles skálájával rendelkező szoftverrendszerek általában szerepelnek az DBMS-ben, és ezeket információ-visszakereső rendszereknek nevezik. Ezek létrehozása és felhasználása is segíti a felhasználókat a szükséges adatok hatékony megtalálásában, többek között az interneten is.

terminológiailag"Információ visszakeresési rendszer"(angolul: "information retrieval system", IRS) - egy olyan rendszert jelöl, amelyet információk keresésére és tárolására terveztek; csomag szoftver, amely az információs adatbázisokban és adatbankokban való létrehozás, frissítés, tárolás és keresés folyamatait valósítja meg.

Információ visszakeresési rendszer olyan rendszerként is értelmezhető, amely az információkeresési nyelv és a megfelelő keresési szabályok alapján biztosítja a szükséges adatok keresését és kiválasztását, ill. adatbázis– az adatok leírására, tárolására és manipulálására szolgáló eszközök és módszerek összessége, amelyek megkönnyítik a nagy információtömbök gyűjtését, felhalmozását és feldolgozását. A különböző adatbázisok felépítése eltérő az adatobjektumok típusában és a köztük lévő kapcsolatokban.

A modern információs rendszerek működése két feltételezésen alapul:

    a felhasználó által igényelt dokumentumokat egy bizonyos jellemző vagy jellemzők kombinációja egyesíti;

    a felhasználó megadhatja ezt az attribútumot.

Mindkét feltevés nem teljesül a gyakorlatban, és csak a teljesülésük valószínűségéről beszélhetünk. Ezért az információkeresés folyamata általában olyan lépések sorozatát jelenti, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, és lehetővé teszik annak teljességének felmérését. Ugyanakkor a felhasználói magatartást, mint a keresési folyamat irányításának szervező kezdetét, nemcsak az információigény, hanem a rendszer által biztosított stratégiák, technológiák és eszközök sokfélesége is motiválja.

A felhasználó általában nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres. Ki tudja értékelni a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét, ha további információkat talál, vagy a folyamatot úgy szervezi meg, hogy a keresési eredmények egy része megerősíthető vagy cáfolható legyen egy másik rész. A professzionális felhasználókat ugyanakkor stabil tematikus profil jellemzi. Amikor „információorientáltak”, akkor a probléma információs terének megszervezésére való törekvés és képesség jellemzi őket. Ez azt jelenti, hogy a felhasználó lényegében új, „független” problémaorientált, egyedileg frissített és feltöltött IR-t hoz létre, amely a dokumentumgyűjtemények mellett metainformációkat is tartalmaz, például speciális terminológiai szótárakat, tantárgyi osztályozókat. , erőforrások leírása stb.

A felhasználó „önkiszolgáló” üzemmódban végzett munkájának sajátossága, az aggregált tevékenységek automatizálásának feladatkörében azt jelenti, hogy a rendszernek olyan környezetet kell biztosítania, amely támogatja a fogyasztó funkcióit a talált információk feldolgozásához, pl. valamint az információközvetítő funkcióihoz hagyományosan kapcsolódóak (kérés értelmezése, információkereső nyelvre fordítása, IR megválasztása, automatizált keresés és anyagok manuális kiválasztása), de olyan „támogató” funkciók is, mint: információs igények strukturálása. , egy lekérdezés lexikális adaptálása, keresési eredmények értékelése, rendszerezése és feldolgozása, mind különálló dokumentum, mind általában információs források szintjén. A felhasználó technikai lehetőségei lehetővé teszik számára, hogy információforrást hozzon létre - tömböket képezhet, rendszerezheti és külső reprezentációkat készíthet a tartalomról saját vagy külső használatra.

Az IPS felosztása hagyományos (kézi, mechanikus, elektromechanikus) és automatizált (elektronikus).

Automatizált információs rendszerek (AIPS), számítógépes szoftver- és hardvereszközöket és -technológiákat használnak, és célja, hogy a felhasználókat meghatározott kritériumok szerint találják meg és biztosítsák információkkal. A következő két tényező döntő a keresési automatizálási módszerek megértéséhez:

    Nem magukat a tárgyakat hasonlítják össze, hanem a leírásokat – az úgynevezett „keresőképeket”;

    maga a folyamat összetett (összetett és nem egylépéses), és általában műveletek sorozatával valósítják meg.

Az adatok speciálisan kifejlesztett beviteli formátumok alapján kerülnek bevitelre az AIPS-be. Az információkereső rendszerben egy objektumról minden információ rendszerezett adat formájában jelenik meg, amely a tábla egy sorát alkotja, és ún. felvétel . Továbbá, ha az IRS egy könyvtár elektronikus katalógusát képviseli, akkor egy dokumentum bármely bibliográfiai leírása (BD) egy rekord, amely a BD-elemek számával megegyező mezőkből áll. A rekordok gyűjteménye adatbázist képez, amelyet általában egy fájlban tárolnak. Egy adatbázis-kezelő rendszer által egyesített adatbázisok egy adatbankot alkotnak.

Az AIPS ótaaz ember által a keresés során használt eszköz (de nemintelligens keresőgép információ - kész megoldások a fő tevékenység problémáira), használatának hatékonysága attól függ, hogy egy személy mennyire ismeri a működési objektumok természetét és annak az eszköznek a tulajdonságait, amelyen keresztül ezekkel az objektumokkal dolgozik.

Az információkeresés bizonyos stratégiák, módszerek, mechanizmusok és eszközök alkalmazását jelenti. A keresési folyamatot irányító felhasználó viselkedését nemcsak az információigény határozza meg, hanem a rendszer műszeres sokszínűsége - a rendszer által biztosított technológiák és eszközök.

Keresési stratégia – a rendszer vagy a felhasználói viselkedés általános terve (koncepció, preferencia, beállítás) a felhasználó információs szükségleteinek kifejezésére és kielégítésére, amelyet mind a keresés cél és típusa, mind a rendszer „stratégiai” döntései határoznak meg – adatbázis-architektúra, keresés módszerek és eszközök egy adott AIPS-ben.

A stratégia megválasztása általában optimalizálási probléma. A gyakorlatban ezt nagymértékben meghatározza a gyakorlati igények és a rendelkezésre álló eszközök lehetőségei közötti kompromisszum művészete.

Keresési módszer – modellek és algoritmusok készlete az egyes technológiai szakaszok megvalósításához: keresési lekérdezés kép (SQI) készítése, dokumentumkiválasztás (keresési lekérdezés képek és dokumentumok összehasonlítása), lekérdezés bővítése és újrafogalmazása, az eredmények lokalizálása és kiértékelése.

Keresési lekérdezés kép– IPY-ben írt szöveg, amely kifejezi az információigénylés szemantikai tartalmát, és tartalmazza az információkeresés leghatékonyabb megvalósításához szükséges utasításokat.

Keresési módszerek, pl. a dokumentumok egy olyan részhalmazának azonosítása, amelyek potenciálisan tartalmazzák a dokumentum-kiválasztási (DS) probléma megoldásának leírását, a megoldás keresésének folyamatát tükrözi, és a probléma természetétől és a témakörtől függ.

Ha a keresést iteratív folyamatnak tekintjük, a keresési tér (a keresett részhalmaz) csökkentésére szolgáló módszerek alapvetően a keresési stratégia módszertani alapját képezik, és a következő osztályokba oszthatók - keresési módszerek:

    egy tér (általában tematikus);

    hierarchikusan rendezett tér;

    alternatív terek;

    dinamikus (a keresés során változó) tér.

A POS felépítésére alkalmazott módszernek hatékony módszereket kell biztosítania egy lekérdezés létrehozására a különféle típusú célok elérése érdekében.

Kereső motorok – a rendszerben megvalósított modellek és algoritmusok készlete a keresési lekérdezésekre adott dokumentumok kiállításának generálására.

Keresőeszközök egyrészt információ-visszakereső nyelvek (IRL) és adatdefiníciós/kezelő nyelvek egymásra épülő komplexuma, amely a feldolgozó objektumok (dokumentumok, szótárak, keresési eredmények halmazai) strukturális és szemantikai transzformációit biztosítja, másrészt, felhasználói felület objektumok, amelyek egy adott AIPS működési objektumainak kiválasztásának kezelési sorrendjét biztosítják.

A keresési technológiák egységes (egy adott AIPS keretein belül optimalizált) szekvenciák az egyes keresési eszközök hatékony használatához a rendszerrel való felhasználói interakció során, hogy következetesen megkapják a végső és köztes eredményeket.

Navigáció mint egy lekérdezési keresési folyamat megvalósítása egy kiválasztott adatbázisban - egy konkrét AIPS módszereinek, eszközeinek és technológiáinak célzott, stratégia által meghatározott sorozata az eredmény megszerzéséhez és értékeléséhez.

Navigációs segédeszközök lehetővé teszi a felhasználó számára a keresési folyamat irányítását. Ezeket az űrlapon adjuk át a felhasználónakfelület , amely lehetővé teszi az adatbázissal való interakció többé-kevésbé hatékony folyamatának megszervezését. Ugyanakkor az interfész „barátságosságát” nemcsak az ergonómia és az áttekinthetőség, hanem a működési objektumok választékának változatossága is jellemzi.

Az információkeresés folyamata olyan lépések sorozatát jelenti, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, és lehetővé teszik annak teljességének értékelését. Mivel a felhasználó általában nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres, ezért csak külső vagy köztes értékelések alapján tudja felmérni a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét. eredményeket és általánosításokat, összehasonlítva őket például a korábbiakkal.

A keresési folyamat a következő fő összetevőkként ábrázolható:

    kérés megfogalmazása természetes nyelven, keresők és szolgáltatások kiválasztása, a kérés megfelelő FL-ben történő formalizálása;

    keresés végrehajtása egy vagy több keresőmotorban;

    a kapott eredmények áttekintése (linkek);

    a kapott eredmények előzetes feldolgozása: linkek tartalmának megtekintése, releváns és releváns adatok kinyerése és tárolása;

    szükség esetén a kérés módosítása és ismételt (finomító) keresés végrehajtása a kapott eredmények utólagos feldolgozásával.

A kiválasztott anyagok mennyiségének csökkentése érdekében a keresési eredményeket forrástípusok (oldalak, portálok), témák és egyéb szempontok szerint szűrjük.

A használt keresési technológiák szerint Az IP 4 kategóriába sorolható:

    Tematikus katalógusok;

    Speciális katalógusok (online címtárak);

    Keresőmotorok (teljes szöveges keresés);

    Metakereső eszközök.

Az interneten az információkereső rendszer egy vagy több szerveren található. Az IPS információkat gyűjt, indexel és regisztrál a rendszer által kiszolgált webszerverek csoportjában elérhető dokumentumokról. A dokumentumokban minden jelentős szó, vagy csak a fejlécek szavai indexelve vannak.

Tárgykatalógusok előírják a dokumentumok feldolgozását és több kategória valamelyikébe történő besorolását, amelyek listája előre meghatározott. Ez lényegében besorolás alapú indexelés. Az indexelés történhet automatikusan vagy manuálisan a népszerű weboldalakat böngésző, összefoglaló dokumentumok rövid leírását (kulcsszavak, absztrakt, absztrakt) összeállító szakemberek segítségével.

Speciális katalógusok vagysegédkönyvek meghatározott iparágak és témák, hírek, városok, e-mail címek stb. szerint jönnek létre.

Kereső motorok (a legfejlettebb keresőeszköz az interneten) teljes szöveges keresési technológiát valósít meg. A lekérdezett szervereken található szövegek indexelve vannak. Az index több millió dokumentumról tartalmazhat információt. Például a népszerű adóhivatal "AltaVista" indexében több mint 56 millió URL található.

Pénzeszközök felhasználása soránmetakeresés a kérést egyszerre több keresőmotor hajtja végre. A keresési eredményeket a rendszer egy közös listává egyesíti, amelyek relevancia szerint vannak rendezve. Minden rendszer a hálózati csomópontoknak csak egy részét dolgozza fel, ami lehetővé teszi a keresési bázis bővítését. Ez az osztály magában foglalja a „személyes keresőprogramokat”, amelyek lehetővé teszik saját metakereső eszközök létrehozását (például a gyakran látogatott csomópontok automatikus lekérdezését).

Az információs adatbázisok szinte bármilyen típusú információt tartalmazhatnak, bármilyen kombinációban is. Az információkeresés mind a teljes szövegű EIR-ben létező kifejezések, mind az IPJ-ben szereplő speciális elemek alapján történik. A lekérdezések generálásához speciális információ-visszakereső nyelveket használnak.

Az adóhivatalok a talált mintán belül általában megpróbálják a dokumentumokat a saját "relevanciáját ", azaz a felhasználó által bevitt lekérdezéshez való közelség. Az ilyen közelségnek számos kritériuma van, és a kéréshez „értelmében közel álló" dokumentumok azonosítása nem oldja meg az információszerzés problémáját megfelelő dokumentum hiányában Ez a helyzet meglehetősen triviális, többek között azért, mert a felhasználó gyakran olyan dokumentumot keres, amelyet ő maga fog megírni. Megjegyzendő, hogy a keresés eredményeként a felhasználó releváns, releváns és irreleváns, ill. nem releváns adatrésztömbök.

Az IPA-k valójábaninformációs támogató rendszerekés adatbázisokat és adatbankokat képviselnek. Minttárgyegyént, szervezetet, iparágat, régiót stb.Támogatás tárgyainformációs szakember, minden információfogyasztó.

Szervezet keresése

Javasoljuk, hogy a szükséges információk megszerzésére irányuló eljárást kilenc fő szakaszra osztják:

    A tudásterület meghatározása;

    Az adatok típusának és forrásainak kiválasztása;

    Az információs modell kitöltéséhez szükséges anyagok összegyűjtése;

    A leghasznosabb információk kiválasztása;

    Információfeldolgozási módszer kiválasztása (osztályozás, klaszterezés, regresszióanalízis stb.);

    Mintakereső algoritmus kiválasztása;

    Minták, formai szabályok és szerkezeti összefüggések keresése az összegyűjtött információban;

    A kapott eredmények kreatív értelmezése;

    A kinyert „tudás” integrálása.

A keresés végrehajtásához a megfelelő adatbázissal való munkavégzéshez szükséges felületet először betöltik a felhasználó számítógépére. Ez lehet helyi vagy távoli adatbázis. Kezdetben el kell döntenie a keresés típusát (egyszerű, speciális stb.). Ezután a keresésre javasolt mezőkészlettel. Az IRS felajánlhat egy vagy több mezőt a bevitelhez. Utóbbi esetben ezek általában a következő mezők: szerző, cím (név), időszak, dokumentum típusa, kulcsszavak, címsorok, stb. A kérés kialakításánál szinte minden rendszer lehetővé teszi az „ÉS” logikai elemek használatát, "VAGY NEM".

Információkeresési technológiák

Az információigények kielégítésére használt keresési eszközöket és technológiákat a felhasználó fő tevékenységi problémájának típusa és állapota határozza meg: tudásának és tudatlanságának aránya a vizsgált tárgyról. Ezenkívül a felhasználói interakció folyamatát a rendszerrel meghatározza a felhasználó tudásszintje az erőforrás tartalmáról (a bemutatás teljessége, a forrás megbízhatósága stb.), valamint a rendszer, mint eszköz funkcionalitása. Általában ezek a tényezők általában a „professzionalizmus” fogalmához vezetnek - információs (képzett/képzetlen felhasználó) éstantárgy (szakmai/nem hivatásos) "szakmaiság ".

Az információkeresési folyamat általában empirikus jellegű. Lépések sorozatát képviseli, amelyek a rendszeren keresztül egy bizonyos eredményhez vezetnek, lehetővé téve annak teljességének értékelését. Ugyanakkor a felhasználói magatartást, mint a keresési folyamat irányításának szervező kezdetét, nemcsak az információigény, hanem a rendszer által biztosított stratégiák, technológiák és eszközök sokfélesége is motiválja.

A felhasználó jellemzően nem rendelkezik átfogó ismeretekkel annak az erőforrásnak az információtartalmáról, amelyben keres, így a lekérdezési kifejezés megfelelőségét, valamint a kapott eredmény teljességét további információk megtalálásával, ill. a folyamat megszervezése úgy, hogy a keresési eredmények egy része felhasználható legyen a másik rész megfelelőségének megerősítésére vagy tagadására.

A felhasználóknak a keresőrendszerrel való interakciójában közvetlenül részt vevő működési objektumok a dokumentum keresési képe (SID) és a SID, amelyek megfelelését az AIPS keresési mechanizmus formális szinten állapítja meg. A képnek a dokumentum tényleges tartalmának való megfelelőségét az információkonvolúciós folyamat minősége és az alanynak a reflexió eszközeivel kapcsolatos tudásszintje - a témakör fogalmi diagramja és az FP képességei - határozza meg.

Dokumentumkép keresése– egy dokumentum leírása, FL-ben kifejezve, és jellemzi a dokumentum fő szemantikai tartalmát vagy bármely egyéb jellemzőjét, amely szükséges a kereséshez.

A legtöbb PS kezdetben BO-t vagy hivatkozásokat kínál a különböző AIPS-ben tárolt teljes vagy részleges dokumentumokhoz, azok leírásához stb. A modern szoftverek lehetővé teszik, hogy eldöntse és jelezze, hogy az információforrás mi és milyen formában érdekli a felhasználót.

A keresési eredmények feldolgozásának módszerei

Az átalakítások jellege alapján (az eredmények további feldolgozása kapcsán) a keresési eredmények feldolgozásának módszerei két csoportra oszthatók:

    Strukturális és formátumátalakítások;

    Strukturális-szemantikai transzformációk (információs-analitikai, logikai-szemantikai).

Keresés megvalósítása

Amit gyakran keresnek az interneten: egyénekre és szervezetekre vonatkozó személyes adatok; különböző címadatok; meghatározott anyagok (cikkek, könyvek, fényképek, referencia adatok, szoftverek stb.), beleértve azok tárolási helyét is; hol és mennyibe kerülnek bizonyos anyagok, szolgáltatások, termékek stb.; információs oldalak és portálok stb.

Általánosan elfogadott, hogy a keresést a szó kezdeti töredékei alapján szervezik (keresés a jobb oldalon csonkolással), például a „könyvtár” szó helyett megadhatja a „könyvtár*” töredékét. Ebben az esetben olyan dokumentumokat találunk, amelyek nem csak a „könyvtár” szót tartalmazzák, hanem a „könyvtár”, „könyvtáros”, „könyvtártudomány” stb. szót is. A felhasználónak minden esetben el kell képzelnie, hogy pontosan mit is szeretne megtalálni, hiszen a neki felkínált opcióban sokkal több dokumentum található, mint az adott szó teljes megadásakor (csonkítás nélkül). Ilyen esetben lehetőség van a kapott információtömbben pontosító keresést végezni, és ennek eredményeként relevánsabb és relevánsabb adatokhoz jutni.

Az eredmények nyilvántartása

Az információkereső rendszer szempontjából a benne található keresési eredmény a talált dokumentumok vagy az azokra mutató hivatkozások halmaza (részhalmaza). Általában lista formájában jelenik meg a felhasználó számára. Vagyis a legegyszerűbb kimeneti forma ebben az esetben a hivatkozások listája lesz, teljes vagy részleges BO-k formájában, amelyeket az IR talál. Egy ilyen lista azonnal kinyomtatható vagy bármely e-mail címre elküldhető, ha az IPS ilyen lehetőséget biztosít és a felhasználó csatlakozik az internethez.

Grafikus és teljes szövegű EIR kínálható a felhasználónak csak megtekintésre, másolásra különböző formátumokban és méretekben, egészben vagy részben. A grafikus IR-k általában általánosan elfogadott formátumokban léteznek, mint például: JPG, GIFF, TIFF, BMP stb., és szöveges anyagokhoz általában TXT, DOC stb. szövegformátumokat használnak, a HTML és a PDF valójában egy grafikus formátum, amelyben szövegként és grafikus adatként is elmenthető.

A keresés eredményeként kapott dokumentumok mentésre kerülnek.

Keresés értékelési kritériumai

A keresés eredményének feltétele, hogy a felhasználó a keresési lekérdezésben megfogalmazott igényeinek leginkább megfelelő dokumentumok listáját, egy dokumentumot vagy annak részeit kapja meg. Az IRS-ben bevett szokás, hogy a keresés eredményeként kapott dokumentumokat relevanciájuk szerint listázzák. A keresési utasítás és a kiadott dokumentum közötti szemantikai és formai megfelelés kritériumai vannak.



Kapcsolódó kiadványok