Alapjai információszerzés az Interneten

Basic Course:
Alapjai szakmai munka az információs forrásokhoz az interneten

lemondás

Annak ellenére, hogy minden erőfeszítést megtettek annak érdekében, hogy a dokumentum szabadon elgépelés, téves információk és elavult hivatkozásokat a forrásokat az internet, a St. Petersburg ága az intézet „Open Society” nem vállal semmilyen felelősséget a kárért, legyen az közvetlen közvetett, ami oka lehet a használata ebben a dokumentumban.







Minden védjegy a tulajdonos saját tulajdona.

Információk megtalálása - ez a feladat, hogy az emberiség megoldja sok évszázadon át. A növekedés az információ mennyisége potenciálisan rendelkezésre álló erőforrások egy személy (például egy látogató a könyvtár), dolgoztak kifinomultabb és fejlettebb keresési eszközökkel és technikákkal, hogy megtalálja a szükséges dokumentumot.

Először is, ezek az eszközök is javult a könyvtárak és információs részlegei nagy könyvtárak. A 70-es években a XX században volt egy adatbázist, ahová a belépés keresztül biztosított az első telefonos kapcsolatot, majd telnet az interneten keresztül. Az ára dolgozik ezen adatbázisok nagyon magas. Például, egy percen keresztül DIALOG adatbázis (www.dialog.com) költsége egy dollár, és a kijelző egy elem talált rekordot (a 70. példában) - 20 cent. Ez a magas költségek információkeresés szükséges a létrehozása a hatékony keresési technikák.

Kutatás információszerzés módszerek tudományos folyóiratokban közzétett. Hazánkban - a folyóirat "tudományos és műszaki információk" (STI) az Egyesült Államokban - a Journal of American Society of Information Systems (JASIS).

Minden megtalálható sok éve, eszközöket és információkat keresési technikák állnak rendelkezésre, és hatékonyan megtalálni információkat az interneten.

A könyvtárak főleg háromféle katalógusok: alfabetikus, szisztematikus és érdemi. Adatkezelő rendszer (IRS) Az internet, az összes külső sokféleség, és esik ezen osztályok egyike. Szóval, mielőtt megismerkedhetnek ezen IRS, lássuk, hogyan kell megépíteni absztrakt ábécé (szótár), szisztematikus és visszakeresés rendszert. És meg kell felelnie több és néhány fogalmat információszerzés elmélet. A kirándulás az elmélet lesz hasznos, amikor az IRS egyszer (és az interneten több száz) - ezekben IRS akkor ismerős és jellemzői.

Kirándulás az elméletbe
információkereső rendszerek

Ezt az információt a követelmény gyakran (általában) nem is lehet pontosan kifejezni szavakkal, és fejezzük csak az értékelési dokumentumok nézett - alkalmas vagy nem alkalmas. Az információszerzés elmélet helyett a „megfelelő” kifejezés használatát a „helyességét” című dokumentumban, hanem „nem illik” - „nem helytállóságát.” A „helytállóságát” származik az angol „idevágó”, ami azt jelenti: „az ügyre vonatkozó, sőt szükséges.” Szubjektív megértése céljából információkeresés - megtalálja jelentőségét és csak helytállósága iratok (akarunk találni „csak, hogy mit akarunk, és semmi több”).

Ha sok dokumentumot, használt adatkezelő rendszer (IRS). Ebben az esetben az adatok olyan formában kell kifejezni, amelynek révén „megérti” az IRS - kell megfogalmazni kérése:

Kérdés ritkán lehet pontosan kifejezni az információkat szükség. Azonban sok az IRS különböző okokból nem tudja megállapítani, hogy egy adott dokumentumra vonatkozó kérelmet. Mértékben megfelel a dokumentumra vonatkozó kérelmet az úgynevezett jelentősége. A vonatkozó dokumentumot lehet nepertinentnym és fordítva. Ismert (US) IPA, amely a kérelmet, amely egyetlen szó „Oroszország” (Oroszország), ad egy listát a dokumentumok, amelyek közül az első a szó egyáltalán nem, de van egy szó „Gagarin”. Ez a dokumentum nem releváns, de pertinenten a főáramú amerikai közönség. Abban az esetben, ha keres információt küzdenek horog (macska), a kérés áll a „macska”, szinte minden IRS ad egy csomó fontos, de nepertinentnyh dokumentumokat.

A klasszikus példája az osztályozás és visszakereső rendszer - Yahoo (www.yahoo.com). Alig jelent meg, a Yahoo gyorsan szerzett elismerést kvalitatív vizsgálat az osztályozó. Most Yahoo több mint 100 rothasztó.

Ez nem könnyű feladat. Van olyan foglalkozás, hogy megoldja ezt a problémát - a fordítók. Egy jó fordító fordítja nemcsak a szavak, hanem az úgynevezett „kulturális valóságot.” Abban az esetben, információt keresni a megfelelő szakmai úgynevezett „információs iroda.” Övé kognitologicheskimi technikák, tudja, hogyan kell megépíteni osztályozók, és hogyan értelmezik systematists. Ez a tudás lehetővé teszi, hogy az információs bróker beszélni, hogy vizsgálja meg a szükséges információkat, és kapcsolja be a kérelmet. Könyvtárakban, mint „információs irodák” működő információs és bibliográfiai osztály. Információs irodák Internet hazánkban találtuk, bár ez még mindig ritka.

Ezeket a technikákat használják olyan helyzetekben, ahol a dokumentum lehet rendelni egy bizonyos szakaszainak az osztályozó és végző személy kereső (search engine) nem lehet tudni, hogy pontosan mi oldalunkon.

Referencia akkor alkalmazzák, amikor az alkotók az osztályozó és systematists képes arra, hogy egyértelmű döntés utalva a dokumentum egyik szakasza az osztályozó, és a kereső bizonyos valószínűséggel a keresést a dokumentum, hogy jöjjön ki ezt a részt. Aztán a másik részén elhelyezett hivatkozás ( „látni”.) A részben az osztályozó, ami valójában információkat tartalmaz a dokumentumok az ilyen típusú.

Például egy térkép az ország információ lehet helyezni a „Tudomány / földrajz / Ország”, „Economics / földrajz / Ország” vagy „Hivatkozás / Maps / Ország”. A döntés születik, hogy a térképek országok kerülnek a második szakasz „Economics / földrajz / Ország”; míg a másik két szakasz hivatkozásokat helyezünk rá. Ezt a technikát széles körben használják az IRS Yahoo (amelyet referenciaként a @ jel).

Osztályozási és visszakereső rendszer az interneten egy csomó (egyes említett összefoglaló a IRS végén a cikk). Nagy osztályozás és visszakereső rendszer (Yahoo amerikai. Európai Yellow Web. Orosz Constellation Internet és Au) alkalmazásával kisegítő szótár IRS saját fejezetek (analógok Library indexek). Egyéb besorolási és visszakereső rendszer egyszerűen léteznek együtt IPA szótárban típusa (Excite, Lycos, Infoseek).







Szerencsére annak ellenére, hogy a rengeteg szavak (vagy kifejezések) természetes nyelven, többségük ritkán használjuk, azt is megjegyezte, tudós nyelvész Zipf a késő 40-es években a század. Ezen kívül a leggyakrabban használt szavak - ez szakszervezetek, elöljárók és cikkeket, hogy van, szavak semmit sem érnek, ha keres információt. Ennek eredményeként, a legnagyobb szótár szótár IRS Internet -Alta Vista - térfogata mindössze néhány GB.

Ahelyett, hogy „A dokumentumok, amelyek a»tábla«vagy dokumentumokat, amelyek a»szék«” használt rövidített kifejezést az ábrán látható. További expressziójának csökkenését találtuk a keresett nyelvi szótár visszakereső rendszer: a „Találd meg a dokumentumok listáját, amelyek a»tábla«vagy dokumentumokat, amelyek a»szék«”, a legtöbb szó visszakereső rendszer elég ahhoz, hogy írjon valamit, mint

Unióban vagy egy lekérdezést a szótárban IPS működik, mint egy logikai operátor, amely összeköti több a kért dokumentumokat. Vocabulary IRS használ három logikai operátorokat: OR, AND és AND-NOT ( "nem"); Általános szabály, hogy ezek a kijelentések állapított meg a következő módon:

Ezek az operátorok prioritása van (elsősorban végez, és nem akkor - és csak akkor - OR), így összeállítása bonyolult lekérdezések használhatja zárójelben (az egyetlen kivétel az, hogy ahelyett, hogy Infoseek IRS zárójelben használ más elnevezésekkel.). Általános szabály, szótár IPS Internet segítségével a felhasználók két interfész - üzemmód „komplex kérés” (részletes keresés „), amelyek rendelkezésre állnak mind a logikai operátorok és egyszerű keresési mód, ahol, mint általában, lehetetlen használni a zárójelek és ezért lehet használni nem minden kombinációja szereplők.

Nézzünk egy hipotetikus példát keresést tájékoztatás a táblákat. Tekintettel az esetekben az „asztal”, és tudásunk logikai operátorok, egy hívás, hogy a szótár visszakereső rendszer a következőképpen nézhet ki:

egy asztal vagy egy asztal vagy egy asztal vagy egy asztalon

Nos, ez csak egy szó, de az írás nagyon szomorú.

Western IPA középpontjában az angol nyelvet, egy egyszerű megoldás: szó helyett írhat az elején, cserélje ki a változó rész csillaggal:

Formálisan a csillag helyettesíti tetszőleges számú karakter, azt mondják, hogy ez jelenti a jobb csonkolást. Hívja a szó kijelölése „táblázat *” nyelv nem kapcsol be, így ezek a részek a logikai lekérdezés kifejezések név feltételeket. A csillag az erre a célra (jobbra csonkolás) által alkalmazott összes ismert szótárak Internet IPS.

Azonban egy ilyen kérelem találná és dokumentumokat a „étkező”, „asztallap”, „vezető jegyző”, sőt „post”. Ez a jelenség - egy mesterséges sinonimija - nagyban befolyásolják a kereső, de a megnyilvánulása gyakran lehetetlen előre megjósolni.

Két orosz IPS (Yandex és a Sic) „tudja” az orosz nyelvtan és szótár tárolni csak az úgynevezett „normális forma” szónak (főnév - nominative egyes szám). Ezek a rendszerek lehetővé teszik az írás kérelmet természetes nyelv, normalizálja a lekérdezési kifejezések, és ezáltal jelentősen egyszerűsíti a keresési orosz interneten.

Leírt lehetséges szótalálás rendszer, bár elég erős, gyakran teljesen alkalmatlan kíván még a nagyon alapvető információkat. Próbáljuk megoldani a következő problémát: információt találni az értékesítés fém székek:

* Fém és székek *

De ez a kérelem megfelel az árlista kereskedelmi cég, hogy eladja fonott fa szék (második sor az árlista), és egy fém szekrény (line 178 listaár). ÉS operátor dokumentumok keresése, amelyek a keresési feltételek bárhol!

E hiányosság, néhány IRS tárolni nem csak dokumentumok listáját, amelyekben a szó, hanem a szavak száma az adott dokumentum. Ez lehetővé teszi, hogy a lekérdező nyelvet használni IPS KÖZELÉBEN rendszer, amely megoldja a problémát:

Fém szék * * NEXT

Sok IRS nem teszi lehetővé, hogy írjon egy ilyen kérelem - nekik nem szabad, hogy használják a jobbos csonkolást együtt számos operátor (csak szavak), de ezt a korlátozást fokozatosan visszavonták, - kövesse az információkat a konkrét IPS.

Tartsuk szereplő különböző IRS kijelölt másképp (ez elérhető a Alta Vista. Lycos. AltaVista és Yandex. Csakúgy, mint az IPS DejaNews telekonferencia. És a különböző megjelöléseket használják az összes IRS). Sőt, a különböző IRS akkor számos különböző jelentése. Tehát, Alta Vista úgy véli, hogy közel - ez nem több, mint 15 szó, bármilyen sorrendben, míg más IPS lehetővé teszi, hogy adja meg a szükséges távolságot a szavak között (pontosan úgy ahogy van, vagy nem több, mint egy bizonyos szám). Lycos megadhatja, a távolság és a kívánt sorrendben a szavakat. Sic lehetővé teszi, hogy meghatározza a távolságot a szavak közötti szavak és mondatok; Yandex - szavakban és bekezdések (a képesség, hogy a szavak sorrendjének követni).

Amerikai szerver IPS Alta Vista (www.altavista.digital.com) egyedülálló módon finomítani a keresési eredményeket. Ez a módszer csak akkor működik, ha csak az angol kifejezéseket a lekérdezés.

Ha rákattint a gombra, finomítása van egy lista a fogalmak, amelyek előfordulnak az újonnan talált dokumentumokat. Minden fogalom Alta Vista kötődik szavak listáját, hogy azonnal látható. Minden fogalom is szerepel az új kérés, hogy kizárják, vagy figyelmen kívül hagyja. Ez önmagában is jelentősen javítja a hatékonyságot a keresési megszüntetésével a koncepció nem szükséges tárgykörben, és együttélés a kifejezéseket gyakran használják nehéz kitalálni.

Ha a böngésző Java, majd nyomja Graph. akkor megjelenik egy diagram közötti kapcsolatok fogalmakat, és emellett képesek lesznek, és kizárják a vizsgálat nem csak a koncepció az egész, de bizonyos szavakat velük kapcsolatban.

Tárgy IPS a felhasználó szempontjából a legegyszerűbb szerkezetű. Keresse meg a nevét az objektum az ő érdeke (az alany lehet valami lényegtelen mint például az indiai zene), és a nevét a láncolt lista a vonatkozó internetes források. Ez különösen hasznos lenne, ha a teljes listát a tételek kicsi.

Így volt néhány évvel ezelőtt. Web-mester, kezeléséhez alá kezdett fektetni a szerverek linkek kollégái szervereket, ami egy körkörös hivatkozás szerkezetét.

Egyértelmű, hogy megtalálja a megfelelő tárgyat az érdeklődés már könnyű. www.webring.org van saját leányvállalata IPS - Besorolás és szókincs, hogy segítsen megtalálni az objektum nevét.

Adj egy általános recept hatékony keresési stratégia információt az interneten, talán lehetetlen. Vannak elvek kevesebb időt töltenek. Megpróbálom elmagyarázni nekik.

Kezdjük egy példát. Ha meg kell, hogy megtudja, hol a fa nő áfonya, nem valószínű, hogy fog menni a betűrendes katalógus a könyvtár. Talán meg fogja találni a szükséges szakirodalom segítségével szisztematikus katalógus. Néhány nagyobb valószínűséggel - via objektumot. De a legvalószínűbb, sem a könyvtár könyvtárak nem segít. De menj az információs-bibliográfiai osztálya nagy könyvtárak, és kapnánk adó bibliográfus bibliográfia cserjék vagy valami hasonló füzet, ahonnan, és megtalálja a választ a kérdésre.

Hasonló stratégiát is sikeresen alkalmazható az interneten. Az általános célú IPA lehet süllyedni ezer referenciák, ki neked egy egyszerű kérés. A cél egy univerzális általános célú keresés és visszakeresés rendszer szakosodott IRS elkötelezett a tárgya a keresést. Ilyen IPA lehet felismerni az „információs (információ)”, „dokumentum (dokumentum)”, stb A talált az egyetemes IRS dokumentumokat. De gyakran szakosodott IRS is bujkál a szerver nyilvános, szakmai vagy szakosodott szervezet, a kiadók.

Néha meg kell keresni több információs rendszerek szűkebb témát. Egy nap arra kértek, hogy sürgősen talál információt eladásra száraz teherhajók (angolul - bulker). Kérdés Alta Vista (egyszerű keresés)

Ő adta nulla eredményt; érdeklődés

ezer linkek a szentelt értékesítése csónakok és jachtok számára (azonban elkapta és egy uszály). Egy alapos tanulmány az első néhány oldal a keresési eredményeket lista azt mutatja, hogy a „tengeri (tenger)” gyakran jelen van a talált szövegeket. Aztán eszembe jutott, hogy van egy szó „tengeri” az angol, vagyis „a tenger”. érdeklődés

Már az első tíz közé linkeket tartalmaz a link található www.GeoCities.com információt a tengeri szórakoztató rendszer. De az információ benne az értékesítés száraz rakomány nem volt. De volt a tájékoztatás küldését száraz rakomány a kikötők a világ, beleértve az információkat a tulajdonosok a hajók. Sok vállalat - hajók tulajdonosai voltak a neve a „hajó irodák (kereskedők bíróság).” Ez az angol kifejezést nem tudom. Azonban a kérelmet az Alta Vista

A harmadik elem a stratégia: használja több IPS. Ha rendszeresen keres információt bármilyen témáról, jelölje az IPA. hogy a munka az Ön számára.




Kapcsolódó cikkek