Hogyan írjunk egy robot archív - Fórum az Internet Marketing

Mit kell egy robot?
A robot kell index a telek. Azt suschsestvuet számos javaslatot ebben a tekintetben.

1.2 tartalmazza az összes szót, hogy csak megtalálja. A szavak száma
folyamatos sorozataként érvényes karaktereket. Megengedett, hogy fontolja meg az angol ábécé, számok, orosz ábécé és néhány különlegességet. jelek (pl. egy kötőjel). Ie sőt „a”, „de” vagy „varumpik-strivomnluns” számít a szavakat.

xm Azt ajánlom a következő szerkezetet az adatbázisban (ez jobb, hogy ez egy relációs, de lehet csinálni nélküle):

táblázat „szótár”:
id (index) | szó (string)

táblázat „oldal”:
id (index) | URL (string) | lejártát (datetime) | meglátogatott (logikai)

tábla „a” (fő):
id (index) | word_id (index "szótár") | PAGE_ID (index
"Oldalai") | számítanak (integer)

Tegyük fel, hogy ez a célzott az alábbi táblázat, „szótár”
Általa összegyűjtött 450.000 rekordokat. Tegyük fel, a srednestatichticheskom oldalon található 1000 oldalt és minden oldalon átlagosan 500 nem ismétlődő szavakat. így azt találjuk, hogy minden oldalon kijövünk 500.000 rekordok az asztalra „a szó”. Ez már komoly teher, de az index saját honlapján meglehetősen realizálható. Azt is meg lehet vágni általánosan használt indulatszavak alapját jelentő 10-30% -os terhelés típus „de”, „a”, stb Ehhez, azt lehetett volna adni egy mezőt asztal szótár „tiltott” logikai típusú. Ezzel akkor csökkentheti a terhelést.

„Hierarchikus osztályozó” írta most egy robot írni. bl:

Kapcsolódó cikkek