Neverovatne fraze

Pre više od dve godine pomenuo sam fascinantan Amazonov servis "Search Inside" koji raspolaže ogromnom bazom skeniranih i OCR-ovanih knjiga iz ponude. A malopre primetih jednu jako interesantnu primenu baze u servisu "statistički malo verovatne fraze" (SIP - "Statistically Improbable Phrases").

O čemu se radi? Njihovi serveri "čitaju" sadržaj skeniranih knjiga i za svaku knjigu izdvajaju nekoliko fraza koje se često pojavljuju u toj, ali jako retko u ostalim knjigama na Amazonu. Vrlo je verovatno da su dotične fraze usko povezane sa samom radnjom knjige, te su SIP-ovi praktično mašinski izdvojene ključne reči.

Moćna stvar! :)


autor jablan | 16.12.05.

Komentari

Dodajte svoj komentar:



Obavesti me kad neko odgovori na ovaj zapis? / Notify me when someone responds to this entry?

O sajtu
Autori
FAQ
Linkovi

Kategorije

Lično
Opšte
Pretraživači
Razvoj
Softver
Veb

Pretraga sajta

Arhiva

po datumu
po kategoriji

RSS 0.91

Powered by
pMachine