Pre jedno godinu dana imao sam problem i nisam ga rjesio :) tj. ili smo dobijali prevelik postotak losih razultat ili je hardware bio pre zatrpan. Evo kako sam ja to pokusavo rjesiti:
1. Uzmes tekst, izbacis iz njega kratke reci (na,u,sa ...) i onda izvrsis poredjenje. U biti to je ogromna kolicina poredjenja. - ovo mozes optimizovati: npr. radis sa prvim tekstom i poredis, od se podudara samo sa 4 tekstom. U tom slucaju uzimas 1 za referentni a 4 kao njemu slican eliminises iz danjih poredjenja.
2. Jedna od modifikacija prvog slucaja koja bi u pojedinim okruzenjima mogla da upali. Recimo da poredis samo tekstove sadrzaja strogo koncentrisanog na odredjenu temu. U tom slucaju prilikom redukovanja redukujes sve rjeci koje nisu u tvom internom vokabularu. Npr. recimo da trebas da trazis slicne tekostove koje pisu o Windows operativnom sistemu. Vokabul ce ti sadrzati sve reci vezane za windows (windows, active directory, blue screen :)...). Lose je to sto ti treba opsezan vokabular....
U svakom slucaju kad usavrsis neke djelove algoritma dolazis do problema pojave padeza: windows != windowsa ; panel != panelu itd itd. To sam pokusava rjesti trazeci korjen rjeci pa preko njega ali tu se javljaju neki treci problemi da rjeci koje nemaju veze svezom imaju slicne ili iste korjene itd itd...
Takodje u slucaju kad imas naslov i samo vijesti vise vaznosti pridodajes poklapanju naslova... itd. itd..
Zakljucak: bez dodavanja kljucih rjeci uz tekst nista.
tu nema kašike....