Recupero di informazioni basato su frasi: appunti vari
Wednesday, January 17th, 2007Appunti vari e senza senso sulle note di alcuni brevetti
Passato / presente (?)
pagina <--> parola
Presente (?) / futuro
- Frasi “buone” o “non buone”
- Frasi buone: occorrenza superiore ad una certa soglia, oppure una “caratterizzazione” sintattica (eg. segni punteggiatura, markup tags…)
Frasi buone –> predizione –> altre frasi buone
Predizione piuttosto che mera sequenza di parole nel lessico.
Se non c’è predizione (o è limitata) la prase non è buona
Lunghezza tipica frase: da 2 a 4 o 5 termini (compresi i termini di uso comune [e,di,per…]).
Frase individuata da fine riga (\n ???), segni punteggiatura, stop words,
, altro..
i+1 -> 1+5
se nessuna delle frasi puo’ entrare in
“buone frasi” o “possibili frasi”
allora è cattiva e viene scartata
Più frasi correlate un documento contiene, maggiore punteggio avranno i “related phrase bit vectors” -> maggior ranking
“a body hit score and an anchor hit score.”
“For example, the document score for a given document can be calculated as follows: Score=0.30*(body hit score)+0.70*(anchor hit score). ”
To determine the anchor hit score for a given document d then, the search system 120 iterates over the set of referencing documents R (i=1 to number of referencing documents) listed in index by their anchor phrases Q, and sums the following product:
$rank = 0;
foreach (R as D)
{
$rank += Q.Related phrase bit vector*D.Q.Related phrase bit vector
}
