Appunti vari e senza senso sulle note di alcuni brevetti

Passato / presente (?)

pagina <--> parola

Presente (?) / futuro

- Frasi “buone” o “non buone”
- Frasi buone: occorrenza superiore ad una certa soglia, oppure una “caratterizzazione” sintattica (eg. segni punteggiatura, markup tags…)

Frasi buone –> predizione –> altre frasi buone
Predizione piuttosto che mera sequenza di parole nel lessico.

Se non c’è predizione (o è limitata) la prase non è buona

Lunghezza tipica frase: da 2 a 4 o 5 termini (compresi i termini di uso comune [e,di,per...]).

Frase individuata da fine riga (\n ???), segni punteggiatura, stop words,
, altro..

i+1 -> 1+5

se nessuna delle frasi puo’ entrare in

“buone frasi” o “possibili frasi”

allora è cattiva e viene scartata

Più frasi correlate un documento contiene, maggiore punteggio avranno i “related phrase bit vectors” -> maggior ranking

“a body hit score and an anchor hit score.”

“For example, the document score for a given document can be calculated as follows: Score=0.30*(body hit score)+0.70*(anchor hit score). ”

To determine the anchor hit score for a given document d then, the search system 120 iterates over the set of referencing documents R (i=1 to number of referencing documents) listed in index by their anchor phrases Q, and sums the following product:

$rank = 0;
foreach (R as D)
{
$rank += Q.Related phrase bit vector*D.Q.Related phrase bit vector
}


Commenti

Name (required)

Email (required)

Website

Speak your mind

  • Suggerimenti