Archive for January, 2007

Recupero di informazioni basato su frasi: appunti vari

Wednesday, January 17th, 2007

Appunti vari e senza senso sulle note di alcuni brevetti

Passato / presente (?)

pagina <--> parola

Presente (?) / futuro

- Frasi “buone” o “non buone”
- Frasi buone: occorrenza superiore ad una certa soglia, oppure una “caratterizzazione” sintattica (eg. segni punteggiatura, markup tags…)

Frasi buone –> predizione –> altre frasi buone
Predizione piuttosto che mera sequenza di parole nel lessico.

Se non c’è predizione (o è limitata) la prase non è buona

Lunghezza tipica frase: da 2 a 4 o 5 termini (compresi i termini di uso comune [e,di,per…]).

Frase individuata da fine riga (\n ???), segni punteggiatura, stop words,
, altro..

i+1 -> 1+5

se nessuna delle frasi puo’ entrare in

“buone frasi” o “possibili frasi”

allora è cattiva e viene scartata

Più frasi correlate un documento contiene, maggiore punteggio avranno i “related phrase bit vectors” -> maggior ranking

“a body hit score and an anchor hit score.”

“For example, the document score for a given document can be calculated as follows: Score=0.30*(body hit score)+0.70*(anchor hit score). ”

To determine the anchor hit score for a given document d then, the search system 120 iterates over the set of referencing documents R (i=1 to number of referencing documents) listed in index by their anchor phrases Q, and sums the following product:

$rank = 0;
foreach (R as D)
{
$rank += Q.Related phrase bit vector*D.Q.Related phrase bit vector
}

PageRank, Filtri, Contenuti duplicati… Yo-ho, beviamoci su!

Wednesday, January 17th, 2007

Ultimamente si legge di tutto: il page rank che danza, linkbaiting, webmaster disperati per le fluttuazioni dei risultati in Google, filtri per sovra-ottimizzazione, contenuti duplicati.. ma che è tutto questo casino ???

  • E’ stato ridotto il peso degli scambi-link: molti siti con scambi link (specialmente in home) solo andati a picco
  • E’ stato incrementato il peso dei backlink univoci: siti autorevoli e siti che non accettano scambi link sono saliti. Come conseguenza molti backlink spontanei da siti a pr0,1,2,3 valgono più di un link pr 5,6 scambiato o comprato.
  • I siti ad alto pr per scambi link sono praticamente stati decimati
  • Hanno cominciato a punire “pesantemente” i siti per sovraottimizzazione. Es con url, title, h1 uguali non comparirai mai più decentemente nelle SERP. Questo è vero se il sito non è abbastanza autorevole.
  • Hanno introdotto un notevole filtro antiduplicazione che spesso penalizza anche siti innocenti ma che per colpa di CMS non ponderati pubblicano contenuti duplicati oppure la struttura della pagina è più rilevante del contenuto stesso

Come si accorge un motore se un link è spontaneo o meno ?

Un esempio banale:

Il mio sito riceve un link (comprato) da un pr7, ma ho pochissimi link da pr inferiori (0,1,2,3,4)… quel pr7 a Google sa tanto da comprato e la giudico poco. Se si accorge che sbaglia (es. pubblico una notizia di successo) gli dà il giusto valore, ma se ha ragione a dubitare penalizza sia il mio sito che quello che mi ha venduto il link.