Prometto di non portarvi rancore se non leggerete tutto l’articolo, ma oggi facciamo sul serio!

Negli ultimi giorni si vedono notevoli movimenti nelle SERP, specialmente nel mercato USA, dovute all’introduzione dell’ormai famoso Panda Update. (per chi fosse interessato su Google troverete centinaia di post che ne parlano)

Tutti ne parlano e tutti provano a capire i fattori determinanti per rimanere a galla, ma nessuno (mi sembra) ha pensato di capire perché Google continua ad introdurre questi filtri invece di trovare una soluzione definitiva. Quello che proverò a fare io è capire come possa ragionare il nuovo algoritmo ora, o meglio ancora nel futuro prossimo, in base ai risultati ottenuti dall’informatica. Tranquilli non sarò tanto tecnico, solo un pochetto.

La domande da porsi sono due:

1) Come può Google riconoscere se un testo è originale, interessante e merita la nostra lettura?
2) Come può riconoscere se un articolo è un copia incolla di varie frasi scorrelate tra loro?

A mio modo di vedere, l’unico sistema che potrebbe togliere ogni dubbio è la lettura di un essere umano!

Ma se vogliamo far compiere questo processo ad un computer (per quanto potente) entriamo nel campo della NLP (Natural Language Processing). Per chi di voi si intende di informatica, e credo praticamente nessuno, tale problema è purtroppo, o per fortuna, IA-completo. IA-completo significa che l’unico modo di risolverlo è creare un’intelligenza artificiale in grado di risolvere problemi reali (appunto quello che fa il nostro cervello). Ebbene, siamo ancora lontani da avere una soluzione informatica.

Escludendo quindi che Google, nonostante i geniacci che assolda, nonostante l’enorme potenza di calcolo a sua disposizione, abbia creato un prototipo di macchina “intelligente”, come può distinguere un testo genuino da uno falso?

Ecco cosa controllerei io, in ordine di importanza, se fossi al posto degli ingegneri di Google:

1) lunghezza del contenuto: più un articolo è corposo più è propabile che sia genuino. Questo perché si approfondisce meglio e c’è meno posto per la pubblicità. In sostanza l’equazione meno interessi commerciali = più passione.

2) contenuto originale: un contenuto non copiato è indice di tempo, lavoro e ricerca personale. Ricordo che è piuttosto facile, in termini informatici, capire se un articolo è derivato da altre parti. Se è concettualmente semplice per noi figuriamoci per gli ingegneri di Google

3) contenuto scritto bene: qui entra in gioco l’elaborazione del linguaggio naturale, e come abbiamo detto sopra Google non lo può calcolare. Quindi lo dovrà deddure! Io terrei conto di due cose: quanti premono il tasto indietro per tornare sul motore; considerata l’espansione di google analytics, quando tempo rimangono sulla pagina i lettori. Più tempo spendo su una pagina e più è probabile che io stia leggendo quello che cercavo

4) uso di immagini con didascalie: il classico formato di articoli prodotti da giornalisti e professionisti. Il contrario di quanto invece fanno i siti spam

5) approfondimenti e rimandi (link) a fonti autorevoli: un sito spam diffilmente rimanda a link istituzionali per approfondire il suo contenuto. Questo punto però prendetelo con le pinze: può essere introdotto con troppa facilità ed in modo automatico.

6) link a propri contenuti interni: un testo classico scritto in wikipedia è formato in questo modo

7) contenuti molto condivisi nei social network: se un articolo genera buzz è sicuramente interessante

8) trust rank: non mi stancherò mai di ripeterlo

Per concludere:

Sito di alta qualità = Contenuti di alta qualità + Alto Trust Rank


Commenti

Name (required)

Email (required)

Website

Speak your mind

  • Suggerimenti