DBSpamClust : vers la disparition des fermes de liens ?

14/01/2011

Pour en finir avec le spam, deux scientifiques indiennes ont élaboré une technique permettant de déterminer quels sites utilisent des techniques de spam. DBSpamClust est son doux nom.

Certains webmasters, souvent les black hat, spamment les moteurs de recherche, et en particulier Google, en générant des liens non naturels dans le but de duper les robots des moteurs pour augmenter le positionnement d’un site. Les deux chercheuses mettent en avant le fait que les sites utilisant le spam ont un graphique de liens atypiques.

Voici deux exemples de sites utilisant des techniques black hat (spam en tout genre) :

graphique de liens spam
graphique de liens spam 2

Le premier est un site de poker filtré suite à un afflux massif de liens, le second est dans la même thématique et positionné correctement.

Voici deux exemples de sites propres (selon le graphique) :

graphique de liens propre
graphique de liens propre 2

Le premier graphique est le site d’une association, avec des liens propres et naturels (gestion propre du site), le second correspond à un blog plutôt black (comme quoi…).

Nous savons tous ce qui peut influencer le PageRank : les liens. C’est la force et la faiblesse de Google et malgré de nombreux filtres, de nombreuses modifications, Google n’arrive pas à gérer le spam et les techniques black hat.
La lutte est active, des tests sont effectués (voir l’article : Google lutte contre le spam avec les internautes).

Algorithme DBSpamClust

DBSpamClust prend en compte la typologie des liens, le réseau de liens, mais aussi le taux de croissance des liens et le taux de perte de liens
Il est possible d’utiliser cet algorithme sur le PageRank, regardez le schéma ci-dessous :

Surcouche anti spam pour le Page Rank

L’algorithme se trouve à la fin de la tâche, juste avant l’affichage et prend en compte la thématique du site étudié.

Cet algorithme n’est pas parfait, mais il permettrait de faire tomber de nombreuses fermes de liens, splogs tant à la mode en ce moment.
Les chercheuses restent réalistes et concluent leur papier par : certains spammeurs cachent les liens, ce qui pourrait leur permettre de contourner l’algorithme.

Si vous souhaitez aller plus loin, vous pouvez consulter les liens ci-dessous :

Article rédigé par

a écrit 137 articles sur le Blog SEOlitiquement incorrect.

{ 16 Commentaires… à lire. ajouter le votre. }

Victor January 14, 2011 à 8 h 48 min

Post intéressant.
J’ai déjà fait des graphiques comme les tiens mais je ne me rappelle plus du nom du logiciel qui permet de le faire. Peux-tu le redonner ?
Merci.

El-annuaire January 14, 2011 à 8 h 50 min

Excuses-moi mais tes graphs ressemblent étrangement à ceux de haref qui ne voit rien de tes liens externes… mais uniquement la structure de ta page d’accueil… Enfin, sinon ça doit être possible de sortir des graphs, bonjour les ressources allouées quand même… pour les gros sites notamment, et puis les utiliser pour les classements ce serait vraiment donner le champ libre aux spammeurs… il suffira de linker à mort le site d’un concurent pour le dégager.

Vince January 14, 2011 à 8 h 53 min

Le côté graphique a quelque chose de fascinant ! Pour le reste, je trouve que c’est dans la logique : les spammeurs spamment, on trouve des solutions, qu’ils contournent un temps, pour être à nouveau bloqués… Une sorte de cercle de vie sur internet !

Gourou du Pink SEO January 14, 2011 à 9 h 03 min

Exact El-annuaire, tu trouveras les mêmes schémas dans le PDF (Figure 4 Query nature Vs spamness).

Le Juge SEO January 14, 2011 à 10 h 47 min

@victor touchgraph faisait des graphs dans ce genre mais je ne l’ai plus utilisé depuis longtemps -

Sinon ce serait pas mal des fois que GG fasse un peu de ménage… meme si il y a beaucoup de risques associés.

Renardudezert January 14, 2011 à 11 h 33 min

Il faut surtout retenir cette phrase : "Les chercheuses restent réalistes et concluent leur papier par : certains spammeurs cachent les liens, ce qui pourrait leur permettre de contourner l’algorithme."

Sinon il est certain que l’aspect bouquet final du 14 juillet au niveau du linking met forcement la puce à l’oreille. Sur cette trouvaille, je tire mon chapeau à ces chercheuses pour ce travail de transposition généalogique du linking ;)

Et surtout avant de conclure, merci monsieur le gnome pour le lien !!

Gourou du Pink SEO January 14, 2011 à 14 h 22 min

Aucun souci, quand c’est mérité, je ne suis pas avare en liens.

Avec BlackMelvyn on a plus parlé de pissenlit et de palmier, le dernier étant préférable, évidemment.

Morgan January 15, 2011 à 5 h 49 min

Une petite légende serait parfaite monsieur gnome.

Pour ce qui est de la puissance de calcul requise, google a largement ce qu’il faut amha ;)

Alecsy January 15, 2011 à 10 h 47 min

Très intéressant. Merci pour l’information.

Sublimeo January 15, 2011 à 16 h 45 min

Excellentes infographies : 1 image vaut mille mots !

C’est beau le BlackHat tout de même…

ben January 15, 2011 à 17 h 19 min

En clair le dernier site passe a travers car il spam aussi du réseau externe.

El-annuaire January 15, 2011 à 17 h 38 min

Ah c’est en analysant les sites qu’elles arrivent à ça et pas le réseau de liens… bon je m’en vais… j’y comprendrais jamais rien au BH de toute façon :D

Christophe January 17, 2011 à 18 h 14 min

C’est marrant ça me rappelle un article que j’avais lu sur Ratmort.fr.
Théorie basée sur l’indiceRM (Rat Mort) et la fluxion, je cite : " Ce qui est donc essentiel à comprendre est que le contenu du site ou le nombre de liens n’est pas essentiel, mais plutôt l’évolution de ceux-ci dans le temps et par rapport aux autres.

Refschool January 18, 2011 à 5 h 51 min

Les black hat doivent dire merci pour l’étude, maintenant ils savent comment faire plus proprement les choses, et on est revenu au point de départ…(gloire éphémère)

DemonBlack February 2, 2011 à 22 h 06 min

Déjà vu ce genre de graphique moi aussi, mais bon c’était sans doute pas la même chose..

S’ils appliquent vraiment ce système, je sens que ça va valser tout azimut, que ce soit des sites cleans ou pas..

communique de presse February 6, 2011 à 4 h 10 min

Un bon graphique est toujours efficace pour voir ce qui se cache derrière les sites, mais les black hat cache et cacherons toujours les liens les plus délicats.


7 × = 35

Article précédent:

Article suivant: