DBSpamClust : vers la disparition des fermes de liens ?

Pour en finir avec le spam, deux scientifiques indiennes ont élaboré une technique permettant de déterminer quels sites utilisent des techniques de spam. DBSpamClust est son doux nom.

Certains webmasters, souvent les black hat, spamment les moteurs de recherche, et en particulier Google, en générant des liens non naturels dans le but de duper les robots des moteurs pour augmenter le positionnement d’un site. Les deux chercheuses mettent en avant le fait que les sites utilisant le spam ont un graphique de liens atypiques.

Voici deux exemples de sites utilisant des techniques black hat (spam en tout genre) :

graphique de liens spam
graphique de liens spam 2

Le premier est un site de poker filtré suite à un afflux massif de liens, le second est dans la même thématique et positionné correctement.

Voici deux exemples de sites propres (selon le graphique) :

graphique de liens propre
graphique de liens propre 2

Le premier graphique est le site d’une association, avec des liens propres et naturels (gestion propre du site), le second correspond à un blog plutôt black (comme quoi…).

Nous savons tous ce qui peut influencer le PageRank : les liens. C’est la force et la faiblesse de Google et malgré de nombreux filtres, de nombreuses modifications, Google n’arrive pas à gérer le spam et les techniques black hat.
La lutte est active, des tests sont effectués.

Algorithme DBSpamClust

DBSpamClust prend en compte la typologie des liens, le réseau de liens, mais aussi le taux de croissance des liens et le taux de perte de liens
Il est possible d’utiliser cet algorithme sur le PageRank, regardez le schéma ci-dessous :

Surcouche anti spam pour le Page Rank

L’algorithme se trouve à la fin de la tâche, juste avant l’affichage et prend en compte la thématique du site étudié.

Cet algorithme n’est pas parfait, mais il permettrait de faire tomber de nombreuses fermes de liens, splogs tant à la mode en ce moment.
Les chercheuses restent réalistes et concluent leur papier par : certains spammeurs cachent les liens, ce qui pourrait leur permettre de contourner l’algorithme.

Si vous souhaitez aller plus loin, vous pouvez consulter les liens ci-dessous :

  • L’heuristique au service de la linkwheel (lien supprimé car en 404) chez RDD.
  • Marche aléatoire et détection de spam (lien supprimé site KO) chez Sylvain P.
  • Link spam detection based on DBSpamClust (version PDF).

16 réflexions au sujet de “DBSpamClust : vers la disparition des fermes de liens ?”

  1. Post intéressant.
    J’ai déjà fait des graphiques comme les tiens mais je ne me rappelle plus du nom du logiciel qui permet de le faire. Peux-tu le redonner ?
    Merci.

    Répondre
  2. Excuses-moi mais tes graphs ressemblent étrangement à ceux de haref qui ne voit rien de tes liens externes… mais uniquement la structure de ta page d’accueil… Enfin, sinon ça doit être possible de sortir des graphs, bonjour les ressources allouées quand même… pour les gros sites notamment, et puis les utiliser pour les classements ce serait vraiment donner le champ libre aux spammeurs… il suffira de linker à mort le site d’un concurent pour le dégager.

    Répondre
  3. Le côté graphique a quelque chose de fascinant ! Pour le reste, je trouve que c’est dans la logique : les spammeurs spamment, on trouve des solutions, qu’ils contournent un temps, pour être à nouveau bloqués… Une sorte de cercle de vie sur internet !

    Répondre
  4. @victor touchgraph faisait des graphs dans ce genre mais je ne l’ai plus utilisé depuis longtemps –

    Sinon ce serait pas mal des fois que GG fasse un peu de ménage… meme si il y a beaucoup de risques associés.

    Répondre
  5. Il faut surtout retenir cette phrase : "Les chercheuses restent réalistes et concluent leur papier par : certains spammeurs cachent les liens, ce qui pourrait leur permettre de contourner l’algorithme."

    Sinon il est certain que l’aspect bouquet final du 14 juillet au niveau du linking met forcement la puce à l’oreille. Sur cette trouvaille, je tire mon chapeau à ces chercheuses pour ce travail de transposition généalogique du linking 😉

    Et surtout avant de conclure, merci monsieur le gnome pour le lien !!

    Répondre
  6. Aucun souci, quand c’est mérité, je ne suis pas avare en liens.

    Avec BlackMelvyn on a plus parlé de pissenlit et de palmier, le dernier étant préférable, évidemment.

    Répondre
  7. C’est marrant ça me rappelle un article que j’avais lu sur Ratmort.fr.
    Théorie basée sur l’indiceRM (Rat Mort) et la fluxion, je cite : " Ce qui est donc essentiel à comprendre est que le contenu du site ou le nombre de liens n’est pas essentiel, mais plutôt l’évolution de ceux-ci dans le temps et par rapport aux autres.

    Répondre
  8. Les black hat doivent dire merci pour l’étude, maintenant ils savent comment faire plus proprement les choses, et on est revenu au point de départ…(gloire éphémère)

    Répondre
  9. Déjà vu ce genre de graphique moi aussi, mais bon c’était sans doute pas la même chose..

    S’ils appliquent vraiment ce système, je sens que ça va valser tout azimut, que ce soit des sites cleans ou pas..

    Répondre
  10. Un bon graphique est toujours efficace pour voir ce qui se cache derrière les sites, mais les black hat cache et cacherons toujours les liens les plus délicats.

    Répondre

Laisser un commentaire