Une petite histoire de Google

Ecrit le 13 février 2018. Publié dans Référencement

Il est indispensable de connaître l’histoire des moteurs de recherche pour comprendre leur fonctionnement et agir en conséquence. Sans faire l’apologie des pratiques black-hat (pas très propres ni très honnêtes), adapter ses techniques et méthodes de référencement à l’évolution des moteurs de recherche est tout simplement la base pour être efficace et espérer un retour sur investissement, au vu du temps consacré au SEO.

Prenons le temps d’observer les évolutions de Google, le plus célèbre et le plus utilisé (plus de 90% de parts de marché) des moteurs en France.

Les 90’s

Google a succédé aux grands-pères des moteurs que sont Archie (1990) et Wanderer (1993). Le premier fonctionnait avec des lignes de commandes… Le second pose les bases de fonctionnement : faire parcourir automatiquement par un robot (crawler) tous les sites web accessibles, et créer une sorte de répertoire, d’annuaire contenant des informations descriptives de ces sites web. Le passage d’un site à un autre, pour parcourir toute la Toile, était assuré par les liens hypertextes : c’est toujours le cas et on comprend tout de suite l’importance des ces liens.

Avec l’augmentation rapide du nombre de sites, Yahoo! utilise en 1994 une technologie mélangeant l’annuaire, mis à jour manuellement par des êtres humains, et le crawler qui parcoure inlassablement le web pour classifier les sites sur la base de mots-clé. En 1997, Lycos! a indexé 60 millions de documents. Mais cette méthode ne fournit pas de réponse rapide et satisfaisante aux internautes : temps de recherche et de lecture long pour obtenir une réponse satisfaisante.

WebCrawler est créé en 1994 également. Il peut indexer le texte intégral des pages web parcourues. Il évolue vers un méta-moteur, seule solution pour fournir de nombreuses réponses. Un méta-moteur récupère les résultats des moteurs, les dé-doublonne et les affiche. Ce robot est vendu à Excite en 1996 mais l’activité de crawl cesse en 2001.

Obtenir de l’information sur Internet passe donc à l’époque par l’utilisation de moteurs peu performants et d’annuaires, chronophages en mises à jour réalisées par des humains.

Beaucoup d’entreprises tentent de créer et d’imposer leur moteur mais la technologie n’est pas à la hauteur de leurs ambitions, ni des attentes des internautes. En 1998, Google donc arrive dans un contexte propice, et Sergueï Brin et Larry Page ont de grandes ambitions et une offre terriblement séduisante.

Google est simple d’utilisation : l’interface est d’une sobriété à toute épreuve, et n’a pratiquement pas changé depuis le début.

Google est très rapide pour retourner des résultats : à l’époque du bas-débit facturé à la minute consommée, c’est une véritable bénédiction pour les internautes. Et les résultats affichés sont bien plus pertinents que tout ce qui avait été proposé jusqu’ici : les internautes trouvent des réponses à leurs questions et des informations correspondant à leurs recherches. Ces mêmes internautes s’enhardissent devant la qualité des résultats et essaient des requêtes plus complexes : celles-ci sont récupérées et utilisées par Google pour améliorer ses algorithmes. Les travaux sur l’Intelligence Artificielle et le développement de RankBrain trouvent sans doute leur origine ici : l’outil s’adapte et évolue en fonction de son utilisation par les internautes.

Google est souple d’utilisation, et s’adapte à ses utilisateurs : il permet par exemple de filtrer recherches et réponses par langue et par pays. On distingue déjà les prémices du référencement local sur lequel Google travaille particulièrement dur depuis 2017.

Google lance rapidement le PageRank© (PR), pour évaluer la qualité quantitative d’un site (de 0 à 10), et donc son classement dans les SERP. Il est globalement basé sur la quantité de backlinks (BL) dont dispose un site : cette notation a entraîné la publication massive de BL de la part des référenceurs. Google a revu ses algorithmes pour contrer cette offensive. Cet indicateur était disponible pour les webmasters jusqu’en 2016. Depuis, Google continue à l’utiliser pour le positionnement mais n’indique plus la valeur pour un site donné.

Le PageRank introduit le concept de Link Juice : la puissance d’un lien et son impact sur la page qu’il cible. Un site a fort trafic et à forte notoriété possède plus de Link Juice qu’un autre, plus modeste. Un lien en provenance de ce site est plus puissant qu’un autre. De même, sur un site donné, les liens internes n’ont pas tous le même « stamina » car toutes les pages n’ont pas la même puissance.

Les premières plate-formes d’achat/vente de BL apparaissent : Google sanctionne aussitôt en faisant disparaître des sites comme SearchKing des résultats de recherche.

Les 2000’s

Les méthodes basiques des SEO consistent beaucoup en du Keyword Stuffing et de la sur-optimisation de texte d’ancre. En 2003, Google applique la mise à jour « Florida » pour pénaliser ces pratiques.

Les pratiques black-hat ont toujours la vie facile, avec des techniques de plus en plus poussées (pages satellites, redirections Javascript, etc.).

2005 : Google lance la balise « nofollow » pour contrer, entre autres, les pratiques de SpamCo. La balise indique aux crawlers de ne pas suivre ce lien. Les SEO s’empressent de détourner la balise pour mettre en place du PageRank Sculpting sur leurs sites : privilégier certains liens pour pousser certaines pages, orienter le Link Juice pour tromper Google. Ce dernier annonce en 2008 que les liens balisés nofollow ne transmettent plus de Link Juice, rendant la manoeuvre caduque.

2006 : Google annonce qu’un site officiel de BMW est banni des SERP pour avoir utilisé une technique black-hat appelée cloaking. La méthode consiste à donner deux codes différents sur une même page : un pour les crawlers (optimisé SEO) et un pour les internautes.

2008 voit l’arrivée des Suggestions Google (Google Suggest): au fur et à mesure que l’internaute saisit du texte dans la barre de recherche, le moteur lui fait des propositions en rapport avec les requêtes les plus courantes s’approchant de celle que saisit l’internaute. Cette fonctionnalité est rapidement utilisée par les référenceurs pour effectuer des recherches de mots-clé (KW).

Les réseaux sociaux sont exploités à partir de 2009 pour fournir des informations fraîches, autre critère de qualité selon Google. La mise à jour Cafféine permet au moteur d’indexer les sites web plus souvent, et donc de fournir de l’information plus récente qu’avant. Google intègre les tweets dans ses résultats, et ce jusqu’en 2011.

La mise à jour Vince est ressentie par les référenceurs comme avantageant les marques. D’après un porte-parole de Google, Matt Cutts, elle valorise la confiance, la réputation, la popularité, la qualité, etc.

2010 : au cours d’un entretien, Google et Bing confirment que Twitter et Facebook influencent le SEO des sites web.

Sans que ce soit à proprement parlé un algorithme, Google tient clairement compte de la vitesse de chargement des sites depuis 2010, surtout sur PC.

2011 : lancement du célèbre Panda, algorithme visant à ne plus prendre en compte les BL posés sur des sites de faible qualité de contenus. Google évalue ainsi la qualité des contenus, mais également le comportement des internautes sur un site donné (pages/visite, taux de rebond, pogo-sticking, etc.).

A la suite, Google applique en 2012 le non moins fameux filtre Penguin (manchot, et non pas pingouin). Celui-là pénalise clairement les sites s’appuyant sur les BL de médiocre qualité. Les stratégies de publications dans des annuaires, de construction de Private Blog Network (PBN) ou de contenus spinnés sont particulièrement impactées par le manchot. Parallèlement, Google met à disposition un outil de désaveu, pour permettre aux éditeurs de sites de se débarrasser de BL encombrants, et ainsi échapper à une trop sévère pénalité.

Google commence sa chasse au trop-plein de publicité en 2012, et sanctionne les pages surchargées, particulièrement au-dessus de la ligne de flottaison. La chasse aux Exact Match Domains commence également en 2012.

Dans la longue série de mises à jour, qui ne verra sans doute jamais de fin, Hummingbird (Colibri) débarque en 2013. Sa finalité est de comprendre encore plus finement les requêtes (vrai défi avec l’avènement des recherches orales sur smartphone) ainsi que les contenus.

En 2014 arrive Pigeon (?) qui se concentre sur l’amélioration des résultats locaux, en s’appuyant notamment sur le Knowledge Graph et sur la localisation de l’internaute via son IP et/ou ses coordonnées GPS. Le pigeon aurait subi un lifting en 2016, baptisé Possum. La même année, Google officialise la prise en compte du https pour le classement des sites, même si l’impact semble minime.

RankBrain voit le jour en 2015 : il permet l’apprentissage automatique pour mieux répondre aux requêtes complexes. Il n’a pas d’impact SEO, d’autant que Google affirme qu’il est impossible de faire des optimisations pour plaire à RankBrain. En 2015, Google met l’accent sur la compatibilité des sites avec les supports mobiles, et pénalise ceux qui ne s’affichent pas correctement pour interagir.

La vitesse de chargement sur smartphone est un critère d’évaluation à partir de 2018.