En kiosque

Dossier Pour la Science N°66 - janvier - mars 2010

fondamental
Informatique

Le secret de Google

L'ensemble des pages Internet disponibles constitue une base d'informations tentaculaire, parcourue par les moteurs de recherche. Google ne lève qu'une partie du voile sur ses méthodes…

Jean-Paul DELAHAYE

L'humanité, donc chacun de nous, est en train de faire une expérience nouvelle : un ensemble de données d'une taille incroyablement supérieure à tous ceux dont nous avons pu disposer jusqu'à présent est accessible instantanément grâce à Internet. En faisant glisser nos doigts sur le clavier d'un ordinateur relié au réseau des réseaux, nous faisons apparaître sur l'écran de notre machine une page (composée de textes, d'images et de vidéos) choisie parmi une quantité inouïe de documents électroniques, physiquement localisés sur les ordinateurs du monde entier.

Bien sûr, pour s'y retrouver, des outils sont nécessaires. Vous pouvez noter les adresses des pages qui vous sont utiles, mieux, vous pouvez stocker ces adresses et les organiser en tenant compte de vos critères propres : ce sont les systèmes de signets. Vous pouvez aussi télécharger les pages qui vous intéressent le plus et les ranger dans des dossiers de votre ordinateur, dossiers que vous classerez en les emboîtant ; cela constituera une bibliothèque personnelle électronique que vous compléterez en suivant les liens contenus dans ces pages stockées. En théorie, on se débrouille par de tels moyens artisanaux, et, au début d'Internet, chacun travaillait ainsi.

Qu'est-ce qui a changé ? Les moteurs de recherche ! Ils vous dispensent presque totalement des signets et des téléchargements. Si vous voulez connaître les rapports entre deux personnages que rien ne rassemble, tapez dans le moteur de recherche Einstein et Marilyn Monroe, les réponses vous surprendront. Ces moteurs de recherche ont bouleversé l'usage d'Internet et ont contribué à son succès. Leur fonctionnement se fonde sur des milliers d'ordinateurs stockant des copies des pages les plus importantes, et constituant de volumineux index qui permettent...

Lire la suite de cet article


Acheter cet article    Voir les offres d'abonnements

(accès immédiat)

Vous êtes abonné ou vous avez déjà acheté cet article ? >> IDENTIFIEZ-VOUS
(formulaire en haut à droite de cette page)

  • Imprimante
  • Bookmark and Share

Il y a 2 réaction(s) à cet article

>> Réagir à cet article
Jean-Yves Creusot Posté le 20-01-2010 à 15:15:23
Google évolue

La vision mathématique du pagerank est très intéressante et j'ai toujours beaucoup de plaisir à lire les articles de M. Delahaye. La description du fonctionnement de Google décrite dans cet article n'est plus du tout actuelle. Le pagerank est sans doute un élément permettant de trier les résultats d'une recherche, mais ce n'est pas un élément décisif. Il semblerait que plus d'une centaine de paramètres soient pris en compte (nom de domaine, âge du nom de domaine, durée de validité du nom de domaine, titre des pages, contenu des URL, nombre de liens entrants, rapidité d'affichage, localisation du serveur web, ... et surtout le contenu textuel), le pagerank n'étant qu'un de ces paramètres. Il suffit de regarder les résultats proposés sur différentes recherches pour vérifier que l'ordre d'affichage ne dépend pas directement du PR. Les références données datent de 1998, 2005, 2006 et à la vitesse à laquelle évolue Google, ces documents appartiennent à la préhistoire. Bien que cet article soit très intéressant sur le plan conceptuel, il ne peut être utile pour ceux qui veulent référencer leur site internet.


Delahaye Posté le 22-01-2010 à 10:57:18
La "boite noire" de Google

Tout d'abord, la référence de Michael Eisermann est un article mis à jour par l'auteur en mai 2009. La page Wikipédia citée a évidemment été consultée fin 2009 au moment de la mise au point de la nouvelle version de mon article (qui a été publié dans Pour la Science fin 2005, et mis à jour fin 2009 pour ce Dossier). Il n'est donc pas exact toutes les références que je donne sont antérieures à 2006.

Jean-Yves Creusot écrit « Il semblerait que plus d'une centaine de paramètres soient pris en compte (nom de domaine, âge du nom de domaine, durée de validité du nom de domaine, titre des pages, contenu des URL, nombre de liens entrants, rapidité d'affichage, localisation du serveur web, ... et surtout le contenu textuel), le pagerank n'étant qu'un de ces paramètres» . C'est très bien. Je crois que c'est vrai en partie mais que le PageRank reste un élément majeur du calcul. Ces nouveaux éléments et surtout leur poids sont le sujet de toutes les spéculations que l'on veut, mais Jean-Yves Creusot n'a pas d'arguments définitifs ni surtout de références à indiquer pour appuyer ce qu'il avance. Malheureusement donc, à moins que ce lecteur ne m'indique un travail publié basé sur une étude scientifique (une sorte de "reverse ingineering" de Google), ce qu'il affirme n'est qu'un sentiment d'utilisateur.

Je signale que beaucoup de gens croient que plus on visite une page mieux elle est classée (ce qui est faux car techniquement impossible à mettre en œuvre). Les sentiments et même les certitudes qu'on peut avoir concernant le fonctionnement de Google comme utilisateur, doivent donc être considérés avec prudence.

C'est bien un problème avec Google : ce qui en est connu (et certain car publié par les concepteurs du moteur) est un peu ancien, et ce qui est nouveau est secret. Je dénonce cette situation dans l'article. Peut-être ne faut-il plus rien écrire sur Google puisque la firme modifie son moteur sans en informer les utilisateurs et que donc de plus en plus ce moteur de recherche est une boîte noire dont on ne peut rien dire de certain. Mon artcile tentait de dire des choses précises concernant le Pagerank théorique, qui j'en suis certain est toujours un élément déterminant pour l'ordre des réponses aux requètes que Google renvoie. Mon article ne disait pas que le Pagerank théorique est tout, il évoquait même de «nombreux autres facteurs». Je ne sais pas aujourd'hui comment on doit s'y prendre pour faire mieux.


>> Revenir en haut de page


L'auteur

Jean-Paul DELAHAYE est professeur d'informatique à l'Université de Lille.

Pour en savoir plus

A. Langville et C. Meyer, Google's Pagerank and Beyond : The Science of Search Engine Rankings, Princeton University Press, 2006.

A. Jsang et al., A survey of trust and reputation systems for online service provision, in Decision Support Systems, vol. 43, n° 2, pp. 618-644, 2007.

L. Page, S. Brin, R. Motwani et T. Winograd, The Pagerank Citation Ranking : Bringing Order to the Web, Technical report, Stanford Digital Library Technologies Projects, 1998.

Wikipédia : Le pagerank : http://en.wikipedia.org/wiki/Pagerank

Newsletter

Entrez votre e-mail pour vous abonner
  

Archives






Abonnements

- 12 numéros par an dont 1 spécial
+ 4 dossiers
- Le numéro en cours en pdf gratuit !
- L'accès intégral à vos magazines en ligne
- L'accès en ligne aux archives comprises dans vos abonnements

Seulement
76 euros

Une minute pour vous abonner. Un voyage d'un an dans l'Univers des sciences.

Egalement en kiosque



Pour la Science n°394 - Les calmars géants

Cerveau & Psycho n°40 - Plongez zen !
Réalisé par Ecedi.