En kiosque

Dossier Pour la Science N°66 - janvier - mars 2010

fondamental
Informatique

Faire fortune avec les longues traînes

Certaines distributions de nombres s'étalent largement : elles sont bien plus fréquentes qu'on ne le croyait, et les sociétés sur Internet les exploitent pour créer une nouvelle économie florissante.

Jean-Paul DELAHAYE

La notion de moyenne semble facile, d'une difficulté au-dessous de la moyenne… Détrompez-vous, elle est fertile en chausse-trappes… quand elle existe encore, car dans certaines conditions, les moyennes disparaissent tout bonnement. C'est notamment le cas avec les répartitions à longue traîne (dites aussi « à queue épaisse »), qui nous intéresseront ici : celles-ci apparaissent quand les cas extrêmes sont plus nombreux que prévus par la loi classique des statistiques, la loi en cloche de Gauss. Cependant, cette disparition n'est pas tragique pour tout le monde : de fait, nous verrons que nombreuses sociétés domiciliées sur Internet ont bâti leur réputation (et leur prospérité) sur cette étrangeté.

Classiquement, en statistiques pour mesurer avec plus de précision une moyenne, on agrandit la taille de l'échantillon pris en compte. Cela ne fonctionne pas pour les répartitions à longue traîne. Pour comprendre, examinons deux algorithmes S(n) et P(n) qui illustrent le phénomène.

En utilisant plusieurs fois les algorithmes S(5) et P(5), nous obtenons des nombres assez différents, car les suites qui interviennent sont plus ou moins longues selon que l'on tombe tôt ou tard sur le 1 qui fixe l'arrêt. Pour S(5) calculé 20 fois de suite, nous aurons par exemple : 36, 7, 6, 21, 1, 8, 13, 51, 22, 1, 28, 10, 8, 1, 37, 38, 11, 10, 23, 1. L'algorithme P(5) utilisé 20 fois donne : 4, 1, 2, 14 400, 4, 1, 48, 15, 1 500, 1, 3 000, 25, 5, 288, 8, 34 560 000, 64 800, 3, 1, 5 760.

On constate que les produits varient plus que les sommes. Regardons de plus près et évaluons la moyenne des données que produisent les algorithmes S(5) et P(5). En faisant fonctionner S(5) de plus en plus de fois consécutives, on s'aperçoit que la moyenne se rapproche de...

Lire la suite de cet article


Acheter cet article    Voir les offres d'abonnements

(accès immédiat)

Vous êtes abonné ou vous avez déjà acheté cet article ? >> IDENTIFIEZ-VOUS
(formulaire en haut à droite de cette page)

  • Imprimante
  • Bookmark and Share

Il y a 0 réaction(s) à cet article

>> Réagir à cet article
>> Revenir en haut de page

L'auteur

Jean-Paul DELAHAYE est professeur d'informatique à l'Université de Lille.

Pour en savoir plus

C. Anderson, La longue traîne. La nouvelle économie est là, Éditions Pearson Education France, Paris, 2007.

Brian Hayes, Fat tails, in American Scientist, vol. 95, pp. 200-2004, 2007.

M. Newman, Power laws, Pareto distributions and Zipf's law, in Contemporary Physics, vol. 46, n° 5, pp. 323–351, 2005.

L. Adamic, Zipf, Power-laws and Pareto : A Ranking Tutorial, 2007 http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html

Newsletter

Entrez votre e-mail pour vous abonner
  

Archives






Abonnements

- 12 numéros par an dont 1 spécial
+ 4 dossiers
- Le numéro en cours en pdf gratuit !
- L'accès intégral à vos magazines en ligne
- L'accès en ligne aux archives comprises dans vos abonnements

Seulement
76 euros

Abonnez-vous à Pour la Science ! 12 numéros 76 €

Egalement en kiosque



Pour la Science n°394 - Les calmars géants

Cerveau & Psycho n°40 - Plongez zen !
Réalisé par Ecedi.