La notion de moyenne semble facile, d'une difficulté au-dessous de la moyenne… Détrompez-vous, elle est fertile en chausse-trappes… quand elle existe encore, car dans certaines conditions, les moyennes disparaissent tout bonnement. C'est notamment le cas avec les répartitions à longue traîne (dites aussi « à queue épaisse »), qui nous intéresseront ici : celles-ci apparaissent quand les cas extrêmes sont plus nombreux que prévus par la loi classique des statistiques, la loi en cloche de Gauss. Cependant, cette disparition n'est pas tragique pour tout le monde : de fait, nous verrons que nombreuses sociétés domiciliées sur Internet ont bâti leur réputation (et leur prospérité) sur cette étrangeté.
Classiquement, en statistiques pour mesurer avec plus de précision une moyenne, on agrandit la taille de l'échantillon pris en compte. Cela ne fonctionne pas pour les répartitions à longue traîne. Pour comprendre, examinons deux algorithmes S(n) et P(n) qui illustrent le phénomène.
En utilisant plusieurs fois les algorithmes S(5) et P(5), nous obtenons des nombres assez différents, car les suites qui interviennent sont plus ou moins longues selon que l'on tombe tôt ou tard sur le 1 qui fixe l'arrêt. Pour S(5) calculé 20 fois de suite, nous aurons par exemple : 36, 7, 6, 21, 1, 8, 13, 51, 22, 1, 28, 10, 8, 1, 37, 38, 11, 10, 23, 1. L'algorithme P(5) utilisé 20 fois donne : 4, 1, 2, 14 400, 4, 1, 48, 15, 1 500, 1, 3 000, 25, 5, 288, 8, 34 560 000, 64 800, 3, 1, 5 760.
On constate que les produits varient plus que les sommes. Regardons de plus près et évaluons la moyenne des données que produisent les algorithmes S(5) et P(5). En faisant fonctionner S(5) de plus en plus de fois consécutives, on s'aperçoit que la moyenne se rapproche de...