En 1998, Google indexait 26 millions de pages. Aujourd'hui, ce serait un trillion, c'est-à-dire 1012, ou encore mille milliards, selon une estimation de la Commission européenne. Quelque 210 milliards de courriers électroniques sont échangés chaque jour. Le réseau social Facebook compte plus de 250 millions d'utilisateurs, créant un sous-espace du Web à l'intérieur duquel les recherches de contenu risquent de se concentrer graduellement, négligeant de plus en plus les informations à l'extérieur. Chaque minute, 15 heures de vidéos sont mises en ligne sur YouTube – l'équivalent de 86 000 nouveaux films complets chaque semaine. Flicker, un site de partage d'images, reçoit 3,7 millions de nouvelles photos par jour.
Ainsi, Internet devient le lieu privilégié d'échange d'information. Celui-ci est de plus en plus accessible sur des terminaux mobiles (téléphone, appareil photo, lecteurs Mp3…). Progressivement, la distinction entre producteurs et « consommateurs » d'information s'estompe, notamment du fait des blogs. Les modalités de diffusion évoluent aussi : les programmes à contenus éditoriaux (télévision, radio…) cèdent la place à des compositions personnalisées et à la demande.
L'augmentation de la production et de l'échange de documents multimédias numériques est une conséquence de la convivialité accrue et de la baisse des coûts des moyens informatiques (scanners, webcams…). Ces documents sont par essence hétérogènes, mélangeant texte, images, graphiques, vidéos et sons. Les données visuelles y sont les plus complexes et les plus importantes en volume.
Cet océan de données multimédias serait inutile sans la capacité de s'y repérer rapidement. On doit alors les classer et les archiver, puis filtrer la masse de données...