Il y aurait 4,65 milliards de pages Web… au bas mot

Standard

Un réseau difficile à décrire (The Opte Project via Wikicommons CC BY-SA 2.5)

Un réseau bien difficile à capter (The Opte Project via Wikicommons CC BY-SA 2.5)

Il n’est pas facile d’évaluer l’énormité de la machine Internet. En ce moment, combien d’informations contient-elle ? Combien d’informations circulent ? Quel est le nombre de sites Web ?… Des très nombreuses évaluations sont publiées régulièrement mais aucune n’arrive à capter son véritable périmètre. Il faut l’avouer, les dimensions du système que nous avons construit nous échappent totalement.

Par exemple, des chercheurs danois et hollandais ont publié récemment une nouvelle estimation du nombre de pages Web : elles seraient 4,65 milliards, pour environ 1 milliard de sites. Mais cela uniquement pour le coté “visible” du Web par les moteurs de recherche.

Des pages Web répertoriées dans les index géants des moteurs de recherche

On sait qu’une requête par mot ou phrase clé adressé à un moteur comme Google renvoie comme résultat l’ensemble des pages dont le texte contient cette clé. Pour ce faire, le moteur consulte non pas le Web lui-même mais un index enregistré dans sa base de données, qu’il met à jour régulièrement.

Cet index, il l’a construit préalablement en envoyant sur le réseau des algorithmes, dits bots ou crawlers, qui suivent toutes les ramifications des liens hypertexte (HTTP) à partir d’un site de départ, telle une personne qui s’amuserait à cliquer successivement sur tous les liens HTTP des pages qu’il rencontre en notant quelques mots importants de chaque page.

Repérer la fréquence d’un mot-clé

Un index contient donc les adresses URL des pages et des mots considérés comme clés du contenu de ces pages. Mais outre qu’il n’est pas public, l’index a des redondances : celui de Google référencerait plus de 100 milliards de pages, avec un grand nombre de doublons. Aussi, pour arriver à évaluer le nombre total de pages du Web, il faut ruser avec les moteurs de recherche. Ce, grâce à des extrapolations statistiques.

Concrètement, dans la phase de préparation, les chercheurs ont défini des mots clés dont ils ont calculé la fréquence d’apparition dans un “corpus” de 531 624 pages du Web contenant en tout 254 094 395 mots (4 395 017 mots uniques) – données extraites du site Dmoz.org.

Chercher la constance dans les sables mouvants du Web

Par exemple, si le mot “accordée” apparaît dans 1 % des pages du corpus (fréquence de 0,01), on peut alors déduire le nombre de pages du Web en tapant “accordée” sur Google : si celui-ci renvoie un résultat du type “environ 12 000 000 résultats” (en haut de sa page), il suffit alors de diviser 12 000 000 par 0,001 pour savoir combien de pages sont référencées dans la base de données du moteur.

Bien sûr, ce n’est pas aussi simple : le résultat ne tient pas compte des redondances dans la base de données, ni du fait qu’aucun index de moteur de recherche n’est complet et que son “périmètre” peut varier énormément d’un moment à l’autre.

28 mots-clés savamment choisis

Aussi, les chercheurs se sont attelés à un savant mélange statistique jouant simultanément sur deux moteurs de recherche, Google et Bing (de Microsoft), et définissant non pas un mais 28 mots clés, savamment choisis d’après des considérations lexicales et linguistiques.

Ces mots étaient : and, of, to, for, on, are, was, can, do, people, very, show, photo, headlines, william, basketball, spread, nfl, preliminary, definite, psychologists, vielfalt, illini, chèque, accordée,
reticular, rectificacio.

Un tableau repertoriant la fréquences des 28 mots et le nombre de pages concernés (Van den Bosch et al. Scientometrics 2016).

Un tableau répertoriant la fréquence des 28 mots et le nombre de pages concernées (Van den Bosch et al. Scientometrics 2016).

Neuf années de statistiques pour bien nettoyer le résultat

Surtout, leur recherche s’est étalée sur 9 ans, de 2006 à 2015, afin de capter mieux la dynamique de ces moteurs et corriger statistiquement leur résultats souvent erratique – par exemple, en 2012, le résultat de Google aurait conduit à estimer à 50 milliards le nombre de pages.

Nombre de pages du Web calculé par la méthode des mots-clé en fonction de la variabilité des réponses de Google (en rouge) et de Bing (en vert). Les traits en haut de l'image signalent des changement dans la technologie des moteurs de recherche

Nombre de pages du Web calculé par la méthode des mots-clés en fonction de la variabilité des réponses de Google (en rouge) et de Bing (en vert). Les traits en haut de l’image signalent des changements dans la technologie des moteurs de recherche (Van den Bosch et al. Scientometrics 2016).

Est-ce dire que le Web contient vraiment 4,65 milliards de pages ? Sans doute, mais cela ne concerne que le Web “visible”, celui basé sur les index des moteurs de recherche. Or ces index ignorent tout le contenu du Deep Web (ou Web profond) dont on ne connaît pas l’étendue car ses sites ne sont liés par aucun lien hypertexte à un quelconque site du Web visible – ce qui n’empêche pas de pouvoir y accéder, à condition de connaître son adresse (URL). Certains pensent qu’il compte pour plus de 90% de tout le contenu du Web…

Des myriades de chiffres

Mais pour ne pas finir sur ce constat frustrant, voici un site, Internet Live Stats, qui décompte seconde par seconde une flopée d’autres paramètres de l’internet (tweets, e-mails, nombre d’internautes, etc.) car la Machine se dévoile aussi par mille et un autres facettes que le nombre de pages du Web visible. Attention, chiffres abyssaux !

–Román Ikonicoff

 

> Lire également :

 

> Lire aussi dans les Grandes Archives de Science & Vie :

  • Ou va Internet ? – S&V n°1144 – 2013 – acheter ce numéro. Cela fait déjà quelques années que l’on s’interroge sur les capacités du réseau à résister à la pression d’une croissance exponentielle… Mais avec l’arrive de l’internet des objets, la question devient plus aiguë.

1144

  • Internet au bord de l’explosion – S&V n°1095 – 2008 – acheter ce numéro. La première alerte sur les capacités du réseau à absorber la charge des milliards d’information qui y circulent remonte aux années 2008. Science & Vie se posait déjà la question.

1095

  • Google, le nouvel Einstein – S&V n°1138 – 2012 – acheter ce numéro. Depuis une dizaine d’années, la plupart des données qui circulent dans la Toile sont conservées dans les serveurs des grandes firmes d’internet. Grâce à cela, nous possédons une mémoire détaillée des activités humaines et des évènements passés et présents… que les scientifiques exploitent pour pister des épidémies, découvrir de nouvelles lois, soigner des maladies. La science des Big Data est en route.

1138

 

Cultiver l’élan du matin

Standard

Est-ce le début du printemps ? Est-ce l’annonce des fêtes de Pâques célébrant le Christ ressuscité ? Il se passe quelque chose autour de nous. Le jour se lève plus tôt, éclairant une nature en plein renouveau. Le matin, nous nous réveillons plus facilement, comme pour répondre à l’appel de vivre pleinement notre journée. Après ce temps de carême, a priori la vie devrait ainsi devenir plus légère. Voilà 40 jours que les croyants s’efforcent de marcher à la suite du Christ. Le dimanche de Pâques, certains célèbrent cette fête en se retrouvant ensemble dès l’aube. Tous témoignent de l’ambiance particulière de ce moment où ils contemplent les premiers rayons du soleil. Mais, passé la nuit pascale, la routine reprend rapidement le dessus. Les petits matins se révèlent plus…

Cet article est réservé aux abonnés de La Vie, afin de le lire

ABONNEZ-VOUS

4€/mois SANS ENGAGEMENT

Accédez à des contenus numériques exclusivement réservés aux abonnés ainsi qu’à vos numéros en version PDF sur ordinateur, smartphone et tablette.


Cultiver l’élan du matin

Standard

Est-ce le début du printemps ? Est-ce l’annonce des fêtes de Pâques célébrant le Christ ressuscité ? Il se passe quelque chose autour de nous. Le jour se lève plus tôt, éclairant une nature en plein renouveau. Le matin, nous nous réveillons plus facilement, comme pour répondre à l’appel de vivre pleinement notre journée. Après ce temps de carême, a priori la vie devrait ainsi devenir plus légère. Voilà 40 jours que les croyants s’efforcent de marcher à la suite du Christ. Le dimanche de Pâques, certains célèbrent cette fête en se retrouvant ensemble dès l’aube. Tous témoignent de l’ambiance particulière de ce moment où ils contemplent les premiers rayons du soleil. Mais, passé la nuit pascale, la routine reprend rapidement le dessus. Les petits matins se révèlent plus…

Cet article est réservé aux abonnés de La Vie, afin de le lire

ABONNEZ-VOUS

4€/mois SANS ENGAGEMENT

Accédez à des contenus numériques exclusivement réservés aux abonnés ainsi qu’à vos numéros en version PDF sur ordinateur, smartphone et tablette.