Internet mort ? Un tiers des nouveaux sites Web sont générés par IA, selon Stanford

En résumé

  • D’ici mi-2025, 35 % des sites web nouvellement publiés étaient générés par l’IA ou assistés par l’IA, contre zéro avant le lancement de ChatGPT en novembre 2022.
  • Les effets confirmés sont la contraction sémantique et la positivité artificielle — pas la désinformation ou l’homogénéité stylistique, malgré ce que la plupart des gens croient.
  • À 35 % de prévalence de l’IA, le risque d’effondrement du modèle passe d’une préoccupation théorique à une réalité empirique pour la prochaine génération de modèles fondamentaux.

Une nouvelle étude donne un chiffre sur la proportion d’internet désormais générée par l’IA : 35 %. C’est la part des sites web nouvellement publiés classés comme générés par l’IA ou assistés par l’IA d’ici mi-2025, selon des recherches de l’Université de Stanford, de l’Imperial College London et de l’Internet Archive. La figure était pratiquement nulle avant le lancement de ChatGPT en novembre 2022. « Je trouve la vitesse de la prise de contrôle de l’IA sur le web tout à fait stupéfiante », a déclaré Jonáš Doležal, chercheur à l’Imperial College London et co-auteur de l’article, à 404 Media. « Après des décennies où l’humain l’a façonné, une partie importante d’internet est devenue définie par l’IA en seulement trois ans. » L’étude, intitulée « L’impact du texte généré par l’IA sur Internet », s’est appuyée sur 33 mois de captures de sites web provenant de la Wayback Machine de l’Internet Archive et a utilisé un détecteur de texte IA appelé Pangram v3 pour classer chaque page.

 Les dommages confirmés : ambiance, pas faits Les chercheurs ont testé six hypothèses sur ce que le contenu IA fait au web. Seules deux ont résisté à l’examen des données. La première : nous devenons une horde de PNJ idiots agissant de la même manière… Ou plus scientifiquement, le web devient moins diversifié sémantiquement.

Les sites générés par l’IA ont montré des scores de similarité sémantique par paire 33 % plus élevés que ceux écrits par des humains. Les mêmes idées sont constamment exprimées de presque la même façon.

L’article suggère que la fenêtre d’Overton en ligne pourrait se réduire, non par la censure ou des campagnes coordonnées, mais parce que les modèles linguistiques optimisent pour des sorties proches de leur distribution d’entraînement. La deuxième : Le web devient de plus en plus joyeux. Le contenu IA affichait des scores de sentiment positif plus de 107 % plus élevés que le contenu humain. Les chercheurs relient cela aux tendances sycophantiques bien documentées des LLM — entraînés sur des signaux d’approbation humaine, ils produisent un texte qui paraît aseptisé, sans friction, et inlassablement optimiste. Un internet inondé de contenu joyeux et homogénéisé pourrait marginaliser la dissidence humaine à grande échelle sans que personne ne tire un levier.

Malgré la croyance répandue du public, l’étude n’a trouvé aucune preuve statistiquement significative que le contenu IA rende internet moins factuel. Les chercheurs n’ont trouvé aucune corrélation significative entre la prévalence de l’IA et le taux d’erreurs factuelles.

L’hypothèse de la monoculture stylistique — l’aplatissement des voix individuelles en un registre uniforme générique — était la croyance la plus forte chez les répondants (83 % étaient d’accord). Les données ne l’ont pas confirmé. Une analyse au niveau des caractères n’a pas montré d’augmentation statistiquement significative de l’homogénéité stylistique liée à la prévalence de l’IA. Le problème de l’effondrement du modèle vient de devenir réel Les enjeux plus larges dépassent la qualité du discours. À 35 % de prévalence de l’IA, le risque théorique d’effondrement du modèle — où les futurs modèles se dégradent après avoir été entraînés sur des données générées par l’IA — passe d’une préoccupation académique à une réalité empirique. Les futurs modèles fondamentaux entraînés sur des crawls web contemporains ingéreront inévitablement des données largement générées par l’IA et mesurablement moins diversifiées sémantiquement. L’équipe travaille maintenant avec l’Internet Archive pour transformer l’étude en un outil de surveillance continue et en direct, suivant la part de l’IA sur le web en temps réel plutôt qu’à travers une simple capture ponctuelle. Une enquête menée aux États-Unis parallèlement à l’étude a révélé que la majorité des Américains croient déjà à toutes les six hypothèses négatives, y compris celles que les données ne soutiennent pas. Les personnes utilisant rarement l’IA étaient 12 % plus susceptibles de croire aux dangers que les utilisateurs fréquents. Les adeptes de la théorie de l’Internet mort, voici les données : Internet n’est pas mort, mais 35 % de ce qui est nouveau est probablement du contenu zombie d’une manière ou d’une autre.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler