Alors que les sites tentent de bloquer les robots d'exploration IA, le « Web ouvert » est-il en train de se fermer ?

Tai Neilson, maître de conférences à l'Université Macquarie, explore comment les données sont devenues un « produit très prisé » pour les entreprises qui forment des systèmes d'IA.

Lorsque le World Wide Web a été lancé au début des années 1990, ses fondateurs espéré ce serait un espace permettant à chacun de partager des informations et de collaborer. Mais aujourd’hui, le Web libre et ouvert rétrécit.

Le Archives Internet a enregistré l'histoire d'Internet et la met à la disposition du public à travers son Machine de retour depuis 1996. Aujourd'hui, certains des plus grands médias du monde sont blocage l'accès des archives à leurs pages.

De grands éditeurs – dont The Guardian, The New York Times, le Financial Times et USA Today – ont confirmé qu'ils mettaient fin à l'accès d'Internet Archive à leur contenu.

Alors que disent les éditeurs ils soutiennent la mission de préservation des archives, ils soutiennent que l'accès illimité crée des conséquences inattendues, exposant le journalisme aux robots d'exploration de l'IA et aux membres du public essayant de contourner leurs paywalls.

Pourtant, les éditeurs ne veulent pas simplement bloquer les robots d’exploration de l’IA. Ils veulent plutôt vendre leur contenu aux entreprises technologiques avides de données. Leurs catalogues d'actualités, de livres et d'autres médias sont devenus un produit chaud comme données pour entraîner les systèmes d’IA.

Lecteurs robots

Les systèmes d'IA générative tels que ChatGPT, Copilot et Gemini nécessitent l'accès à de grandes archives de contenu (tels que du contenu multimédia, des livres, des œuvres d'art et des recherches universitaires) pour entraînement et à répondre aux invites de l'utilisateur.

Les éditeurs affirment que les entreprises technologiques ont accédé à une grande partie de ce contenu gratuitement et sans le consentement des titulaires des droits d'auteur. Certains ont commencé à poursuivre les entreprises technologiques en justice, affirmant qu’elles avaient volé leur propriété intellectuelle. Des exemples très médiatisés incluent Le New York Times' affaire contre la société mère de ChatGPT, OpenAI et Poursuite de News Corp contre Perplexity AI.

Vieilles nouvelles, nouvel argent

En réponse, certaines entreprises technologiques ont frappé offres payer pour accéder au contenu des éditeurs. Le contrat de NewsCorp avec OpenAI serait vaut plus de 250 millions de dollars sur cinq ans.

Des accords similaires ont été conclus entre des éditeurs universitaires et des entreprises technologiques. Des maisons d'édition comme Taylor & Francis et Elsevier ont fait l’objet d’un examen minutieux dans le passé pour avoir bloqué la recherche financée par des fonds publics derrière des murs payants commerciaux.

Maintenant, Taylor et François a signé un accord non exclusif de 10 millions de dollars avec Microsoft accordant à l'entreprise l'accès à plus de 3 000 revues.

Les éditeurs utilisent également technologie pour arrêter les robots IA indésirables accéder à leur contenu, y compris les robots d'exploration utilisés par Internet Archive pour enregistrer l'historique Internet. Les éditeurs de presse ont qualifié Internet Archive de «porte arrière» à leurs catalogues, permettant à des entreprises technologiques sans scrupules de continuer à supprimer leur contenu.

Le coût de la gratuité des informations

La Wayback Machine a également été utilisée par des membres du public pour éviter les paywalls des journaux. Naturellement, les médias veulent que les lecteurs paient pour les informations.

L'information est un business, et son modèle de revenus publicitaires est soumis à une pression croissante de la part des mêmes entreprises technologiques qui utilisent du contenu d'actualité pour la formation et la récupération de l'IA. Mais cela se fait au détriment de l’accès du public à des informations crédibles.

Lorsque les journaux ont commencé à mettre leur contenu en ligne et à le rendre gratuit au public à la fin des années 1990, ils ont contribué à la philosophie du partage et de la collaboration au début du Web.

Cependant, avec le recul, un commentateur a qualifié l’accès libre de «péché originel » de l'information en ligne. Le public s'est habitué à obtenir ses éditions numériques gratuitement et, à mesure que les modèles commerciaux en ligne ont changé, de nombreuses sociétés d'information de taille moyenne et petite ont eu du mal à financer leurs opérations.

L’approche inverse – placer toutes les informations commerciales derrière des paywalls – a ses propres problèmes. Alors que les éditeurs de presse se tournent vers modèles sur abonnement uniquementles gens doivent jongler avec plusieurs abonnements coûteux ou limiter leur appétit pour les nouvelles. Sinon, ils se retrouvent avec toutes les informations qui restent en ligne gratuitement ou qui sont diffusées sur les réseaux sociaux. algorithmes. Le résultat est un Internet commercial plus fermé.

Ce n'est pas la première fois que l'Internet Archive est disponible ligne de mire des éditeurscar l'organisation a déjà été poursuivie et reconnue coupable de violation du droit d'auteur via son projet Open Library.

Le passé et l'avenir d'Internet

La Wayback Machine a servi de dossier public du Web pendant plus de trois décenniesutilisé par les chercheurs, les éducateurs, les journalistes et les historiens amateurs de l'Internet.

Bloquer son accès aux journaux internationaux importants laissera des trous importants dans les archives publiques d’Internet.

Aujourd'hui, vous pouvez utiliser le Machine de retour pour voir la Une du New York Times de juin 1997 : la première fois que les archives Internet ont exploré le site Web du journal. Dans 30 ans, les chercheurs sur Internet et les curieux n’auront plus accès à la Une d’aujourd’hui, même si les archives Internet existent toujours.

Les sites Web d'aujourd'hui deviennent les documents historiques de demain. Sans les efforts de préservation d'organisations à but non lucratif comme Internet Archive, nous risquons de perdre des dossiers vitaux.

Malgré les actions des éditeurs commerciaux et défis émergents de l’IAdes organisations à but non lucratif telles que Internet Archive et Wikipédia visent à maintenir vivant le rêve d’un Internet ouvert, collaboratif et transparent.

Par Tai Neilson

Tai Neilson est maître de conférences en médias à l'Université Macquarie. Ses domaines d'expertise comprennent l'économie politique des médias numériques et la théorie culturelle critique. Il est l'auteur de Journalism and Digital Labor et co-éditeur du livre Research Methods for the Digital Humanities. Tai a publié des travaux sur le journalisme et les médias numériques dans Digital Journalism, Journalism, Media International Australia, Journalism and Media, Triple-C, Fast Capitalism et Global Media Journal.