Karin Verspoor de l'Université RMIT explore l'impact de l'IA sur la recherche en STEM.

Bon nombre des découvertes scientifiques les plus passionnantes impliquent des connaissances hautement spécialisées et l’établissement de liens entre des faits lointains. Les scientifiques doivent combiner une analyse approfondie avec de vastes stratégies de raisonnement.

Comme pour de nombreuses tâches riches en informations, les chercheurs se tournent vers les systèmes d’intelligence artificielle (IA) pour accélérer leur travail. Les outils d’IA peuvent être en mesure de prendre en charge des étapes clés telles que la génération d’idées, l’examen des travaux existants et l’analyse des données.

Les systèmes les plus récents utilisent des modèles de langage étendus (LLM) pour permettre aux scientifiques d'interagir naturellement et directement avec le vaste corpus de connaissances capturées dans les mots de la littérature scientifique.

Mais comme deux nouveau Les systèmes décrits dans les articles qui viennent d'être publiés dans Nature montrent qu'en matière de science, le langage seul ne peut aller plus loin.

Ce que l’IA fait à la science

Un certain nombre d'organisations, comme IA Sakanatentent d’automatiser l’ensemble du processus scientifique. Jusqu'à présent, ces efforts se sont largement concentrés sur l'informatique, où les « expériences » impliquaient principalement la conception et l'écriture de code.

Cependant, le Agents4Science La conférence organisée à Stanford en octobre dernier a présenté une gamme plus large d'articles générés par l'IA. Ils ont couvert des sujets allant du génie mécanique et de la conception de protéines à un système appelé Mauvais scientifique qui a délibérément produit des recherches « convaincantes mais peu solides ».

j'ai déjà soulevé des inquiétudes sur les impacts des scientifiques en IA sur l’écosystème scientifique. Des travaux récents valident ces préoccupations, montrant quantité accrue mais qualité inférieure des articles et des évaluations par les pairs, identifiant références fabriquées dans des ouvrages publiéstrouver images fabriquées et trompeuseset plus encore.

Ce que font les scientifiques avec l’IA

On ne peut clairement pas faire confiance aux systèmes d’IA pour mener à eux seuls l’ensemble du processus scientifique. Mais que diriez-vous d’utiliser l’IA pour aider les scientifiques à faire plus plus rapidement ?

C’est l’intention des deux nouveaux systèmes décrits dans Nature : Robinréalisé par une organisation à but non lucratif Future maisonet Co-scientifiquede Google DeepMind.

Les deux systèmes visent à accélérer la découverte scientifique, en travaillant en collaboration avec un scientifique. Tous deux sont également des systèmes d'IA « multi-agents », ce qui signifie qu'ils sont construits comme un ensemble d'agents spécialisés ciblant chacun des étapes spécifiques du processus de découverte scientifique, coordonnés par un agent « superviseur ».

Les agents qui composent Co-Scientist visent à refléter des tâches cognitives abstraites, comme un « agent de réflexion » qui agit comme un évaluateur scientifique critique évaluant la qualité d'une hypothèse. Les « agents de classement » débattent des hypothèses de recherche dans le cadre de « tournois », en utilisant plusieurs LLM en interaction pour simuler une discussion sur les mérites relatifs de deux hypothèses.

Les agents de Robin, en revanche, sont plus adaptés à des tâches spécifiques liées à la réutilisation des médicaments, visant à identifier de nouveaux médicaments pour une maladie donnée. Un agent se concentre sur la sélection de tests expérimentaux, tandis qu’un autre analyse des données biomédicales complexes.

Comment se situent les résultats ?

Co-Scientist peut évaluer la qualité des propositions générées, en utilisant une méthode appelée Classement Elo qui est surtout connu pour classer les joueurs d'échecs. Les auto-évaluations de Co-Scientist quant à la nouveauté et à l'impact de ses résultats s'alignent assez bien avec les préférences des experts humains et les jugements d'autres systèmes LLM.

Dans le cadre d'une expérience de réutilisation de médicaments, le co-scientifique a sélectionné 30 médicaments candidats comme traitements prometteurs pour un type de cancer appelé leucémie myéloïde aiguë. Des oncologues experts (humains) ont affiné la liste et cinq médicaments ont été testés en laboratoire. Parmi ceux-ci, trois ont montré des résultats positifs et un semblait particulièrement prometteur.

D'autres expériences ont montré le potentiel du Co-Scientist pour explorer des combinaisons de plusieurs médicaments.

Notamment, les prédictions de Co-Scientist n’ont pas été comparées à la pléthore de méthodes informatiques et d'apprentissage automatique ciblées pour la réutilisation de médicaments qui ont été développés au cours de décennies de recherche en biologie computationnelle. Cela signifie que nous ne savons pas si le nouvel outil à usage général surpasse les approches d'IA plus spécifiques.

Les deux systèmes ne parviennent pas à valider directement leurs hypothèses, ce qui impliquerait de véritables expériences physiques. Les deux s’appuient également fortement sur la contribution humaine pour définir la question scientifique clé, vérifier les prédictions et hiérarchiser les prédictions en vue d’une enquête plus approfondie.

Le co-scientifique se concentre principalement sur la génération d'hypothèses à l'aide d'agents de raisonnement élaborés, laissant la validation et l'interprétation aux étapes ultérieures. Robin utilise également un agent pour analyser les données produites à partir d'expériences réelles.

Robin a été utilisé pour proposer 30 candidats médicaments pour une maladie appelée dégénérescence maculaire sèche liée à l'âge. Les cinq premiers ont été sélectionnés pour les tests.

Robin a également fait des propositions pour les expériences, plusieurs suggestions ayant été annulées par les scientifiques humains. Après plusieurs séries de réflexions et d’analyses, deux médicaments ont été identifiés comme prometteurs.

Les tests réalisés sur les agents individuels de Robin ont montré que ceux issus de recherches antérieures étaient plus performants que les LLM à usage général. L’agent analytique a obtenu de moins bons résultats aux questions relatives aux statistiques et à la bioinformatique et s’est fortement appuyé sur les invites fournies par l’homme.

Les limites du langage seul

L’IA peut aider les scientifiques à naviguer dans la vaste quantité de connaissances documentées que les humains ont acquises au fil des millénaires. Utilisation du calcul pour trouver des modèles dans de grands ensembles de données, pour intégrer des informations dispersées et pour générer de nouvelles découvertes à partir de la littérature existante contribue déjà au progrès scientifique depuis des décennies.

De nouveaux modèles tels que Robin et Co-Scientist représentent une évolution vers un travail direct dans le domaine du langue de la science, plutôt que le domaine des données brutes. Cela permet des collaborations plus naturelles entre le scientifique et la machine, grâce à des « discussions » basées sur le langage.

Cependant, plus naturel ne signifie pas nécessairement plus efficace. La communication basée sur le langage peut être imprécise et ambiguë, là où la science doit être spécifique.

Des modèles qui combiner le meilleur de ces mondes sont à l'horizon. Celles-ci visent à relier les données quantitatives structurées aux concepts et aux relations qui décrivent les faits fondamentaux qui les sous-tendent.

De tels modèles fondent le raisonnement scientifique sur structure de connaissance. Ils permettent de relier des preuves scientifiques allant des séquences génomiques et des structures protéiques à l’imagerie cellulaire.

Les mots sont le moyen par lequel la science est communiquée. Les outils d’IA qui facilitent la compréhension des informations cachées dans tous ces mots sont certainement précieux. Mais la complexité du monde naturel signifie que les (co-)scientifiques de l’IA ne seront vraiment efficaces que lorsqu’ils pourront aller au-delà de la connexion des mots entre eux, pour modéliser toute la complexité des systèmes que ces mots décrivent.

Par Karin Verspoor

Karin Verspoor est doyenne de la School of Computing Technologies de Université RMIT. Elle travaille à l'intersection de la science et de la technologie, appliquant des méthodes d'intelligence artificielle à l'analyse et à l'interprétation de données biologiques et cliniques, en se concentrant particulièrement sur le traitement du langage naturel de données textuelles non structurées. Elle est membre de l'Académie australienne des sciences technologiques et de l'ingénierie et de l'Institut australasien de santé numérique. Elle est également cofondatrice et responsable du nœud Victoria de l'Alliance australienne pour l'intelligence artificielle dans les soins de santé.

A lire également