Un modèle d'intelligence artificielle (IA) développé par Meta est capable de traduire la voix et le texte dans 101 langues et d'effectuer des traductions directes de la voix à la parole dans 36 langues. Ce modèle, qui surpasse ceux existants, peut ouvrir la voie à des traductions universelles rapides.
Meta a déjà présenté une première version du modèle en août 2023, même si désormais, dans un article publié ce mercredi dans la revue Nature, l'entreprise intègre plusieurs innovations.
Appelé SEAMLESSM4T, le modèle dispose de ressources « qui seront mises à la disposition du public – pour un usage non commercial – pour aider à approfondir la recherche » sur les technologies de traduction vocale inclusives, avancent les auteurs dans Nature.
Faire des traductions universelles instantanées est quelque chose que, pour l'instant, seule la science-fiction a réussi, comme « Le poisson Babel », un petit poisson jaune inclus dans le « Guide du voyageur galactique » de Douglas Adams, qui a été inséré dans une oreille et simultanément traduit par télépathie d'une langue parlée à une autre.
Avoir quelque chose comme ça serait très utile pour faciliter la communication dans un paysage mondial interconnecté, mais aujourd'hui, la plupart des systèmes de traduction par apprentissage automatique sont orientés texte ou nécessitent plusieurs étapes : reconnaître la parole, traduire le texte et le convertir vocalement en texte dans une autre langue. .
De plus, la couverture linguistique des modèles de parole-parole actuels est inférieure à celle des modèles de traduction texte-texte et est souvent orientée vers la traduction d'une langue source vers l'anglais.
Le modèle développé par Seamless Communication de Meta prend en charge plusieurs modes de traduction dans 101 langues maximum.
SEAMLESSM4T facilite la traduction parole-parole (reconnaît 101 langues et traduit en 36 langues), la traduction parole-texte (101 à 96 langues), la traduction texte-parole (96 à 36 langues), le texte-texte (96 langues) et automatique reconnaissance vocale (96 langues).
Dans le cas de la traduction parole-parole, SEAMLESSM4T traduit les textes avec une précision jusqu'à 23 % supérieure à celle des systèmes existants.
De plus, le modèle d’intelligence artificielle peut filtrer le bruit de fond et s’adapter aux variations des haut-parleurs, détaille l’article de Nature.
Pour toutes ces raisons, les auteurs assurent que, même s'il reste encore à améliorer, SEAMLESSM4T peut constituer un pas en avant dans l'amélioration de la communication au-delà des barrières linguistiques.
Dans un « News and Views » publié dans Nature, Tanel Alumäe, du Laboratoire de langage technologique de l'Université de technologie (TalTech) de Tallinn, en Estonie, souligne que le modèle est capable de traduire directement en 36 langues, ce qui est « impressionnant » car Vous pouvez, par exemple, traduire de l'anglais parlé vers l'allemand parlé sans avoir à le transcrire d'abord en anglais pour le traduire plus tard.
Mais pour ce chercheur, la plus grande vertu de ce travail n'est pas l'idée ou la méthode qu'il propose, mais le fait que toutes les données et le code permettant d'exécuter et d'optimiser cette technologie sont accessibles au public (à condition qu'ils ne soient pas utilisés à des fins commerciales). fins), prouvant que Meta est « l’un des plus grands partisans de la technologie linguistique open source ».
Concernant les défis, Alumäe souligne que même si le modèle SEAMLESS traduit une centaine de langues, le nombre de langues parlées dans le monde est d'environ 7 000, et l'outil a encore des difficultés dans de nombreuses situations que les humains gèrent avec une relative facilité, comme les conversations. . dans des lieux bruyants ou parmi des personnes avec un fort accent.
Cependant, « les méthodes des auteurs pour exploiter les données du monde réel ouvriront une voie prometteuse vers une technologie vocale qui rivalise avec la science-fiction », prédit-il.
Dans un autre « Actualités et opinions », Allison Koenecke, du Département d'informatique de l'Université Cornell de New York, prévient que même si les technologies vocales peuvent être plus efficaces et plus rentables que les humains (qui sont également sujets aux préjugés et aux erreurs), « il est impératif de comprendre les façons dont ces technologies échouent de manière disproportionnée pour certains groupes démographiques. »
En outre, il reconnaît que certains utilisateurs peuvent choisir de ne pas utiliser les technologies vocales – par exemple dans des contextes médicaux ou juridiques pour éviter des erreurs – s’ils le souhaitent.
Pour cet expert, il est essentiel qu'à l'avenir les chercheurs en technologies vocales améliorent les disparités de performances et que les utilisateurs soient bien informés des éventuels avantages et inconvénients associés à ces modèles.
Avec des informations de l'EFE.
