Dans un monde où l’intelligence artificielle est de plus en plus intégrée dans notre quotidien, il est crucial de comprendre comment ces systèmes fonctionnent réellement. Les chercheurs d’Arthur AI ont entrepris d’évaluer les modèles IA les plus avancés de notre époque, révélant des résultats surprenants.

Une analyse critique des géants de l’IA

Selon un rapport publié jeudi, des chercheurs d’Arthur AI ont testé les modèles IA de pointe de Meta, OpenAI, Cohere et Anthropic. Ils ont découvert que certains de ces modèles créent des faits, ou « hallucinent », de manière significative plus que d’autres. Cohere IA est le plus sujet à ces hallucinations, selon les chercheurs, et le Llama 2 de Meta hallucine globalement plus que le GPT-4 d’OpenAI et le Claude 2 d’Anthropic.

Des superlatifs pour les modèles IA

Si les modèles IA de l’industrie technologique avaient des superlatifs, le GPT-4 d’OpenAI, soutenu par Microsoft, serait le meilleur en mathématiques, le Llama 2 de Meta serait le plus modéré, le Claude 2 d’Anthropic serait le meilleur pour connaître ses limites, et Cohere IA recevrait le titre de « plus d’hallucinations » et de « réponses fausses les plus confiantes ».

L’ère de la désinformation IA

Cette recherche intervient à un moment où la désinformation provenant des systèmes d’intelligence artificielle est plus débattue que jamais, en particulier à l’approche de l’élection présidentielle américaine de 2024. Les hallucinations IA se produisent lorsque les grands modèles de langage, ou LLM, fabriquent entièrement des informations, se comportant comme s’ils énonçaient des faits.

Des expériences révélatrices

Dans une expérience, les chercheurs d’Arthur AI ont testé les modèles IA dans des catégories telles que les mathématiques combinatoires, les présidents américains et les dirigeants politiques marocains. Ils ont posé des questions « conçues pour contenir un élément clé qui pousse les LLM à commettre des erreurs », ont écrit les chercheurs.

Globalement, le GPT-4 d’OpenAI a été le meilleur de tous les modèles testés. Par exemple, sur des questions de mathématiques, il a halluciné entre 33% et 50% de moins que sa version précédente, le GPT-3.5.

La prudence des modèles face aux réponses

Dans une seconde expérience, les chercheurs ont testé dans quelle mesure les modèles IA modéraient leurs réponses avec des phrases d’avertissement pour éviter les risques. En ce qui concerne cette modération, GPT-4 a connu une augmentation relative de 50% par rapport à GPT-3.5. Cohere, en revanche, n’a pas du tout modéré ses réponses, selon le rapport. Claude 2 s’est avéré être le plus fiable en termes de « conscience de soi », c’est-à-dire en évaluant précisément ce qu’il sait et ne sait pas.

Réponse des entreprises et implications

Un porte-parole de Cohere a contesté les résultats, déclarant que la technologie de génération augmentée par récupération de Cohere, qui n’était pas dans le modèle testé, est très efficace pour fournir aux entreprises des citations vérifiables pour confirmer les sources d’information.

Adam Wenchel, co-fondateur et PDG d’Arthur, a souligné l’importance pour les utilisateurs et les entreprises de « tester sur votre charge de travail exacte ». Il a ajouté qu’il est essentiel de comprendre comment un modèle performe pour ce que vous essayez d’accomplir.

Conclusion : Alors que l’intelligence artificielle continue de progresser à un rythme effréné, il est impératif que les utilisateurs et les entreprises comprennent les forces et les faiblesses de ces systèmes. Comme le souligne Adam Wenchel, il est essentiel de tester ces modèles dans des conditions réelles et de comprendre comment ils se comportent dans des scénarios spécifiques. Dans un monde où la désinformation peut avoir des conséquences graves, cette compréhension est plus cruciale que jamais.