ChatGPT passe un examen de gestion et s'en sort avec un B

ChatGPT passe un examen de gestion et s’en sort avec un B

L’algorithme a offert des réponses d’une qualité “stupéfiante”, mais il a aussi commis des erreurs dans des problèmes de maths rudimentaires.

ChatGPT continue de faire parler de lui tous les jours, pour le meilleur et pour le pire. Depuis qu’il a été rendu disponible en accès libre, ce chatbot renforcé à grands coups de machine learning n’en finit plus d’impressionner les utilisateurs, qui testent ses limites dans des tas de situations différentes.

Et il ne s’agit pas que d’utilisateurs qui cherchent à le prendre au piège avec des éléments de langage ambigus. Dans des travaux repérés par Interesting Engineering, Christian Terwiesch, un professeur de commerce à la Wharton School of Business (WSB), une branche de l’Université de Pennsylvanie, a réalisé une expérience un peu différente ; il a soumis ChatGPT à un examen de gestion.

Le test en question est un grand classique du cursus de l’école qui conduit à l’obtention d’un MBA. Jusqu’à très récemment, il était même obligatoire dans toutes les branches de l’école pour pouvoir prétendre au diplôme. Terwiesch a donc voulu comparer les performances du chatbot à celles de ses étudiants ; il a noté le résultat comme il l’aurait fait avec un étudiant lambda. Verdict : la copie de ChatGPT valait selon lui un B.

Cela correspond à peu près au seuil d’admissibilité dans les écoles de management américaines. Ce document de la Robert H. Smith School of Business explique par exemple que les étudiants avec une moyenne supérieure à 3 (ce qui correspond justement à un B) au terme d’un trimestre peuvent continuer leur cursus. Toutes les écoles n’ont pas les mêmes critères, mais ce qu’il faut en retenir, c’est qu’il s’agit d’une note passable.

Mais cette lettre ne suffit pas à illustrer correctement la production de l’algorithme. En effet, il a affiché des performances extrêmement hétérogènes selon le type de problème proposé.

Des réponses exactes et parfaitement justifiées…

Terwiesch explique que l’algorithme a effectué un « travail impressionnant » pour tout ce qui relève de la « gestion des opérations basiques et des questions d’analyse des processus ». Non seulement ses réponses étaient exactes, mais les justifications et explications associées étaient « excellentes ».

Un résultat relativement prévisible. En effet, les réseaux de neurones artificiels qui servent de support au machine learning sont incroyablement compétents lorsqu’il s’agit d’organiser et de recouper des ensembles de données complexes (comme un cursus de gestion entier) pour en extraire une information pertinente.

Le premier “avocat IA” va défendre un vrai humain au tribunal

C’est précisément pour cette raison que certaines personnes commencent à explorer des applications dans des domaines comme la justice, où l’IA pourrait nous aider à naviguer plus efficacement parmi les innombrables textes de loi (voir notre article ci-dessus).

Autre point intéressant : cet élève virtuel est « remarquablement bon » lorsqu’il s’agit de réagir au moindre coup de pouce pour réparer ses erreurs. « Dans les cas où il n’a pas réussi à approcher le problème de la bonne façon, Chat GPT3 a su s’autocorriger après avoir reçu un indice approprié d’un expert humain », explique Terwiesch. Un comportement qui ravirait n’importe quel enseignant s’il s’agissait d’un élève en chair et en os.

…et des erreurs impardonnables

Mais il y a un autre critère très important où ChatGPT ne s’est pas vraiment montré à la hauteur : les mathématiques de base. L’auteur explique que l’algorithme a « parfois commis des erreurs surprenantes dans des calculs relativement simples, du niveau d’un élève de 6e ».

C’est évidemment un gros problème dans cette discipline. Le résultat de ces calculs pourtant triviaux conditionne souvent toute la suite du raisonnement. Se tromper lors de cette étape de base aura forcément de grosses répercussions sur la qualité de la conclusion. Et dans le monde réel, ça se traduirait probablement par un désastre financier.

des exercices de multiplications pour les enfants — ChatGPT a commis des erreurs impardonnables sur des problèmes de math pourtant très simples. © Chris Liverani – Unsplash

Pour finir, le professeur indique que l’algorithme a aussi rencontré de gros problèmes au moment d’aborder des situations plus complexes, lorsque les relations de causalité étaient moins évidentes (on parle d’effet stochastique). Il cite par exemple les problèmes liés à la variabilité de la demande, où ChatGPT a semblé complètement perdu.

Et malgré cela, la copie du chatbot aurait tout de même été considérée comme admissible si elle avait été produite par un étudiant humain. « Les performances de Chat GPT3 auraient été suffisantes pour passer l’examen avec une marge très faible », explique l’auteur.

L’avènement d’un outil éducatif à double tranchant

Morale de l’histoire : ChatGPT ne mérite pas encore un véritable diplôme, mais il n’en est pas non plus très loin. Et c’est très impressionnant pour un algorithme qui, rappelons-le, reste essentiellement généraliste ; il n’a absolument pas été conçu pour répondre spécifiquement à ce genre de questions.

Il sera donc très intéressant d’observer la façon dont ces programmes basés sur l’IA seront intégrés aux différents cursus. Qui sait ; un jour, les futures itérations de l’algorithme serviront peut-être à générer, puis à corriger les copies des étudiants en gestion, voire dans d’autres matières.

Mais avant d’en arriver-là, les résultats décrits dans ces travaux montrent qu’il pourrait déjà être utile dans son état actuel. Un professeur pourrait parfaitement s’en servir pour générer des tas d’études de cas personnalisées, à condition qu’elles soient vérifiées par un professeur. Dans le cas précis de la gestion, cela permettrait aux étudiants de s’entraîner à l’analyse et à la prise de décision sans le moindre risque. Et on peut étendre ce raisonnement à des tas d’autres cursus; les possibilités sont virtuellement illimitées.

Les limites inhérentes à ces algorithmes et des cas comme l’affaire de la triche à Lyon (voir notre article) nous ont déjà montré qu’il faudra être prudents sur la façon d’utiliser ces outils. Pour l’instant, il serait encore très imprudent de les intégrer à un véritable cursus sans supervision humaine. Mais il y a de fortes chances que d’ici quelques années, le monde de l’éducation change de façon radicale dans le sillage de cette technologie révolutionnaire.

Le papier de recherche et l’énoncé de l’examen sont disponibles sur le site de l’école.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.