Bonjour Fanny, vous travaillez au sein de l’équipe DEEL de l’IRT Saint Exupéry et vous venez de soutenir une thèse mêlant équité et explicabilité en NLP : comment en êtes-vous venue à vous spécialiser sur l’explicabilité des modèles Transformers, et quel a été le déclic à l’origine d’Interpreto ?
Au départ, je voulais travailler sur les questions d'équité en IA, notamment parce que je me sentais personnellement concernée par les biais discriminants que l’on peut observer dans certains systèmes. En étudiant ces biais dans les modèles de langage durant mon doctorat, je me suis rapidement intéressée à la manière dont ces modèles prennent leurs décisions. C’est là que j’ai découvert le domaine de l’explicabilité. J’ai réalisé que c’était en quelque sorte la suite logique : comprendre le comportement interne des modèles permet non seulement d’identifier des biais précis, mais aussi d’analyser plus globalement ce que les modèles apprennent réellement.
L’explicabilité est cependant un domaine encore très récent, qui évolue extrêmement vite. De nombreuses méthodes sont proposées dans la recherche, mais elles restent souvent difficiles à utiliser pour des personnes qui travaillent avec l’IA sans être spécialistes de ce domaine. C’est de ce constat qu’est née l’idée d’Interpreto : créer une librairie simple d’utilisation, accessible, qui regroupe les techniques d’explicabilité les plus avancées. L’objectif est de rendre ces outils plus faciles à utiliser pour la communauté et, plus largement, de rendre ce domaine plus accessible.
Pour un développeur ou un data scientist qui utilise des modèles Transformers via Hugging Face sans se poser (encore) de questions d’explicabilité, comment expliqueriez-vous concrètement ce que fait Interpreto, et en quoi ses approches par attribution et par concepts (dont COCKATIEL) changent la manière d’analyser un LLM ?
Quand on utilise un modèle Transformer via Hugging Face, on obtient généralement une prédiction (une classification ou un texte généré) mais on ne sait pas vraiment pourquoi le modèle a produit ce résultat. Interpreto permet justement d’analyser ce qui influence les décisions du modèle avec deux approches complémentaires (les méthodes d’attribution et les basées sur les concepts).
Les méthodes d’attribution permettent d’obtenir une explication locale, sur un exemple précis. Concrètement, elles indiquent quelles parties du texte (quels mots ou quels tokens) ont le plus contribué à la prédiction. C’est particulièrement utile pour comprendre pourquoi un modèle s’est trompé sur un cas spécifique.
Les méthodes basées sur les concepts, comme COCKATIEL, apportent plutôt une analyse globale du modèle. Elles permettent d’identifier les grands concepts sur lesquels le modèle s’appuie de manière générale pour faire ses prédictions, par exemple des notions liées au genre, au style ou au sujet d’un texte. Cela aide à comprendre ce que le modèle a réellement appris dans ses représentations internes, au-delà d’un exemple particulier.
Vous travaillez à l’interface entre recherche fondamentale (ANITI, IRIT, CentraleSupélec, etc.) et besoins industriels (Renault, Thales, Ampère…) : quels sont, dans vos échanges, les malentendus ou attentes irréalistes les plus fréquents sur l’« explicabilité » des Transformers, et comment Interpreto tente-t-il d’y répondre de façon pragmatique ?
Dans les échanges avec l’industrie, il peut parfois y avoir un décalage d’attentes, simplement parce que l’explicabilité est encore avant tout un domaine de recherche. Contrairement à d’autres outils en IA, on n’a pas encore de solutions totalement standardisées ou certifiables. Les méthodes d’explicabilité sont encore en phase d’exploration scientifique : on teste des approches, on évalue leurs limites, et le domaine évolue très rapidement.
Dans ce contexte, l’objectif est surtout de proposer des outils qui permettent d’analyser les modèles de manière plus rigoureuse : comprendre pourquoi une prédiction a été faite sur un exemple particulier, identifier les concepts sur lesquels le modèle s’appuie, ou détecter des comportements inattendus.
Interpreto s’inscrit dans cette approche pragmatique : plutôt que de promettre une explication parfaite, la librairie fournit un ensemble de méthodes accessibles qui permettent aux chercheurs et aux ingénieurs d’explorer et d’analyser leurs modèles plus facilement, tout en restant proche de l’état de l’art en recherche.
COCKATIEL est une méthode post-hoc, à base de concepts, et agnostique au modèle ; dans la pratique, quels compromis avez-vous dû faire entre puissance explicative, robustesse des explications, coût de calcul et facilité d’utilisation, et qu’est-ce qui a guidé vos choix de conception lors de son intégration dans Interpreto ?
Dans notre cas, il n’y a pas vraiment eu de compromis à faire sur la puissance explicative au sens où Interpreto a été pensé avant tout comme un outil. L’idée n’était pas d’imposer une seule méthode ou un seul niveau de coût de calcul, mais au contraire de proposer un cadre suffisamment flexible pour s’adapter aux contraintes de chacun.
En pratique, quelqu’un qui dispose de peu de ressources de calcul peut utiliser Interpreto sur de petits modèles et avec des méthodes d’explicabilité relativement peu coûteuses. À l’inverse, une équipe qui a accès à davantage de GPU peut tout à fait appliquer la librairie à de plus grands LLMs et utiliser des techniques plus lourdes en calcul, comme certaines approches basées sur les concepts.
Ce qui a guidé nos choix de conception, c’est donc surtout la facilité d’utilisation et l’accessibilité : nous voulions que la librairie puisse être utilisée aussi bien par des personnes ayant des moyens limités que par des équipes de recherche ou industrielles disposant d’une infrastructure plus importante. L’objectif était de rendre l’explicabilité utilisable pour tous.
Dans vos travaux sur l’équité en NLP, comment l’explicabilité par concepts vous aide-t-elle à détecter ou documenter des biais dans les modèles Transformers (par exemple sur le genre, l’origine, la langue), et avez-vous un exemple concret où Interpreto a mis en lumière un comportement problématique d’un modèle ?
Dans un de mes papiers, j’ai justement utilisé différentes approches d’explicabilité par concepts sur une tâche de classification de métiers par des modèles de langage. L’objectif était d’identifier les concepts sur lesquels les modèles s’appuyaient pour faire leurs prédictions. Nous avons observé que, pour plusieurs modèles testés, le genre apparaissait comme un concept très important, et que son influence sur la prédiction pouvait être particulièrement élevée. Cela pose évidemment des questions éthiques, car le genre ne devrait pas jouer un rôle déterminant dans ce type de tâche.
Ce travail a été réalisé avant la création de la librairie Interpreto, mais toutes les méthodes d’explicabilité basées sur les concepts utilisées dans ce papier ont depuis été implémentées dans la librairie, afin de rendre ce type d’analyse plus accessible et reproductible pour d’autres chercheurs et praticiens.
Avec l’AI Act et la pression réglementaire croissante sur la transparence des systèmes d’IA, comment voyez-vous le rôle d’un outil open source comme Interpreto dans la constitution d’une IA « souveraine, fiable et transparente » en Europe, et quelles capacités manquent encore selon vous pour être à la hauteur des futures exigences ?
Avec l’AI Act, la demande pour des systèmes d’IA plus transparents et mieux documentés devient très forte. Des outils comme Interpreto peuvent contribuer à cela en permettant d’analyser concrètement le comportement des modèles : comprendre sur quelles informations ils s’appuient, identifier des biais ou mieux documenter leurs mécanismes de décision.
Le fait que la librairie soit entièrement open source est important dans cette perspective. L’IRT Saint Exupéry est une Fondation de Coopération Scientifique qui travaille justement à l’interface entre recherche et industrie, et les principaux contributeurs d’Interpreto sont aujourd’hui basés en France. Cela montre que nous avons en Europe, et en particulier en France, un écosystème très riche et beaucoup de talents pour développer des outils d’IA fiables et auditable, ce qui participe aussi à une forme de souveraineté technologique.
Il faut toutefois rester lucide : l’explicabilité est encore un domaine de recherche, et il n’existe pas encore de solutions totalement standardisées pour répondre directement aux exigences réglementaires. Mais on va dans cette direction : par exemple, Interpreto propose déjà plusieurs métriques pour évaluer la qualité des explications, ce qui est une étape importante pour rendre ces méthodes plus rigoureuses et comparables.
Pour conclure, quel conseil donneriez-vous à un·e jeune chercheur·se ou ingénieur·e qui souhaite travailler sur l’explicabilité des Transformers : par quoi commencer, quels écueils éviter, et quel état d’esprit adopter pour produire des explications réellement utiles pour les utilisateurs finaux ?
Je conseillerais d’abord de bien comprendre les modèles eux-mêmes, en particulier comment fonctionnent les Transformers et leurs représentations internes. L’explicabilité devient beaucoup plus pertinente lorsqu’on comprend déjà bien ce que fait le modèle.
Un écueil fréquent est de chercher une explication parfaite ou définitive. En pratique, les méthodes d’explicabilité sont plutôt des outils d’analyse : il faut souvent croiser plusieurs approches et garder un regard critique sur les résultats.
Enfin, je pense qu’il est important de garder en tête l’utilisateur final. Une bonne explication n’est pas seulement intéressante d’un point de vue technique, elle doit aussi être utile pour diagnostiquer un modèle, comprendre ses erreurs ou détecter des biais. Garder cette dimension pratique aide beaucoup à orienter les recherches vers des méthodes réellement utiles.
Pour en savoir plus : https://www.irt-saintexupery.com/