⁉️ Kézako : le RAG

Publié le 19 novembre 2024 à 15:58

Quand on parle d'IA, on parle souvent de RAG ou d'approche par RAG. Mais de quoi s'agit-il ? On te l'explique rapidement 👇

Image réalisée avec Canva.

RAG pour ...

R = Retrieval

A = Augmented

G = Generation

(ou, en français, "Génération augmentée de récupération").

 

OK, mais ça veut dire quoi ?

Il s'agit d'une approche qui combine à la fois :

  • la recherche documentaire pure et simple, sans création de contenu original (donc sans utilisation des LLM) ;
  • la génération de contenus originaux (sur base des LLM).

 

Non, je ne suis pas en train de devenir folle, laisse-moi t'expliquer ça plus clairement 😜 Tu vas voir, ce n'est pas si compliqué, c'est promis.

Comment ça fonctionne ?

Dans une utilisation traditionnelle de l'IA, tu lui poses une question et, parfois, tu lui donnes des documents supplémentaires sur lesquels travailler. Tu fais ta demande et l'IA se met au boulot. Mais de quelle façon ? En utilisant ses LLM, c'est-à-dire les modèles de langages nombreux et variés avec lesquels elle a été entrainée. Sur base de ces modèles et des informations supplémentaires que tu lui as éventuellement données, elle génère alors :

  • de l'information ;
  • une sortie originale (un texte par exemple).

 

Dans une approche par RAG, l'IA fonctionne autrement. En effet, elle n'utilise ses LLM que pour générer la sortie, pas pour créer les contenus. En d'autres termes, elle travaille en deux temps :

  1. Elle crée des contenus en se basant sur les informations que tu lui a données dans les documents que tu as fournis, et uniquement là-dessus (pas d'utilisation des LLM).
  2. Elle propose une formulation originale en se basant sur les LLM.

Le plus beau ? Ces IA te sourcent les infos donc, tu peux vérifier qu'elles n'hallucinent pas. Et si les documents fournis sont de qualité, elles peuvent traiter des domaines pointus et faire preuve de nuance.

 

Bref, c'est le meilleur des deux mondes 😍

Je te fais un dessin ?

Infographie créée avec Canva.

Un petit exemple pour la route ?

Imaginons que, dans le cadre d'un cours à destination des accueillants en milieu scolaire, tu souhaites préparer une synthèse sur les maladies infantiles. C'est pour demain 8h, il est 22h et tu es fatigué 😇

Tu demandes donc à Chat GPT, Copilot ou ton IA préférée de te générer ça. Comme tu t'y connais en IA et que sais qu'elle peut avoir des hallucinations, tu lui donnes ton cours (pas folle, la guêpe). Ensuite, tu lui demandes de te générer une synthèse en utilisant les documents fournis.

Et là, magie, l'IA te fait une belle synthèse. Dedans, il y a tes infos hyper pertinentes ... mais également un tas d'âneries qu'elle a trouvées sur les forums antivax, Doctissimo ou Reddit (oui, oui, certaines IA ont été entrainées avec ça). Résultat : ta synthèse combine des infos exactes et qualitatives, comme des énormités. Tu es bon pour recommencer 😓

 

En utilisant l'approche RAG, c'est-à-dire en utilisant le bon outil et le bon prompt, tu aurais eu un résultat beaucoup plus qualitatif. En effet, ton IA n'aurait utilisé que les documents fournis pour créer le contenu. Quant aux LLM, ils ne lui auraient servi qu'à savoir quelles sont les caractéristiques d'un bon résumé pour sélectionner l'information dans les ressources que tu lui as fournies 🧐

Applications concrètes

Des révisions

Les révisions des étudiants, c'est toujours difficile à gérer et à accompagner 🤨 On n'a pas toujours le temps de le faire en classe et certains étudiants ont des méthodes pour le moins douteuses quand il s'agit de travailler en autonomie.

Que ce soit via un chatbot ou un notebook, un bon paramétrage te permettra de créer des outils de révisions pour tes étudiants. Fournis les ressources documentaires à l'IA et donne-lui des consignes pour ses questions et les feedback qu'elle doit apporter aux réponses que donneront les étudiants. Ainsi, tu es sûr de l'info qui sortira. Teste-le. C'est prêt ? Tu as maintenant un outil de révision clé en main, utilisable par tous tes étudiants à n'importe quelle heure du jour ou de la nuit 😜

Des feedbacks rapides et individualisés

Ton DP te demande d'exercer tes étudiants à des tâches qui te prennent 1000 ans en feedbacks ? Du coup, tu les exerces une fois ou deux et tu croises les doigts en fin d'UE pour que les étudiants y arrivent ? Pire, tu es trop indulgent dans ta correction parce que tu te sens coupable 🫣

Avec l'approche RAG, tu peux donner les infos nécessaires à l'IA pour qu'elle fournisse un feedback personnalisé à chaque étudiant. Bien sûr, tu dois relire, mais tu gagnes tout le temps de la rédaction et tu peux réinvestir ce temps en proposant plus d'exercices d'entrainement 🥳

Une centralisation de l'information

Toi aussi tu reçois trop de documents administratifs et tu en zappes quelques uns ? Et puis les infos changent tellement souvent que tu ne te souviens plus laquelle est la bonne ?

En utilisant des outils RAG, plus besoin de te casser la tête 🤯 Pose directement la question à l'IA, sans craindre les hallucinations. Tu auras la bonne info et tu pourras la vérifier aisément laquelle est la plus récente.

Une recherche d'info

Tu as besoin d'une info qui se trouve dans le rapport de 300 pages que tu as reçu la semaine dernière et que tu as lu très consciencieusement mais sans en retenir une ligne ? Tu déprimes à l'idée de perdre encore 20 minutes à chercher une info en triant les sorties Google ou en feuilletant des pages au hasard ?

Pourquoi ne pas créer un notebook pour ces documents ? Ainsi dès que tu as une question ou besoin d'un petit refresh, il te suffit de poser la question à l'IA 😎

Et on fait ça avec quels outils ?

Voici quelques outils pour travailler avec une approche RAG. Pas besoin de le préciser dans ton prompt, ils le font par défaut 😉

Pour faire de le recherche

Source image : https://uxwing.com/perplexity-ai-icon/

IA des chercheurs par excellence, Perplexity te sourcera les infos de sa réponse. Non seulement tu auras les liens vers les sites et documents dont elle s'est inspirés, mais dans le texte, tu retrouveras des renvois qui te permettront de savoir d'où sort quelle info 🧐 

Entièrement gratuit (en tout cas à cette heure), il est un allié de taille pour traiter des sujets plus pointus, chercher des documents fiables, etc.

Pour créer des notebooks

Créé par Google et propulsé par Gemini 1.5, NoteBookLM te permet de créer des carnets de notes thématiques reprenant toutes sortes de ressources : site web, documents, audio, vidéos, il n'a pratiquement aucune limite (il n'aime pas trop son concurrent Microsoft). Tu peux aller jusqu'à ... 50 ressources par carnet 🤩

Entièrement gratuit (pour le moment), il te permet de sélectionner les sources sur lesquelles il travaille à chaque nouvelle itération. Il t'aide à générer des sommaires, des FAQ et même ... des podcasts 😅

Oui, oui, tu as bien lu : sur base des infos des ressources, il propose un dialogue entre deux hôtes qui parlent du sujet de ton carnet de notes. Et si tu veux qu'ils parlent en français, il suffit de préciser "hosts can only speak in french" et le tour est joué 😍

Pour créer des chatbots

HuggingChat c'est l'outil gratuit pour créer des chatbots personnalisés. Il faut une certaine maitrise pour l'utiliser, je le reconnais. Il ne permet pas le dépôt de documents tels quels, mais il est très performant et permet d'aider à la correction ou aux révisions, systématise les tâches répétitives, etc. 

Il demande une identification via HuggingFace et met à disposition des utilisateurs tous les chatbots existants publiés. Il propose ainsi une vaste bibliothèque pour celles et ceux qui ne sont pas encore au point avec la création de ce genre d'outil 🫣

Source de l'image : https://mizou.com/

Mizou est un nouveau venu dans le paysage des chatbots. Plus facile d'utilisation qu'Hugging Face, il est tout aussi performant.

Il propose également une bibliothèque de chatbots sur tous les thèmes possibles et imaginables. Cependant, il ne permet pas de déposer des documents tels quels.

Bien que toujours en version beta, il est actuellement gratuit pour les enseignants et comprend très bien le français. Un outil à creuser 😍


Ressources / Bibliographie / Sitographie

Manuela Guisset - Formation IA4EDU Module 9 (Réinventer les travaux académiques avec l'IA) - Technofutur TIC

https://datascientest.com/retrieval-augmented-generation-tout-savoir/ (dernière consultation le 12 novembre 2024)

https://datascientest.com/large-language-models-tout-savoir/ (dernière consultation le 18 novembre 2024)

Logo Perplexity : https://uxwing.com/perplexity-ai-icon/ (dernière consultation le 19 novembre 2024)

Logo NoteBookLM : https://notebooklm.google/ (dernière consultation le 19 novembre 2024)

Logo HuggingChat : https://huggingface.co/chat/ (dernière consultation le 19 novembre 2024)

Logo Mizou : https://mizou.com/ (dernière consultation le 19 novembre 2024)

Article rédigé par Mélanie