vendredi 25 avril 2025

Spécialiser un LLM en prof de math

 

spécialiser un LLM pour résoudre des problèmes de maths/physique

Tu as 2 voies principales :


1. Instruction tuning avec raisonnement pas à pas

Tu entraînes le modèle sur des paires du type :

json
{ "instruction": "Résous ce problème : Une voiture accélère à 3 m/s² pendant 4 secondes. Quelle est sa vitesse finale ?", "response": "Utilisons la formule v = a × t. Ici, a = 3 m/s² et t = 4 s. Donc : v = 3 × 4 = 12 m/s. Réponse : 12 m/s." }
  • Tu l’entraînes à penser étape par étape, à l’image de Chain-of-Thought (CoT).

  • Ça améliore sa rigueur, surtout en physique/maths où les étapes comptent.


2. Fine-tuning avec LoRA ou SFT sur des datasets spécialisés

Voici quelques datasets très efficaces pour ça :

DatasetContenuLien
GSM8kProblèmes de maths niveau primaire/collège avec CoT→ HuggingFace GSM8k
MATHProblèmes niveau lycée/prépa (format latex)→ MATH dataset
ASDivProblèmes algébriques divers→ ASDiv
Open PhysicsProblèmes de physique type lycéeCustom / à créer
SymPy-generatedProblèmes générés automatiquement avec solution symboliqueGénérable via script Python + SymPy

Étapes concrètes pour entraîner ton modèle :

  1. Choisir un modèle de base (ex. Mistral-7B-Instruct, Zephyr, OpenChat-3.5)

  2. Préparer ton dataset au format JSONL :

    json
    {"instruction": "...", "response": "..."}
  3. Utiliser PEFT + LoRA avec un framework comme :

  4. Lancer l’entraînement LoRA sur un GPU (locally ou sur Google Colab / RunPod / Paperspace)

  5. Tester ton modèle en local (ex : avec text-generation-webui ou un script Python)


Bonus : Tu veux générer ton propre dataset ?

  • Tu peux utiliser GPT-4 pour te générer automatiquement des centaines de problèmes avec solutions détaillées.

  • Ou combiner ça avec des outils comme SymPy pour vérifier/structurer les calculs.


Souhaites-tu :

  • Un exemple de script pour fine-tuner sur GSM8k ?

  • Ou qu’on crée ensemble un mini-dataset de problèmes de physique niveau lycée ?

Je peux aussi te donner un notebook prêt à lancer si tu veux te lancer rapidement.


Aucun commentaire:

Enregistrer un commentaire

Articles les plus populaires