Tag: GPT-5.2

Affichage 1-1 sur 1

Analyses de modèlesÉtats-Unis
Ouvrir
06 févr. 20267 min de lectureNotes fondateurAvancé5 min build

ORBIT : Cross‑Episode Meta‑RL pour l'adaptation en‑contexte en ligne des LLM

Résumé technique et guide d'action pour développeurs et fondateurs : ORBIT est un procédé de meta‑reinforcement learning multi‑épisode qui entraîne des LLM à apprendre depuis des traces d'interaction présentées en contexte afin d'adapter leur comportement à l'inférence (rapporté par les auteurs dans arXiv:2602.04089).