Analyses de modèlesÉtats-Unis
OuvrirORBIT : Cross‑Episode Meta‑RL pour l'adaptation en‑contexte en ligne des LLM
Résumé technique et guide d'action pour développeurs et fondateurs : ORBIT est un procédé de meta‑reinforcement learning multi‑épisode qui entraîne des LLM à apprendre depuis des traces d'interaction présentées en contexte afin d'adapter leur comportement à l'inférence (rapporté par les auteurs dans arXiv:2602.04089).