Tag: GPT-5.2

06 févr. 20267 min de lectureNotes fondateurAvancé5 min build

ORBIT : Cross‑Episode Meta‑RL pour l'adaptation en‑contexte en ligne des LLM

Résumé technique et guide d'action pour développeurs et fondateurs : ORBIT est un procédé de meta‑reinforcement learning multi‑épisode qui entraîne des LLM à apprendre depuis des traces d'interaction présentées en contexte afin d'adapter leur comportement à l'inférence (rapporté par les auteurs dans arXiv:2602.04089).

LLM meta-RL in-context learning ORBIT Qwen3-14B

+3 de plus

GPT-5.2 reproductibilité adaptation en ligne

Tag: GPT-5.2

Opus 4.5 et GPT‑5.2 liés à +44 % de messages AI hebdomadaires — résumé et guide pratique (contexte UK)

ORBIT : Cross‑Episode Meta‑RL pour l'adaptation en‑contexte en ligne des LLM