Tag: Qwen3-14B

Showing 1-1 of 1

Feb 06, 20266 min readFounder NotesAdvanced5 min build

ORBIT: Cross‑Episode Meta‑RL for In‑Context Online Adaptation of LLMs

ORBIT trains LLMs via cross-episode meta-RL so models learn from interaction traces at inference; authors report Qwen3-14B matches GPT-5.2 on unseen environments after meta-training.

LLM in-context learning meta-RL ORBIT Qwen3-14B

+3 more