Recherche

Affichage 193-204 sur 218

Analyses de modèlesRoyaume-Uni
Ouvrir
06 févr. 20267 min de lecturePlaybook AgentsIntermédiaire5 min build

InterPReT (arXiv:2602.04213) — Résumé technique et guide d'adoption pour builders (contexte UK)

InterPReT propose que des utilisateurs non-experts puissent restructurer une politique par instructions et continuer l'entraînement sur leurs démonstrations ; une étude utilisateur (N = 34, jeu de course) rapporte des politiques plus robustes sans perte d'utilisabilité. Source : arXiv:2602.04213.

Analyses de modèlesÉtats-Unis
Ouvrir
06 févr. 20267 min de lectureNotes fondateurAvancé5 min build

ORBIT : Cross‑Episode Meta‑RL pour l'adaptation en‑contexte en ligne des LLM

Résumé technique et guide d'action pour développeurs et fondateurs : ORBIT est un procédé de meta‑reinforcement learning multi‑épisode qui entraîne des LLM à apprendre depuis des traces d'interaction présentées en contexte afin d'adapter leur comportement à l'inférence (rapporté par les auteurs dans arXiv:2602.04089).

TutorielsRoyaume-Uni
Ouvrir
06 févr. 20267 min de lectureDeep dive outillageIntermédiaire240 min build

Prototype Interfaze : pile multimodale Perception, Construction de contexte et Couche d'action pour modèles spécialisés

Tutoriel localisé (UK) pour prototyper une architecture Interfaze : modules de perception multimodale, pipeline de construction de contexte, couche d'action et contrôleur léger. Contient étapes pratiques, blocs de code et alertes opérationnelles — certaines étapes d'implémentation sont indiquées comme hypothèses à valider.

TutorielsRoyaume-Uni
Ouvrir
06 févr. 20267 min de lecture

Les règles échouent dans le prompt, réussissent à la frontière

Les workflows agentiques et la coercition par prompt sont la nouvelle surface d'attaque. Ce tutoriel décrit une stratégie de frontière concrète et déployable (moteur de politique + sandbox + canaux attestés) pour réduire le risque de compromission agentique — avec configurations, code, métriques et cadre coût/risque pour fondateurs (contexte Royaume‑Uni).

TutorielsÉtats-Unis
Ouvrir
06 févr. 20267 min de lectureDeep dive outillageIntermédiaire240 min build

Supervision interactive évolutive : prototype d'arbre décisionnel pour collecter des retours par nœud et orienter les LLM

Guide technique pour implémenter la « Scalable Interactive Oversight » (arXiv:2602.04210). Décomposez l'intention en arbre décisionnel récursif, collectez des signaux faibles par nœud, agrégerez-les en instructions globales et, en option, optimisez via des retours utilisateurs en ligne.

Analyses de modèlesFrance
Ouvrir
06 févr. 20266 min de lectureNotes fondateurIntermédiaire5 min build

Vérification sélective au niveau des états avec heuristiques apprises pour raisonnement LLM sous contrainte de coût de vérification

Résumé professionnel pour développeurs et fondateurs : pipeline de vérification sélective au niveau des états (filtrage de faisabilité, classement appris pré-vérification, allocation adaptative) — revendique + précision et −44% d'appels au vérificateur sur MATH (source : arXiv:2602.03975).

Analyses de modèlesRoyaume-Uni
Ouvrir
06 févr. 20266 min de lectureNotes fondateurIntermédiaire5 min build

Prompting Task‑Method‑Knowledge (TMK) — traduction et implications pour les développeurs et fondateurs (contexte UK)

Résumé professionnel en français (contexte UK) du papier arXiv « Knowledge Model Prompting Increases LLM Performance on Planning Tasks » (soumis 3 févr. 2026). Le document rapporte qu'un schéma de prompting TMK (Task / Method / Knowledge) améliore fortement les performances de planification des LLM sur PlanBench (Blocksworld) — passage rapporté de 31,5 % à 97,3 % sur instances symboliques opaques — et discute implications pratiques, risques et métriques à suivre.

TutorielsÉtats-Unis
Ouvrir
06 févr. 20266 min de lecturePlaybook AgentsIntermédiaire240 min build

Déverrouiller le Codex Harness : comment nous avons construit l'App Server

Tutoriel technique pour développeurs et fondateurs : implémenter un App Server JSON‑RPC bidirectionnel qui expose des hypothèses internes, stream des frames incrémentales et persiste des diffs pour approbation humaine. Combine des patterns pratiques avec deux signaux de recherche (PCE, Empirical‑MCTS). Les artefacts concrets non documentés dans les extraits de recherche sont marqués HYPOTHESIS.

TutorielsRoyaume-Uni
Ouvrir
06 févr. 20267 min de lectureDeep dive outillageIntermédiaire120 min build

Waymo utilise le modèle monde Genie 3 de Google pour simuler des tornades et la faune dans les tests d’edge-cases

The Verge rapporte que Waymo utilise le modèle monde Genie 3 de Google/DeepMind pour générer des scènes de conduite photoréalistes et interactives afin de produire des edge-cases rares (tornades, grands animaux) et les injecter dans des bancs de test AV.

ActualitésRoyaume-Uni
Ouvrir
05 févr. 20266 min de lectureBrief sortie modèleIntermédiaire5 min build

Les labels de provenance et les métadonnées dépassés à mesure que les deepfakes se multiplient

Synthèse technique et produit — The Verge conclut que les manifests de provenance et les labels embarqués deviennent fragiles : la transcodification, le resharing et le réalisme des modèles sapent les garde‑fous fondés sur les métadonnées. Recommandations pratiques pour ingénieurs, fondateurs et équipes UK.