Tag: inférence

Affichage 1-2 sur 2

ActualitésÉtats-Unis
Ouvrir
07 mai 20266 min de lectureBrief sortie modèleIntermédiaire

Gemma 4 ajoute la Multi‑Token Prediction (MTP) — le décodage spéculatif peut accélérer la génération jusqu’à 3×

Google a publié des drafters expérimentaux Multi‑Token Prediction (MTP) pour Gemma 4 : un décodage spéculatif qui prédit plusieurs tokens à la fois et qui, d’après Google, peut accélérer la génération jusqu’à 3× sans perte de qualité signalée. Traduction et guide pratique pour petites équipes, fondateurs et développeurs (contexte US).

TutorielsFrance
Ouvrir
28 avr. 20267 min de lecturePlaybook AgentsIntermédiaire120 min build

NVIDIA Nemotron 3 Nano Omni : un modèle omni‑modal pour documents, audio et vidéo en contexte long

Nemotron 3 Nano Omni est annoncé par NVIDIA comme un modèle omni‑modal capable de raisonner sur de longs contextes multimodaux (documents, images, audio, vidéo). Des checkpoints BF16, FP8 et NVFP4 sont fournis sur Hugging Face ; cet article propose un guide pragmatique pour un test rapide et une intégration initiale.