Tag: inférence

07 mai 20266 min de lectureBrief sortie modèleIntermédiaire

Gemma 4 ajoute la Multi‑Token Prediction (MTP) — le décodage spéculatif peut accélérer la génération jusqu’à 3×

Google a publié des drafters expérimentaux Multi‑Token Prediction (MTP) pour Gemma 4 : un décodage spéculatif qui prédit plusieurs tokens à la fois et qui, d’après Google, peut accélérer la génération jusqu’à 3× sans perte de qualité signalée. Traduction et guide pratique pour petites équipes, fondateurs et développeurs (contexte US).

gemma4 mtp speculative-decoding local-ai inference

+2 de plus

google ai-deployment

NVIDIA Nemotron 3 Nano Omni : un modèle omni‑modal pour documents, audio et vidéo en contexte long

Nemotron 3 Nano Omni est annoncé par NVIDIA comme un modèle omni‑modal capable de raisonner sur de longs contextes multimodaux (documents, images, audio, vidéo). Des checkpoints BF16, FP8 et NVFP4 sont fournis sur Hugging Face ; cet article propose un guide pragmatique pour un test rapide et une intégration initiale.