TL;DR builders
En une phrase : The Verge rapporte que Waymo utilise le modèle monde Genie 3 de Google/DeepMind pour générer des environnements de conduite photoréalistes et interactifs afin de produire des edge‑cases rares (tornades, animaux, etc.) et les injecter dans son banc de tests AV (source : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
Pourquoi c’est important : la génération synthétique permet d'étendre la couverture d'edge‑cases au‑delà du replay réel et d'accélérer la découverte de défaillances critiques pour la sécurité. The Verge confirme l'usage industriel d'un modèle monde pour produire des scénarios variés et interactifs (voir source ci‑dessus : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
Checklist minimale attendue (artefact) : prompt → export de scène → config capteurs → JSON scénario → script de rollouts.
Note méthodologique : la seule affirmation explicitement vérifiée dans la source est l'utilisation par Waymo de Genie 3 pour générer des scènes photoréalistes et interactives ; les détails d'implémentation sont proposés comme hypothèses à valider.
Objectif et resultat attendu
Objectif principal (fondé sur la source) : utiliser un modèle monde (Genie 3) pour produire des scénarios d'edge‑cases photoréalistes et interactifs — tornades, animaux ou autres événements rares — et les exécuter via la chaîne AV (perception → prédiction → planification) afin de mesurer l'impact sur des métriques de sécurité (source : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
Résultats attendus (hypothèses opérationnelles à valider) :
- Bibliothèque indexée de scénarios (ID + seed) pour replay déterministe.
- Reproducers minimaux permettant root‑cause analysis.
- Signaux pass/fail pour gating CI/CD.
Métriques proposées (exemples, à valider) :
- Taux de faux négatifs perception : cible exemple 1%.
- Latence time‑to‑brake : objectif 150 ms.
- Portée fiable de détection : ~60 m.
- Reproductibilité cible : 90% même‑seed → mêmes résultats.
Critère d'acceptation (exemple) : scénario validé si reproductible sur N=10 runs seedés et respectant les gates définis.
(Source de contexte : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3)
Stack et prerequis
Composants centraux (confirmés ou hypothétiques) :
- Confirmé par la source : accès à un modèle monde capable de scènes photoréalistes et interactives (Genie 3) (https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
- Hypothèse : exporteur/adaptateur pour convertir la sortie du modèle vers FBX/GLTF ou format propriétaire du simulateur.
- Hypothèse : moteur de rendu capteurs + moteur physique (caméras 30 fps, LiDAR ~2 000 000 pts/s) et génération de bruit capteur.
- Hypothèse : chaîne AV sous test (perception → prédiction → planification) intégrée à harness de test et journalisation métrique.
- Hypothèse : orchestration (queue, pools workers) pour lancer rollouts en parallèle (ex. 50 workers max lors d'un pilote).
Compétences requises : prompt engineering, ingénierie simulation, sûreté, ops pour monitoring de compute et budget.
Source de contexte : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3
Implementation pas a pas
Nota bene : ces étapes sont proposées comme procédure technique à prototyper (voir contexte dans The Verge : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
-
Spécifier l'edge‑case
- Définir un spec compact (type d'événement, position relative, timing, comportements, contraintes). Enregistrer sous forme de table de décision.
-
Prompting itératif du modèle monde
- Construire des prompts précisant style photoréaliste, topologie et acteurs (ex. animal traversant à 300 m). Itérer jusqu'à obtenir assets et scripts d'acteurs.
-
Exporter et instrumenter
- Convertir la sortie du modèle en assets du simulateur ; attacher configs capteurs, seeds déterministes et produire un JSON scénario.
-
Lancer des rollouts (scale & randomisation)
- Piloter une sweep réduite (ex. 100 runs) pour feedback, puis scaler vers 1 000+ rollouts. Maintenir reproductibilité via seeds.
-
Évaluer et prioriser
- Automatiser extraction métriques, comparer aux gates, hiérarchiser repros pour création de reproducers minimaux.
Exemple de table de décision (extrait simple) :
| Décision | Valeur si vrai | Valeur si faux | |---|---:|---:| | L'objet apparaît à <50 m | Priorité haute | Réduire randomisation | | Vent > 10 m/s | Activer debris + test dynamique | Désactiver effets |
Deux exemples de commandes/config :
# lancer une série parallèle de rollouts (ex. 1 000 runs, pool 50 workers)
SCENARIO=scenarios/tornado_001.json
for i in $(seq 1 1000); do
seed=$((RANDOM%10000))
./run_sim --scenario ${SCENARIO} --seed ${seed} --out logs/run_${seed}.tar &
if (( $(jobs -r | wc -l) > 50 )); then
wait -n
fi
done
wait
{
"scenario_id": "tornado_001",
"seed": 42,
"actors": [{"type": "tornado", "start_m": 300}],
"randomization": {"wind_strength": [5, 20], "debris_count": 10}
}
Checklist opérationnelle initiale :
- [ ] Créer un repo de scénarios et une liste de seeds
- [ ] Implémenter seeding déterministe et adaptateur d'export
- [ ] Ajouter tests gated CI pour runs de scénarios
(Source de support : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3)
Architecture de reference
Flux conceptuel proposé (hypothèse, aligné sur l'approche décrite dans The Verge) :
Genie 3 (prompt) → exporteur de scène → moteur de rendu capteurs & physique → chaîne AV (perception → prédiction → planification) → pipeline télémétrie & métriques (https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
Tableau de composants (résumé) :
| Composant | Rôle | Statut / Hypothèse | |---|---|---| | Genie 3 | Génération scène photoréaliste & scripts d'acteurs | Confirmé par The Verge (https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3) | | Exporteur | Convertit asset → format simulateur (FBX/GLTF) | Hypothèse d'implémentation | | Simulateur + capteurs | Rendement 30 fps cam, LiDAR 2M pts/s | Hypothèse | | Orchestrateur | Lance batches (ex. 50 workers), conserve audit trail | Hypothèse |
Points d'intégration clefs : mapping seed, schéma JSON scénario, agrégateur métriques avec gates (pass/fail) et audit trail pour version modèle.
Vue fondateur: ROI et adoption
Arguments business (hypothèses à valider, contexte fourni par The Verge) :
- ROI court terme : diminuer les heures de collecte d'événements rares en générant ces cas en simulation (source : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
- Parcours d'adoption suggéré : pilote 1 000 rollouts → corrélation piste fermée sur 30 jours → intégration CI nocturne via feature flags.
Facteurs de décision à mesurer : taux de corrélation sim→piste, coût par repro (ex. $/run à estimer), et mix synthétique vs terrain exigé par régulateurs (à clarifier localement).
Pannes frequentes et debugging
The Verge mentionne plusieurs limites à surveiller : hallucinations du modèle et sim‑to‑real gap, qui imposent des gardes‑fous lors de l'utilisation de modèles monde (https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3).
Principales pannes à monitorer :
- Sim‑to‑real gap : dynamiques physiques / bruit capteur non réalistes → faux positifs/negatifs.
- Hallucinations : objets/trajectoires plausibles visuellement mais physiquement inconsistantes.
- Overfitting au simulateur : modèles ML qui exploitent artefacts 100% synthétiques.
Artifacts de debug à conserver : seeds, ID scénario, replays (vidéo + frames capteurs), reproducers minimaux et checklist de validation physique (échantillon manuel de 5% des scénarios).
(Source : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3)
Checklist production
Hypotheses / inconnues
Remarque : la seule affirmation explicitement vérifiée dans The Verge est l'utilisation par Waymo de Genie 3 pour générer des scènes photoréalistes et interactives ; les éléments opérationnels ci‑dessous sont des hypothèses à valider :
-
Seuils et valeurs d'ingénierie exemples (à valider) :
- Taux faux négatifs perception : 1% (hyp.)
- Latence time‑to‑brake : 150 ms (hyp.)
- Frame rate caméra : 30 fps (hyp.)
- LiDAR points/s : 2 000 000 pts/s (hyp.)
- Portée de détection fiable : 60 m (hyp.)
- Nombre initial de rollouts pilote : 1 000 (hyp.)
- Reproductibilité cible : 90% même‑seed (hyp.)
-
Artefact exemple (JSON) et commande rollout fournis plus haut.
Risques / mitigations
- Risque : génération de scènes non‑physiques (hallucinations).
- Mitigation : validateur automatique de consistance physique + revue manuelle de 5% des scénarios.
- Risque : dépassement budget compute / API.
- Mitigation : cap initial (ex. $X / mois), autoscaling, alertes et politique de quotas.
- Risque : dépendance excessive aux synthétiques.
- Mitigation : exiger corrélation piste fermée; imposer un pourcentage minimal de preuves issues du terrain avant promotion.
Prochaines etapes
- Implémenter adaptateur scène→sim, seeding déterministe et capture métadonnées (prompts, versions modèle).
- Lancer pilote ~1 000 rollouts, extraire métriques et calculer delta sim‑vs‑field sur fenêtre de 30 jours.
- Si delta acceptable, intégrer la génération dans CI nocturne et contrôler promotions par feature flags.
Référence primaire : The Verge — "What happens when Waymo runs into a tornado? Or an elephant?" (reportage mentionnant l'usage de Genie 3 par Waymo) : https://www.theverge.com/transportation/874771/waymo-world-model-simulation-google-deepmind-genie-3