Google I/O 2026 : Gemini 3.5 Flash, révolution Omni, agent Spark et lunettes Android XR

Google I/O 2026 : voici tout sur le modèle ultra-rapide Gemini 3.5 Flash, l’agent autonome Spark et le shopping du futur par l’IA.

Une keynote placée sous le signe de l’accélération de l’IA

La grand-messe annuelle de Google, diffusée en direct depuis son campus de Mountain View ce 19 mai 2026, a révélé une accélération phénoménale dans le domaine de l’intelligence artificielle. Sundar Pichai a ouvert les festivités en dévoilant des indicateurs d’utilisation massifs : 2,3 quillons de tokens consommés par mois, 900 millions d’utilisateurs actifs pour Gemini, et plus de 3 milliards de personnes connectées quotidiennement à l’écosystème global (Gmail, Android, Chrome, YouTube). Les résumés générés par l’IA (AI Overviews) rassemblent désormais plus de 2,5 milliards de personnes mensuellement à travers le globe, bien que la France reste en attente de cette fonctionnalité.

Avant même le coup d’envoi officiel, Google a dévoilé Jellectronica, un système algorithmique capable de suivre les déplacements de méduses pour générer en direct une musique électronique synchronisée sur leurs mouvements. Dans la foulée, deux vidéastes se sont affrontés lors d’une session de « vibe-coding », concevant en direct un jeu de type Doodle Jump dont les niveaux se généraient via l’intelligence artificielle en temps réel pour le public connecté. Le marathon de la conférence principale a ensuite duré une heure et cinquante minutes, alternant innovations d’envergure et nouveautés applicatives.

Le ton général a ensuite été donné par Demis Hassabis, le dirigeant de Google DeepMind et récent prix Nobel de chimie : l’intelligence artificielle générale (AGI) se trouve désormais à l’horizon d’ici quelques années seulement. Face à cette perspective historique, la firme déploie une panoplie d’outils redoutables pour devancer OpenAI et Anthropic autour de trois axes fondamentaux : les modèles, le code et les agents autonomes.

Gemini 3.5 Flash : la vitesse absolue au service des performances

Contre toute attente, l’entreprise n’a pas lancé sa déclinaison « Pro » inédite lors de cette conférence, repoussant sa sortie au mois prochain. À la place, c’est Gemini 3.5 Flash qui prendre les commandes de la gamme. Cet outil performant a été conçu pour concilier une vélocité extrême avec un coût d’exploitation minimal, tout en dépassant la mouture 3.1 Pro sur la quasi-totalité des indicateurs techniques, notamment les tâches de programmation et les opérations agentiques.

Grâce à l’optimisation matérielle des puces TPU 8t et TPU 8i, mises en scène par Google dans un clip humoristique montrant leur puissance physique à l’entraînement, Gemini 3.5 Flash s’avère capable de générer 300 tokens par seconde. Par comparaison, Claude Opus 4.7 se limite à 40 tokens par seconde alors que Gemini 3.1 Pro culmine à 50 tokens par seconde. Cette rapidité s’accompagne d’un coût de fonctionnement divisé par trois par rapport aux solutions concurrentes, ce qui pousse fortement les entreprises à migrer vers cette infrastructure pour réduire leurs dépenses. Le modèle devient d’ailleurs l’option par défaut dans le moteur de recherche et le AI Mode à l’échelle mondiale (sauf en France).

Résultats détaillés sur les benchmarks de référence

Les tests techniques partagés démontrent que ce modèle léger fait jeu égal avec les plus grands modèles du marché, excellant dans les tâches complexes de longue haleine ayant une utilité concrète dans le monde réel :

Benchmark	Description du test	Gemini 3.5 Flash	Gemini 3.1 Pro	Modèles Concurrents
Terminal-Bench 2.1	Capacités d’exécution dans un terminal informatique	76,2 %	70,3 %	GPT-5.5 : 78,2 %
GDPval-AA Elo	Aptitudes générales sur des tâches professionnelles	1656	1204	Opus 4.7 : 1753 / GPT-5.5 : 1769
MCP Atlas	Interaction avec des API et outils externes	83,6 %	78,2 %	Opus 4.7 : 79,1 % / GPT-5.5 : 75,3 %
CharXiv Reasoning	Analyse de documents et graphiques scientifiques	84,2 %	83,3 %	Opus 4.7 : 82,1 % / GPT-5.5 : 84,1 %

Cette architecture logicielle est accessible dès aujourd’hui sur l’application grand public, mais également via Google AI Studio, Android Studio et l’infrastructure de code Antigravity. Cette dernière permet d’orchestrer une multitude de sous-agents collaboratifs capables de résoudre des tâches de développement complexes en plusieurs étapes sous supervision humaine. Pour en faire la démonstration en direct et défier l’outil Claude Code, Google a fait tourner le jeu culte Doom directement au sein d’un terminal informatique.

Gemini Omni : l’intelligence omnimodale native pour la création vidéo

Une autre annonce d’importance concerne Gemini Omni, un modèle « omnimodal » natif capable de comprendre et de concevoir simultanément du texte, du son et de la vidéo. Cet outil s’affiche comme la solution créative de la firme. Un utilisateur peut lui transmettre une image de référence, un style visuel précis, une piste audio et des consignes textuelles (prompt). L’IA assemble l’ensemble de ces données pour générer un clip vidéo haute définition parfaitement cohérent.

La déclinaison Gemini Omni Flash est disponible immédiatement dans l’application Gemini, l’interface Google Flow et les YouTube Shorts. Elle permet d’éditer ou de prolonger un contenu vidéo de manière totalement fluide, par simple discussion avec l’IA, sans nécessiter de compétences techniques en montage. Le modèle s’appuie sur une compréhension fine des lois de la physique (gravité, dynamique des fluides, énergie cinétique) pour préserver le réalisme des personnages et des scènes.

Toutefois, les utilisateurs résidant en Europe devront patienter : la modification de vidéos existantes à partir d’un fichier source reste bloquée sur le continent pour des motifs réglementaires.

SynthID : la certification numérique étendue à toute l’industrie

Pour endiguer la diffusion de faux contenus et le réalisme exponentiel des générations visuelles, la filiale Google DeepMind déploie sa technologie SynthID à grande échelle. Lancé initialement en 2023, ce mécanisme insère un filigrane numérique totalement invisible au cœur des pixels ou des fréquences sonores, notamment lors de l’utilisation du modèle de génération d’images Nano Banana.

Contrairement aux métadonnées classiques du protocole C2PA qui se retrouvent fréquemment supprimées ou nettoyées lors des processus de compression lourds appliqués par les réseaux sociaux pour accélérer le chargement des pages, ce marquage résiste aux recadrages, aux compressions et aux modifications de couleurs. Plus de 100 milliards d’images et 60 000 ans de fichiers audio intègrent déjà ce repère indétectable pour l’œil humain.

La véritable surprise réside dans la volonté de Google d’imposer ce standard à toute l’industrie de l’IA en partageant sa technologie. Des rivaux de premier plan, Kakao et ElevenLabs, intègrent désormais ce marquage à la racine de leurs outils. De plus, Google s’associe à Nvidia pour appliquer ce filigrane aux vidéos issues des modèles Cosmos. L’accord le plus frappant concerne l’alignement d’OpenAI, qui intègre dorénavant ce filigrane Google dans les visuels générés par ChatGPT Images 2.0.

Vérification d’authenticité et intégration matérielle

Dans Chrome et Google Search, un simple clic droit via Google Lens ou l’activation de Circle to Search permettra de lancer l’analyse pour vérifier l’authenticité d’un fichier en un instant, affichant la provenance exacte du modèle utilisé. En parallèle, les certifications C2PA s’invitent au niveau matériel sur les capteurs photo des smartphones Pixel 8, Pixel 9 et Pixel 10 pour certifier l’authenticité des vidéos dès la capture. Par cette démarche, Google se positionne comme le chef de file politique de la certification numérique globale.

Gemini Spark : l’agent autonome permanent hébergé dans le Cloud

L’annonce la plus disruptive de l’événement se nomme Gemini Spark, un assistant personnel de nouvelle génération capable d’agir en continu au nom de l’utilisateur. Face à des solutions concurrentes comme Claude Dispatch ou OpenClaw, qui obligent à laisser une machine personnelle allumée avec l’application ouverte sous peine d’interrompre l’agent, Spark s’exécute sur une machine virtuelle hébergée directement dans Google Cloud. L’assistant fonctionne ainsi 24 heures sur 24 et 7 jours sur 7, poursuivant ses tâches en arrière-plan même lorsque votre ordinateur portable est fermé. Alors que Perplexity Computer se focalise sur un système complexe facturé à l’usage, Google s’adresse directement à sa base de 900 millions d’utilisateurs avec une infrastructure inégalée.

Propulsé par Gemini 3.5 Flash et le framework Antigravity, Spark se distingue par ses capacités multi-tâches avancées :

Exécution de processus complexes : À partir d’une simple consigne vocale, il peut analyser des relevés bancaires pour repérer des abonnements masqués, trier les courriels scolaires des enfants pour actualiser l’agenda, ou rédiger un compte-rendu Google Docs basé sur des notes éparpillées.
Contrôle du système d’exploitation : À terme, l’application macOS de Gemini permettra à Spark de prendre les commandes du système pour effectuer des actions locales.
Intégration écosystémique et tierce : Connecté nativement à la suite Workspace (Gmail, Docs, Slides, Calendar), l’agent adoptera le protocole ouvert MCP dans les prochaines semaines pour collaborer avec des plateformes externes comme Canva, OpenTable et Instacart.
Suivi visuel en direct : L’interface Android Halo affichera un repère discret au sommet de l’écran du smartphone pour suivre le travail de l’agent en temps réel, une fonction prévue plus tard cette année.

Google insiste sur la sécurité en précisant que l’assistant demande une validation humaine systématique avant de finaliser une action sensible, qu’il s’agisse d’une transaction financière, du blocage d’un créneau horaire ou de l’envoi d’un message. Pour l’heure, Spark commence son déploiement auprès d’un cercle restreint de testeurs avant une bêta ouverte la semaine prochaine, réservée exclusivement aux abonnés Ultra résidant aux États-Unis, sans date annoncée pour le reste du monde.

Refonte de la grille tarifaire : l’offensive commerciale globale

Pour accompagner ces innovations gourmandes en ressources et bousculer la concurrence, une restructuration des abonnements payants a été présentée :

La formule AI Ultra à 99 $ ou 100 $ / mois : Ce tout nouveau palier donne un accès complet à Gemini Spark, multiplie par 5 les plafonds d’utilisation par rapport à la version Pro, intègre un espace de stockage cloud de 20 To et inclut YouTube Premium Lite.
Baisse de prix pour la formule Suprême : L’abonnement très haut de gamme passe de 250 $ à 200 $ / mois, tout en conservant des quotas gigantesques (20 fois supérieurs à la formule Pro).

L’Universal Cart : bascule vers l’agentic commerce

Le secteur du commerce connecté subit une transformation profonde avec l’introduction de l’Universal Cart (Panier Universel). Cette nouveauté pose les bases de l’« agentic commerce », un concept où l’IA gère vos sessions de shopping de A à Z à la manière d’un personal shopper. Cet outil se présente comme un hub intelligent intégré à Search, Gemini, YouTube et Gmail. Dès qu’un produit est ajouté, Gemini s’active en arrière-plan : il surveille l’historique des prix, traque les promotions cachées et applique les cartes de fidélité de Google Wallet pour maximiser vos économies.

Grâce aux capacités de raisonnement du modèle, le panier anticipe également les erreurs de commande. Si vous sélectionnez des composants informatiques ou des produits cosmétiques, l’IA vérifie la compatibilité et la cohérence des produits entre eux, générant une alerte avec des alternatives en cas d’erreur. Grâce au protocole UCP (Universal Commerce Protocol), le paiement s’effectue en deux clics via Google Pay auprès de grandes enseignes (Sephora, Nike, Walmart, Target) sans quitter l’interface Google. Cela répond directement à l’espace shopping d’OpenAI en allant beaucoup plus loin que le simple rôle de conseiller.

L’Universal Cart arrivera cet été aux États-Unis avant de s’étendre au Canada, à l’Australie et au Royaume-Uni. L’Europe et la France devront attendre. Ce dispositif sert d’étape transitoire avant l’automatisation totale prévue par le protocole AP2 (Agent Payments Protocol). À terme, l’utilisateur n’aura plus besoin de valider l’achat : il suffira de définir ses critères (marque, budget maximal) et l’IA exécutera la transaction de manière autonome en arrière-plan dès que les conditions du marché seront optimales. Ce système sera testé d’abord de façon restreinte via Gemini Spark.

Moteur de recherche, YouTube et interfaces de création bonifiés

Le moteur de recherche évolue avec une barre qui s’adapte aux longues requêtes et la possibilité de converser au sein des résumés IA. Des agents dédiés pourront chercher sur le web à intervalle régulier pour suivre un sujet précis ou générer des mini-sites. Par ailleurs, Ask YouTube permettra d’interroger la plateforme vidéo en langage naturel pour analyser le contenu interne des vidéos dès cet été aux États-Unis. Les abonnés Pro et Ultra bénéficieront également de Docs Live & Gmail Live pour dicter des documents complexes à la volée. Un nouveau service nommé Google Pics fera son apparition cet été pour éditer des images de façon assistée, à la manière d’un Canva ou Photoshop amélioré. L’application Gemini adopte un style visuel modernisé avec des retours haptiques et un résumé matinal audio baptisé Daily Brief (exclusif aux États-Unis).

Côté matériel, de nouvelles lunettes connectées équipées du système Android XR arriveront cet été, conçues en collaboration avec Samsung, Gentle Monster et Warby Parker. Compatibles avec iOS and Android, ces montures au design rafraîchi embarquent nativement Gemini pour lancer Maps, créer un événement ou commander un café à la voix. Les captures pourront être modifiées instantanément via l’IA Nano Banana. Une déclinaison purement audio arrivera quant à elle à l’automne pour faire face aux lunettes de Meta.

Gemini for Science

En conclusion de cette intense keynote, Demis Hassabis a présenté Gemini for Science. Cette déclinaison spécialisée permet aux chercheurs du monde entier de mener des simulations biologiques complexes sous critères sécurisés stricts, afin d’accélérer la découverte de traitements médicaux, optimiser la conception de médicaments et appuyer la recherche contre le cancer.

Google I/O 2026 : Gemini 3.5 Flash, révolution Omni, agent Spark et lunettes Android XR

Une keynote placée sous le signe de l’accélération de l’IA

Gemini 3.5 Flash : la vitesse absolue au service des performances

Résultats détaillés sur les benchmarks de référence

Gemini Omni : l’intelligence omnimodale native pour la création vidéo

SynthID : la certification numérique étendue à toute l’industrie

Vérification d’authenticité et intégration matérielle

Gemini Spark : l’agent autonome permanent hébergé dans le Cloud

Refonte de la grille tarifaire : l’offensive commerciale globale

L’Universal Cart : bascule vers l’agentic commerce

Moteur de recherche, YouTube et interfaces de création bonifiés

Gemini for Science

Vous avez aimé ? Partagez :

Sur le même sujet

L’intelligence artificielle Lyria 3 compose désormais vos chansons sur Gemini

Google Willow : la puissance de calcul prouve-t-elle l’existence du multivers ?

Disney s’allie à OpenAI pour intégrer ses licences à Sora

Stadia : Google annonce sa plateforme de streaming de jeux vidéo

LAISSER UN COMMENTAIRE