Technique avec les yeux : comment l'eye-tracking redéfinit les interfaces IA dans les hackathons
Mis à jour le 21/06/2026 par Inès Bertrand
La technique avec les yeux — eye-tracking, contrôle oculaire, interfaces gaze-based — est passée en moins de trois ans du labo de recherche au prototype de hackathon. Selon une étude Tobii (2024), le marché mondial de l'eye-tracking dépasse désormais 1,6 milliard de dollars et croît à 30 % par an. Chez HI Paris, on a vu des équipes passer d'une idée floue à un démonstrateur fonctionnel en 48 heures chrono : voilà exactement pourquoi ce sujet nous obsède.
Qu'est-ce que la technique avec les yeux exactement ?
La technique avec les yeux désigne l'ensemble des méthodes qui capturent, analysent et exploitent les mouvements oculaires pour piloter une interface ou enrichir un modèle d'IA. En clair : la caméra lit où tu regardes, le logiciel en déduit une intention, et le système réagit — sans aucune interaction manuelle.
Derrière cette définition simple se cache un empilement de disciplines : vision par ordinateur, traitement du signal, apprentissage automatique et UX. Les trois primitives de tout système de ce type sont :
- La calibration : mapper les mouvements de pupille sur les coordonnées écran ou monde réel.
- La détection de fixation : distinguer un regard posé (fixation) d'un saut rapide entre deux points (saccade).
- L'inférence d'intention : transformer une séquence de fixations en commande exploitable par une application.
« L'œil est le canal de plus haute bande passante vers l'intention humaine. Lire le regard, c'est lire la pensée avant qu'elle devienne geste. » — Pradipta Biswas, Professeur en Human-Computer Interaction à l'IISc Bangalore (2023)---
Pourquoi l'eye-tracking s'impose dans les projets IA ?
Parce que le regard transporte une information que les autres capteurs ne capturent pas : l'attention cognitive en temps réel. Là où un clic dit « j'ai choisi », une fixation dit « je considère encore » — une nuance massive pour tout modèle d'IA cherchant à anticiper plutôt qu'à réagir.
Trois dynamiques de fond expliquent l'engouement actuel :
La chute du coût matériel
Un tracker Tobii 5 se négocie autour de 200 € ; les solutions purement logicielles (MediaPipe Face Mesh de Google, GazeML) tournent sur n'importe quel laptop avec une webcam 1080p. En 2020, un setup professionnel coûtait 15 000 €. La courbe d'accès ressemble à celle des GPU entre 2015 et 2020 (Krafka et al., MPIIGaze Dataset, 2016).
L'essor des LLM multimodaux
Les grands modèles de langage gèrent désormais des entrées mixtes : texte, image, séquences temporelles. Coupler un flux gaze — une série de coordonnées horodatées — à un LLM ouvre des applications inédites : résumé automatique de ce qu'un utilisateur a réellement lu, détection de confusion dans une interface, ou encore aide à la lecture pour les personnes dyslexiques.
Les enjeux d'accessibilité
En France, 12 millions de personnes vivent avec un handicap moteur limitant l'usage d'un clavier ou d'une souris (source : accessibilite.numerique.gouv.fr). Les interfaces gaze-based représentent pour elles une porte d'entrée vers le numérique. C'est un marché, certes, mais d'abord un impératif éthique que les équipes de hackathon intègrent de plus en plus dans leur pitch.
---
Comment fonctionne un pipeline technique avec les yeux ?
Un pipeline technique avec les yeux suit cinq étapes séquentielles, chacune réglable selon les contraintes de ton projet.
| Étape | Composant type | Latence cible |
|---|---|---|
| Capture vidéo | Webcam 1080p / 60fps ou IR tracker | < 17 ms |
| Détection des landmarks faciaux | MediaPipe, dlib, OpenCV | 5–15 ms |
| Estimation du point de regard | Modèle CNN ou régression ridge | 10–30 ms |
| Clustering fixations/saccades | Algorithme I-VT ou I-DT | < 5 ms |
| Interprétation métier | LLM, règles métier, classifier | variable |
Lors d'un sprint récent que nous avons organisé, une équipe de quatre personnes — deux ML engineers, un designer et un product manager — a assemblé un tel pipeline en moins de six heures en s'appuyant sur des modèles pré-entraînés. La clé ? Ils ont scindé le problème dès le kick-off : un binôme sur le bas de la stack (capture + estimation), l'autre sur l'interprétation métier. Pas de réunion de synchronisation avant la démo intermédiaire à H+24.
---
Les cas d'usage concrets vus au hackathon HI Paris
La technique avec les yeux ne se résume pas à « regarder pour cliquer ». Voici les quatre familles de projets les plus fréquentes dans nos éditions, avec les métriques qui ont convaincu les jurys :
1. Accessibilité augmentée Un clavier virtuel piloté uniquement par le regard, intégrant un modèle de prédiction linguistique pour réduire le nombre de fixations nécessaires. L'équipe gagnante de l'édition 2024 a atteint 25 mots par minute — contre 6 pour les solutions commerciales existantes à l'époque. Un résultat qui a décroché une mention spéciale du jury sur l'impact sociétal.
2. Analyse comportementale UX Superposer des heatmaps gaze sur des interfaces A/B pour quantifier l'attention réelle plutôt que déclarée. Les équipes couplent souvent ce flux à des modèles de sentiment (expressions faciales) pour une lecture à double canal.
3. Assistance à la conduite / AR industrielle Détecter si un opérateur regarde le bon composant lors d'une procédure de maintenance, et déclencher une alerte ou une aide contextuelle si son regard dévie trop longtemps. L'un de nos participants travaille aujourd'hui ce sujet chez un équipementier automobile.
4. Apprentissage adaptatif Mesurer la charge cognitive d'un étudiant en temps réel (fréquence des clignements, diamètre pupillaire, densité de fixations) pour ajuster la difficulté du contenu. 78 % des prototypes dans cette catégorie utilisent un modèle LSTM sur la séquence temporelle du regard (d'après notre analyse interne des soumissions 2022–2025).
Pour explorer nos thèmes complets et postuler, consulte la page des défis du hackathon HI Paris — les sujets 2026 incluent explicitement des tracks IA & perception.
---
Quels outils et datasets pour démarrer ?
La technique avec les yeux est accessible dès aujourd'hui sans budget matériel, à condition de choisir les bons outils open source.
Librairies incontournables :
- MediaPipe (Google) — détection de 478 landmarks faciaux en temps réel, disponible en Python et JavaScript, tourne sur CPU.
- GazeML / L2CS-Net — modèles pré-entraînés pour l'estimation du vecteur de regard à partir d'une image RGB.
- PyGaze — framework Python dédié aux expériences d'eye-tracking, compatible trackers Tobii et SR Research.
- OpenCV — indispensable pour le prétraitement vidéo, la calibration et les transformations géométriques.
- Pupil Labs — stack hardware + software open source, avec export de données brutes en CSV ou HDF5.
- MPIIGaze (Max Planck Institute) — 213 000 images annotées, référence pour la gaze estimation in the wild.
- GazeCapture (MIT) — 2,5 millions de frames capturées sur iPhone/iPad avec annotation du point de regard.
- EyeQ (Alibaba, 2021) — dataset orienté lecture et compréhension de documents.
---
Comment préparer un projet eye-tracking gagnant ?
Préparer un projet gagnant autour de la technique avec les yeux demande une stratégie différente d'un projet NLP ou de vision classique : la démo live, dans un hackathon, doit fonctionner sous pression, avec un jury debout à 50 cm de l'écran.
Avant le hackathon :
- Teste ton pipeline sur au moins trois profils différents (lunettes, peau foncée, éclairage fluorescent). Les modèles génériques décrochent souvent sur ces cas limites.
- Prépare une calibration rapide en 9 points, exécutable en moins de 30 secondes. Le jury ne patientera pas davantage.
- Documente ton architecture dans un README clair : le jury technique appréciera de voir tes choix de compromis latence / précision.
- Scope brutal à H+2 : définis exactement ce que tu démontres, pas ce que tu rêves de construire.
- Délègue la partie capture / traitement bas niveau à la personne la plus à l'aise en Python temps réel. Le reste de l'équipe peut travailler en parallèle sur la couche applicative.
- Prévoie un mode dégradé : si la webcam du lieu est médiocre, bascule sur des données pré-enregistrées pour la démo finale.
Montre d'abord l'impact, ensuite la technique. « Regarde ici… et l'interface s'adapte » frappe plus fort qu'un diagramme de pipeline. Les projets qui ont remporté nos tracks IA sont ceux où le jury a ressenti la valeur avant de la comprendre.
Pour accéder aux ressources de préparation et t'inscrire à la prochaine édition, rends-toi sur hackathon-hi-paris.fr — les inscriptions pour la session automne 2026 sont ouvertes.
---
Questions fréquentes
Q: Faut-il un matériel spécial pour travailler la technique avec les yeux ? R: Non. Une webcam 1080p standard et des librairies open source comme MediaPipe suffisent pour un prototype fonctionnel. Un tracker dédié (Tobii, Pupil Labs) améliore la précision mais n'est pas indispensable pour une démo de hackathon.
Q: Quelle précision peut-on attendre d'une solution webcam ? R: Avec un modèle pré-entraîné et une calibration correcte, une précision de 1 à 2 degrés d'angle visuel est atteignable — soit environ 30 à 60 pixels sur un écran 24 pouces en full HD. Suffisant pour la navigation par zones, insuffisant pour la lecture ligne par ligne sans modèle de langue couplé.
Q: La technique avec les yeux est-elle éthiquement problématique ? R: Elle soulève des questions réelles de vie privée (les données oculaires sont des données biométriques au sens du RGPD) et d'attention surveillance. Les équipes sérieuses documentent leur base légale et anonymisent les données dès le hackathon. C'est aussi un vrai différenciateur de pitch.
Q: Quels langages de programmation sont les plus adaptés ? R: Python est le standard de facto pour le prototypage (MediaPipe, PyTorch, OpenCV). JavaScript via TensorFlow.js ou MediaPipe Web est pertinent si ton cas d'usage cible le navigateur sans installation côté utilisateur.
Q: Peut-on combiner eye-tracking et LLM dans un même projet ? R: Absolument — c'est même l'une des pistes les plus fertiles. Le flux gaze fournit un signal d'attention temporel que tu injectes en contexte dans un LLM pour personnaliser une réponse, détecter une incompréhension ou prioriser des informations. Plusieurs équipes HI Paris ont exploré ce couplage avec des résultats convaincants.
Q: Quel niveau technique est requis pour participer au hackathon HI Paris sur ce type de sujet ? R: Licence à Master en informatique, data science ou domaine connexe. L'important n'est pas de tout maîtriser en solo : les équipes mixtes (ML + UX + domaine métier) sont celles qui vont le plus loin en 48 heures.
---
Inès Bertrand — Product manager et organisatrice tech à Paris, elle co-pilote le programme de défis du hackathon HI Paris depuis 2022 et passe trop de temps à débugger des pipelines vidéo la veille des démos.