Données synthétiques : les promesses et les risques de l'outil le plus en vogue de l'IA

Des voitures plus sûres aux avancées dans le domaine des maladies rares, les ensembles de données synthétiques laissent entrevoir des avancées considérables, mais de nouvelles lois et des limites éthiques restreignent leur champ d’application, comme il se doit.

Les données synthétiques, c’est-à-dire les données générées artificiellement par des algorithmes plutôt que collectées dans le monde réel, sont en train de transformer la manière dont les industries développent l’IA.

Dans le secteur automobile, cette technologie permet de simuler des milliers de scénarios d’accident sans avoir recours à des essais réels, dangereux et coûteux. Dans le domaine de la santé, elle fournit aux équipes de recherche de vastes ensembles de données qui préservent la confidentialité des patients tout en permettant des avancées décisives dans le dépistage et le traitement des maladies rares. Les institutions financières l’utilisent pour mettre au point des modèles de prévention de la fraude sans divulguer les transactions sensibles.

Les avantages sont évidents : rapidité, évolutivité, protection de la vie privée. Mais à mesure que son utilisation se généralise, les questions relatives à la précision, aux biais et à l’éthique se multiplient, en particulier dans le cadre de la nouvelle loi sur l’intelligence artificielle de l’Union européenne.

Quand les données synthétiques sauvent des vies

La sécurité automobile est l’un des exemples de réussite les plus évidents. Tester des véhicules autonomes en conditions réelles est coûteux, long et parfois impossible, en particulier pour des cas marginaux rares, comme celui d’un animal surgissant sur la chaussée par mauvais temps. Les ensembles de données synthétiques permettent de recréer ces situations dans des environnements contrôlés, ce qui permet aux modèles d’apprendre à partir de scénarios auxquels ils ne seraient jamais confrontés autrement.

En médecine, les dossiers médicaux synthétiques sont devenus un outil essentiel pour l’entraînement des algorithmes de diagnostic sans enfreindre les lois sur la protection de la vie privée telles que l’HIPAA ou le RGPD. Dans le cas des maladies rares, où le nombre de cas est trop faible pour entraîner efficacement les modèles, les données synthétiques peuvent être utilisées pour « multiplier » les exemples tout en protégeant l’identité des patients.

Les équipes chargées de la détection des fraudes au sein des banques ont également adopté les ensembles de données synthétiques afin de s’entraîner à réagir aux nouvelles tactiques criminelles, tout en évitant les risques juridiques et de sécurité liés à l’utilisation de données réelles sur les clients.

Quand les données synthétiques deviennent risquées

Malgré son potentiel et sa valeur réelle et avérée, les données synthétiques présentent ce que les chercheurs appellent un « décalage par rapport à la réalité ». Quelle que soit la sophistication de la technique de génération, ces données restent, en fin de compte, issues d’une simulation. Les êtres humains sont intrinsèquement complexes, et les signaux subtils du monde réel, les variations de comportement, l’imprévisibilité de l’environnement ou les nuances culturelles peuvent se perdre dans l’abstraction.

Données synthétiques

Il est important d’être clair : il ne s’agit pas ici de remettre en cause l’universalité des expressions humaines. Ce principe est bien établi. Des décennies de recherche interculturelle, ainsi que le succès avéré du codage facial et de l’analyse des expressions faciales dans des contextes concrets, montrent que les expressions présentent des similitudes universelles et constantes à l’échelle mondiale. Ces similitudes sont suffisamment solides pour servir de base à la fois à des recherches fiables sur les émotions et à des applications commerciales.

Le risque réside ailleurs : lorsqu’on utilise des données synthétiques pour entraîner des modèles d’IA prédictifs. L’analyse des expressions faciales d’Affectiva, par exemple, repose sur la détection de micro-expressions et d’indices émotionnels sur les visages de personnes réelles. Entraîner de tels systèmes sur des visages synthétiques risque de faire disparaître les nuances mêmes qu’ils sont censés détecter. 

Prenons par exemple le fait qu’au Japon, un sourire sert souvent à masquer un malaise ou une désapprobation plutôt qu’à exprimer de la joie, ou encore que dans plusieurs îles du Pacifique, hausser les sourcils peut signifier une approbation plutôt qu’une surprise. Sans s’appuyer sur des données fiables, les algorithmes peuvent sembler précis lors des tests, mais ils risquent d’interpréter de manière erronée les émotions dans des situations réelles, ce qui peut compromettre les résultats de la recherche ou conduire à des décisions erronées concernant les produits.

Et comme tout scientifique le sait, les biais constituent un risque qu’il faut à tout prix atténuer. Si les données réelles utilisées pour entraîner un générateur synthétique comportent déjà des déséquilibres démographiques, les ensembles de données qui en résultent peuvent perpétuer, voire amplifier, ces distorsions. Pire encore, l’apparente « pureté » des données synthétiques peut donner un faux sentiment de neutralité, masquant les biais à l’œil averti et les rendant plus dangereux que ceux présents dans des ensembles de données humaines plus hétérogènes, mais authentiques.

La pression réglementaire

La loi sur l’IA du Parlement européen, adoptée en début d’année, soumet les données synthétiques à une surveillance accrue. Cette loi classe les applications d’IA par niveau de risque, les obligations les plus strictes s’appliquant aux systèmes qui ont une incidence sur la sécurité, les droits ou les processus démocratiques.

En vertu de cette loi, les développeurs doivent faire preuve de transparence quant à leurs sources de données, prouver que les ensembles de données synthétiques n’introduisent pas de biais et, dans certains secteurs à haut risque, disposer d’ensembles de données de validation issus du monde réel. En d’autres termes : les données synthétiques seules pourraient ne pas suffire pour garantir la conformité.

Pour les entreprises des secteurs tels que la santé ou l’automobile, cela signifie que les approches hybrides, alliant données synthétiques et données réelles, deviendront non seulement une bonne pratique, mais aussi une obligation légale.

Pourquoi il est important de ne pas exclure l’humain du processus

Pour les plateformes scientifiques qui analysent le comportement humain, qu’il s’agisse des expressions faciales, de la parole ou des signaux physiologiques, rien ne remplace les données issues du monde réel pour l’entraînement et la validation.

Les données synthétiques peuvent aider à combler les lacunes, à rééquilibrer les ensembles de données ou à simuler des scénarios rares, mais la « réalité de terrain » doit provenir d’observations humaines réelles. Sans cela, les algorithmes risquent de perdre leur sensibilité à la complexité du comportement humain, ce qui constitue un danger non seulement pour la précision de la recherche, mais aussi pour la fiabilité de toute application commerciale.

Où faut-il tracer la ligne ?

Les données synthétiques se sont révélées être un allié de choix, notamment pour augmenter la taille des ensembles de données, générer des scénarios rares et protéger la vie privée. Dans la plupart des secteurs, les meilleurs résultats proviendront d’une approche hybride, où les données synthétiques et les données réelles sont combinées : les données synthétiques pour la volume et la diversité, les données réelles pour ancrer les modèles dans la réalité.

Mais certains domaines posent des exigences plus subtiles. Dans les domaines où les algorithmes doivent détecter les subtilités des émotions humaines, des micro-expressions et des comportements, comme l’analyse des expressions faciales, l’analyse des sentiments ou la recherche comportementale, seules des données humaines authentiques permettent de saisir toute la gamme des nuances.