Von sichereren Autos bis hin zu Durchbrüchen bei seltenen Krankheiten – synthetische Datensätze versprechen große Vorteile, doch neue Gesetze und ethische Grenzen schränken ihren Anwendungsbereich ein, wie es auch sein muss.

Synthetische Daten – also Daten, die nicht aus der realen Welt stammen, sondern künstlich durch Algorithmen generiert werden – verändern die Art und Weise, wie die Industrie KI entwickelt.

In der Automobilbranche ermöglicht es die Simulation Tausender Unfallszenarien, ohne dass gefährliche und kostspielige Crashtests in der Realität durchgeführt werden müssen. Im Gesundheitswesen stellt es Forschungsteams umfangreiche Datensätze zur Verfügung, die den Datenschutz der Patienten gewährleisten und gleichzeitig bahnbrechende Fortschritte bei der Erkennung und Behandlung seltener Krankheiten ermöglichen. Finanzinstitute nutzen es, um Maßnahmen zur Betrugsbekämpfung zu modellieren, ohne sensible Transaktionen offenzulegen.

Die Vorteile liegen auf der Hand: Geschwindigkeit, Skalierbarkeit, Datenschutz. Doch mit zunehmender Verbreitung tauchen auch Fragen hinsichtlich Genauigkeit, Voreingenommenheit und Ethik auf, insbesondere im Hinblick auf das neue Gesetz der Europäischen Union über künstliche Intelligenz.

Wenn synthetische Daten Leben retten

Die Sicherheit im Straßenverkehr ist eine der deutlichsten Erfolgsgeschichten. Das Testen autonomer Fahrzeuge unter realen Bedingungen ist kostspielig, zeitaufwendig und manchmal gar nicht möglich, insbesondere bei seltenen Sonderfällen wie beispielsweise einem Tier, das bei schlechtem Wetter plötzlich auf die Straße läuft. Synthetische Datensätze können solche Situationen in kontrollierten Umgebungen nachstellen, sodass Modelle aus Szenarien lernen können, denen sie sonst möglicherweise nie begegnen würden.

In der Medizin sind synthetische Patientenakten zu einem wichtigen Instrument für das Training diagnostischer Algorithmen geworden, ohne dabei Datenschutzgesetze wie HIPAA oder DSGVO zu verletzen. Bei seltenen Krankheiten, bei denen die Fallzahlen zu gering sind, um Modelle effektiv zu trainieren, können synthetische Daten genutzt werden, um die Anzahl der Beispiele zu „vergrößern“ und gleichzeitig die Identität der Patienten zu schützen.

Auch die Betrugsbekämpfungsteams der Banken setzen mittlerweile auf synthetische Datensätze, um Reaktionen auf sich ständig weiterentwickelnde kriminelle Vorgehensweisen zu trainieren und so die rechtlichen und sicherheitstechnischen Risiken zu vermeiden, die mit der Arbeit mit echten Kundendaten verbunden sind.

Wo synthetische Daten zu einem Risiko werden

Trotz ihres Potenzials und ihres nachweislichen Nutzens weisen synthetische Daten eine sogenannte „Realitätslücke“ auf. Ganz gleich, wie fortschrittlich die Erzeugungstechnik auch sein mag – letztendlich stammen die Daten immer noch aus einer Simulation. Menschen sind von Natur aus komplex, und subtile Signale aus der realen Welt, Verhaltensschwankungen, Unvorhersehbarkeiten der Umgebung oder kulturelle Nuancen können in der Abstraktion verloren gehen.

Eines muss klar sein: Dies ist keine Kritik an der Universalität menschlicher Ausdrucksformen. Diese Sichtweise ist fest etabliert. Jahrzehntelange interkulturelle Forschung sowie der nachgewiesene Erfolg von Facial Coding und der Analyse von Gesichtsausdrücken in realen Kontexten zeigen, dass Ausdrucksformen weltweit universelle und konsistente Gemeinsamkeiten aufweisen. Diese Konsistenzen sind stark genug, um sowohl die Grundlage für zuverlässige Emotionsforschung als auch für kommerzielle Anwendungen zu bilden.

Das Risiko liegt woanders: nämlich dann, wenn synthetische Daten zum Trainieren prädiktiver KI-Modelle verwendet werden. Die Gesichtsausdrucksanalyse von Affectiva beispielsweise basiert darauf, Mikroausdrücke und emotionale Signale aus den Gesichtern realer Menschen zu erfassen. Wenn solche Systeme mit synthetischen Gesichtern trainiert werden, besteht die Gefahr, dass genau jene Nuancen verloren gehen, die sie eigentlich erkennen sollen.

Man bedenke beispielsweise, dass ein Lächeln in Japan oft eher dazu dient, Unbehagen oder Missbilligung zu verbergen, als Freude auszudrücken, oder dass auf einigen Pazifikinseln hochgezogene Augenbrauen eher Zustimmung als Überraschung signalisieren. Ohne die Untermauerung durch authentische Daten mögen Algorithmen in Tests zwar präzise erscheinen, doch in realen Situationen können sie Emotionen falsch interpretieren – was zu verzerrten Forschungsergebnissen oder fehlerhaften Produktentscheidungen führt.

Und wie jeder Wissenschaftler weiß, ist Voreingenommenheit ein Risiko, das um jeden Preis minimiert werden muss. Wenn die realen Daten, die zum Trainieren eines synthetischen Generators verwendet werden, bereits demografische Ungleichgewichte aufweisen, können die daraus resultierenden Datensätze diese Verzerrungen fortsetzen oder sogar verstärken. Schlimmer noch: Die scheinbare „Sauberkeit“ synthetischer Daten kann ein trügerisches Gefühl der Neutralität hervorrufen, wodurch Voreingenommenheiten vor kritischer Prüfung verborgen bleiben und gefährlicher werden als jene, die in unordentlicheren, aber authentischen, von Menschen stammenden Datensätzen vorhanden sind.

Der regulatorische Druck

Das Anfang dieses Jahres verabschiedete KI-Gesetz des Europäischen Parlaments sieht eine strengere Überwachung synthetischer Daten vor. Das Gesetz stuft KI-Anwendungen nach ihrem Risikograd ein, wobei die strengsten Auflagen für Systeme gelten, die die Sicherheit, die Rechte oder demokratische Prozesse beeinträchtigen.

Gemäß dem Gesetz müssen Entwickler Transparenz hinsichtlich ihrer Datenquellen walten lassen, nachweisen, dass synthetische Datensätze keine Verzerrungen verursachen, und in bestimmten Hochrisikosektoren Validierungsdatensätze aus der Praxis vorhalten. Mit anderen Worten: Synthetische Daten allein reichen möglicherweise nicht aus, um die gesetzlichen Anforderungen zu erfüllen.

Für Unternehmen in Branchen wie dem Gesundheitswesen oder der Automobilindustrie bedeutet dies, dass hybride Ansätze, bei denen synthetische und reale Daten kombiniert werden, nicht nur zur bewährten Praxis, sondern zu einer gesetzlichen Notwendigkeit werden.

Argumente dafür, den Menschen im Entscheidungsprozess einzubeziehen

Für wissenschaftliche Plattformen, die menschliches Verhalten analysieren – seien es Mimik, Sprache oder physiologische Signale –, gibt es beim Training und bei der Validierung keinen Ersatz für Daten aus der realen Welt.

Synthetische Ergänzungen können dabei helfen, Lücken zu schließen, Datensätze auszugleichen oder seltene Szenarien zu simulieren, doch die „Grundwahrheit“ muss aus tatsächlichen menschlichen Beobachtungen stammen. Ohne sie besteht die Gefahr, dass Algorithmen ihre Sensibilität für die Komplexität menschlichen Verhaltens verlieren – eine Gefahr nicht nur für die Genauigkeit der Forschung, sondern auch für die Vertrauenswürdigkeit jeder kommerziellen Anwendung.

Wo die Grenze gezogen werden sollte

Synthetische Daten haben sich als leistungsstarkes Hilfsmittel erwiesen, insbesondere für die Skalierung von Datensätzen, die Generierung seltener Szenarien und den Schutz der Privatsphäre. In den meisten Branchen lassen sich die besten Ergebnisse durch einen hybriden Ansatz erzielen, bei dem synthetische und reale Daten zusammenwirken: synthetische Daten sorgen für Umfang und Vielfalt, reale Daten verankern die Modelle in der Realität.

In manchen Bereichen sind die Anforderungen jedoch subtiler. In Bereichen, in denen Algorithmen die Feinheiten menschlicher Emotionen, Mikroausdrücke und Verhaltensweisen erkennen müssen – wie beispielsweise bei der Gesichtsausdrucksanalyse, der Stimmungsanalyse oder der Verhaltensforschung –, können nur echte menschliche Daten die gesamte Bandbreite an Nuancen erfassen.