Die Fallstricke beim Training von KI mit erfundenen Daten

DAS WICHTIGSTE IM ÜBERBLICK

Da der Zugang zu realen Daten für künstliche Intelligenz (KI) oft problematisch ist, werden Modelle anhand von KI-generierten Daten trainiert. Die beeindruckenden Fähigkeiten der KI beruhen zwar auf Deep Learning, wobei meist synthetische Daten verwendet werden, die nicht perfekt sind, aber dennoch die effektivste Methode zum Trainieren von KI-Modellen für verschiedene Aufgaben darstellen.

KI entwickelt sich weiter und hält Einzug in unseren Alltag und am Arbeitsplatz. Die Aussicht, ein hochintelligentes System immer in der Tasche zu haben, setzt sich durch.

Ganz gleich, ob es sich um das Schreiben eines Aufsatzes, das Erstellen komplexer Kunstwerke, die Überprüfung von Richtlinien, das Entwickeln benutzerdefinierten Codes oder das Verfassen einer Rede handelt – die Technologie ist bereits dabei, die Art und Weise, wie wir arbeiten und leben, zu verändern.

Allerdings stützt sich künstliche Intelligenz (KI) ausschließlich auf Daten, um ihre Aufgaben zu erfüllen.

Nehmen wir ein Beispiel für die Anfrage: „Erstelle mir ein Bild von einer Rose“. Die KI muss zunächst die verschiedenen angebotenen Daten kennenlernen, bevor sie sich an die Arbeit machen kann.

Sie muss alle Informationen wie die typische Rosenform, die Farben, das Design und die Anordnung der Blütenblätter erfassen – all die Merkmale, die eine Rose zu einer Rose machen.

Aus welcher Quelle stammen die Daten, aus denen das System lernt? Es handelt sich um KI-generierte oder synthetische Daten.

Künstliche Intelligenz trainieren

Zwar konzentrieren wir uns heute auf das Training eines KI-Systems mit KI-generierten Daten, doch im Allgemeinen wird ein KI-System mit einer Mischung aus KI-generierten und realen Daten trainiert.

Das Verfahren wurde unter Berücksichtigung rechtlicher, ethischer und Geheimhaltungserwägungen bei der Beschaffung von Echtdaten entwickelt.

Daten sind jedoch von entscheidender Bedeutung, wenn man realistische KI-Systeme (z. B. synthetische Nachrichtenleser) entwickeln will, und angesichts des Mangels an realen Daten ist die Erzeugung synthetischer Daten, die reale Daten imitieren, unerlässlich.

So kann ein KI-System beispielsweise ein detailliertes Bild des Cockpits eines Flugzeugs erstellen, das jedoch nicht ganz der Realität entsprechen wird.

1. Schritt: Generierung synthetischer Daten

Das ursprüngliche KI-System erzeugt synthetische Daten, die zum Trainieren des eigentlichen KI-Modells verwendet werden.

Dabei kann es sich um ein neuronales Netz oder einen anderen maschinellen Lernalgorithmus handeln.

Die synthetischen Daten sind so nah wie möglich an der realen Welt und ermöglichen es dem Zielsystem, etwas über das Objekt zu lernen, auf das sich die Daten beziehen. Es kennt Dinge wie Formen, Farben und Konfigurationsdetails.

2. Schritt: Vorbereitung der Trainingsdaten

Die synthetisch erzeugten Daten werden mit den entsprechenden realen Daten gemischt.

So wird beispielsweise das von der KI generierte Bild eines Cockpit-Armaturenbretts mit dem Original eines solchen Bretts kombiniert.

Dies ist eine Gelegenheit für das KI-Lernmodell, aus den Daten zu lernen. Es kann nicht nur die Bestandteile der Daten identifizieren, z. B. die Kraftstoffanzeige und den Höhenmesser, sondern auch zwischen synthetischen und realen Daten unterscheiden.

3. Schritt: Training des KI-Modells

Das gewünschte KI-Modell lernt aus dem gemischten Datensatz.

Ziel ist es beispielsweise, das KI-Modell in die Lage zu versetzen, verschiedene Arten von Hundebildern zu erkennen. Die akzeptable Antwort ist, dass es die Hundenamen identifizieren und sie als Schäferhunde, Jagdhunde usw. kategorisieren kann.

Das KI-Modell stellt eine begrenzte Sammlung von echten Hundebildern und eine größere Auswahl an synthetischen Daten zur Verfügung.

Das Lernmodell untersucht und versteht die verschiedenen Merkmale und Parameter und kann Schlüsse und Muster daraus bilden.

So können beispielsweise Hunde mit kurzen Schwänzen als Dobermänner identifiziert werden, oder solche mit ausgeprägten und spitz zulaufenden Ohren als Deutsche Schäferhunde.

Darüber hinaus lernt das Modell, auf der Grundlage der Parameter nicht zu verallgemeinern. Dobermannhunde haben zum Beispiel kurze Schwänze, aber nicht alle Hunde mit kurzen Schwänzen sind Dobermänner.

Einsatz von Daten in der realen Welt

Eines der interessantesten praktischen Beispiele für KI, die anhand von KI-generierten Daten trainiert wird, ist PilotNet, das Projekt für selbstfahrende Autos von NVIDIA.

PilotNet ist ein Deep-Learning-System. Es lernt in Echtzeit aus synthetischen Daten und der Beobachtung menschlicher Fahrer. Diese fahren ein spezielles Auto, das Daten über das Fahrverhalten, den Straßenzustand, Verkehrszeichen, Fahrbahnmarkierungen, Fahrzeuge und Fußgänger sammelt.

Autofahren ist eine komplexe Aufgabe. Sie erfordert sowohl Geschicklichkeit als auch Entscheidungsfindung innerhalb einer extrem kurzen Zeitspanne. Während der menschliche Fahrer das Auto fährt, sammelt PilotNet Daten. Die relevanten Informationen werden als hervorgehobene Pixel markiert.

Das Deep-Learning-System hinter dem selbstfahrenden Auto muss das Fahren auf der Grundlage der hervorgehobenen Pixel steuern, die verschiedene Objekte auf der Straße, wie Fußgänger, Ampeln und Fahrzeuge, identifizieren.

Vorteile von synthetischen Daten

Die Hauptvorteile des Trainings von KI mit synthetischen Daten sind:

  • Wie erwähnt, sind reale Daten aufgrund verschiedener Einschränkungen schwer zu beschaffen, weshalb synthetische Daten die beste Wahl sind. Qualitativ hochwertige synthetische Daten, die den realen Daten so nahe wie möglich kommen, sind die beste Lernquelle für KI-Lernmodelle.
  • Bei synthetischen Daten besteht nicht die Gefahr, dass die Vertraulichkeit oder die Geheimhaltung verletzt wird, wie es bei realen Daten der Fall ist. Echte Daten sind, wenn sie legal und mit Zustimmung erhoben werden, an Bedingungen geknüpft.
  • Synthetische Daten ermöglichen die Erkundung verschiedener Szenarien. In einem selbstfahrenden Auto können synthetische Daten beispielsweise dabei helfen, das Fahren auf einer verstopften Straße oder einer Autobahn zu erforschen – ohne dass man sich auf die Straße begeben muss.

Beschränkungen und Probleme

Synthetische Daten sind sowohl ein Vorteil als auch eine Einschränkung, denn es handelt sich nicht um reale Daten, unabhängig von ihrer Qualität.

Ein KI-Modell braucht länger, um mit synthetischen Daten etwas über Objekte aus der realen Welt zu lernen.

Synthetische Daten können Fehler und Verzerrungen enthalten, die zu unbeabsichtigten Trainingsergebnissen führen können, da sie nicht mit realen Anwendungsfällen übereinstimmen.

Synthetische Daten über Kreditwürdigkeit und Darlehensanträge können zum Beispiel falsche und voreingenommene Daten über bestimmte Gemeinschaften umfassen oder ungenau sein, weil sie nicht den neuesten Änderungen der Datengesetze entsprechen.

Das Ergebnis könnte nicht nur ungewollt, sondern auch gefährlich sein.

Synthetische Daten sind jedoch trotz ihrer Grenzen immer noch die beste verfügbare Datenquelle, aus der KI-Modelle lernen können.

Allerdings könnten Unternehmen beim Einsatz von KI in sensiblen Anwendungsfällen wie medizinischer Behandlung, sozialen Fragen und Kreditanträgen äußerst vorsichtig sein.

Fazit

Die Beschaffung von Daten aus der realen Welt scheint ein Haupthindernis für das Lernen von KI-Modellen zu sein. Die Gewinnung von Daten stößt auf viele Hürden in unterschiedlichen Formen.

In Anbetracht der Tatsache, dass KI bemerkenswerte Leistungen erbringen kann, müssen wichtige Institutionen wie Regierungen, Unternehmen und Forschungseinrichtungen herausfinden, wie KI-Systeme Echtzeitdaten analysieren und Teile herausfiltern können, deren Verarbeitung zu Problemen in der realen Welt führen könnte.

In der Zwischenzeit sind jedoch synthetische Daten – vorsichtig eingesetzt – besser als nichts.

Verwandte Begriffe

Kaushik Pal

Kaushik ist technischer Architekt und Softwareberater und verfügt über mehr als 20 Jahre Erfahrung in den Bereichen Softwareanalyse, -entwicklung, -architektur, -design, -prüfung und -schulung. Er interessiert sich für neue Technologien und Innovationsbereiche. Er konzentriert sich auf Webarchitektur, Webtechnologien, Java/J2EE, Open Source, WebRTC, Big Data und semantische Technologien. Kaushik ist auch der Gründer von TechAlpine, einem Technologie-Blog/Beratungsunternehmen mit Sitz in Kolkata. Das Team von TechAlpine arbeitet für verschiedene Kunden in Indien und im Ausland. Das Team verfügt über Fachwissen in den Bereichen Java/J2EE/Open Source/Web/WebRTC/Hadoop/Big Data-Technologien und technisches Schreiben.