Dinge, die bei der Entwicklung zugänglicher und fairer KI-Anwendungen beachtet werden sollten

Seitdem ChatGPT die Welt mit seinen Fähigkeiten in natürlicher Sprache verblüfft hat, erforschen Unternehmen ernsthaft das Potenzial von KI und entwickeln in rasantem Tempo neue KI-Produkte. Alle paar Wochen erscheint ein neues Modell, das basierend auf Benchmark-Datensätzen behauptet, seine Konkurrenten zu übertreffen. Mit heutigen Entwicklungstools kann ein KI-Entwickler ein vortrainiertes Modell problemlos mithilfe öffentlicher oder privater Datensätze feinjustieren und in großem Maßstab bereitstellen. Doch im Wettlauf um Entwicklung und Veröffentlichung wird eine entscheidende Frage oft übersehen: Ist meine KI-Anwendung für alle zugänglich und fair?

Voreingenommenheit in KI-Anwendungen

„Shit in, shit out.“ Diese bekannte Redewendung in der KI-Community unterstreicht die Bedeutung der Trainingsdaten – sie erinnert daran, dass die Qualität des Datensatzes entscheidend für die Qualität des resultierenden KI-Modells ist. Weniger bekannt ist ihr Gegenstück: „Bias in, bias out.“ Diese Aussage verweist auf eine zentrale Wahrheit: Wenn die Trainingsdaten Voreingenommenheiten enthalten, wird die KI-Anwendung diese höchstwahrscheinlich übernehmen.

Wenn solche voreingenommenen Systeme in großem Maßstab eingesetzt werden – oft ohne dass die Entwickler es bemerken – entsteht eine KI-Anwendung, die zwar für Mehrheitsgruppen gut funktioniert, für marginalisierte Gemeinschaften jedoch unzuverlässig ist. Anstatt Barrierefreiheit und Inklusion zu verbessern, können diese Systeme bestehende Ungleichheiten verstärken und gesellschaftliche Unterschiede vertiefen.

Ein eindrückliches Beispiel ist der Einsatz von KI-Technologie zur Erkennung von Melanomen, einer Form von Hautkrebs. KI-basierte Systeme zur Melanomerkennung zeigen eine Voreingenommenheit gegenüber heller Haut, was bei Menschen mit dunklerer Haut oft zu schlechterer Leistung führt. Dies macht die Technologie für diese Bevölkerungsgruppen weniger zugänglich und potenziell weniger zuverlässig. Das Kernproblem liegt in den Trainingsdaten – Menschen mit dunklerer Haut sind unterrepräsentiert, und die verwendeten Datensätze mangeln an Diversität.

Was können wir als KI-Entwickler tun, um unsere Anwendungen für alle zugänglich zu machen?

Inklusives Design von Anfang an

Ähnlich wie beim „Shift-Left-Testing“-Ansatz in der Softwareentwicklung – bei dem Tester früh in den Prozess eingebunden werden – ist es auch bei der KI-Entwicklung wichtig, von Anfang an vielfältige Interessengruppen einzubeziehen. Stimmen aus verschiedenen Backgrounds – unter Berücksichtigung von Geschlecht, Alter, ethnischer Zugehörigkeit, Behinderungsstatus und sozialem Hintergrund – sollten schon in der Ideen- und Designphase gehört werden. Diese frühe Einbindung kann die Datenaufbereitung, das Modell-Design und die Bewertungsmetriken so beeinflussen, dass marginalisierte Gruppen nicht übersehen werden.

Nach der Formulierung der Idee und des Designs sollte gemeinsam mit diversen Stakeholdern und dem eigenen Team über mögliche Risiken der Anwendung nachgedacht werden – am besten noch vor Beginn der Entwicklung. Eine hilfreiche Ressource hierfür ist das RiskStorming-Kartenset und das zugehörige Workshop-Format. RiskStorming ist ein kollaboratives Framework, das von Beren Van Daele und QualityMinds entwickelt wurde und Teams dabei unterstützt, potenzielle Risiken frühzeitig zu erkennen, zu priorisieren und zu mitigieren. Durch die Einbindung vielfältiger Perspektiven lassen sich blinde Flecken aufdecken und von Anfang an inklusivere, robustere KI-Systeme schaffen.

Voreingenommenheiten erkennen: Datenanalyse auf Gruppenungleichheiten

Es lässt sich nicht oft genug betonen: Die Trainingsdaten sollten gründlich analysiert werden, bevor ein Modell trainiert wird. Ein voreingenommener Datensatz führt fast zwangsläufig zu einem voreingenommenen Modell. Achten Sie bei der Datenanalyse auf Muster, die auf Voreingenommenheit hindeuten – insbesondere solche, die Ihre Stakeholder betreffen könnten.
Neben gängigen datentechnischen Methoden zur Erkennung von Voreingenommenheit sollte man auch hier diverse Stakeholder einbeziehen, identifizierte Verzerrungen offenlegen und deren Perspektiven anhören – insbesondere die von Minderheitengruppen. Diese können oft relevante Datenmerkmale oder Muster aufzeigen, die man selbst übersehen hat.

Nach der Identifikation potenzieller Verzerrungen – insbesondere solcher, die durch Stakeholder-Rückmeldungen sichtbar wurden – folgt die Mitigation. Dies kann durch gezieltes Sammeln von Daten unterrepräsentierter Gruppen oder durch Downsampling überrepräsentierter Gruppen geschehen, um die Verteilung auszugleichen. Auch Daten-Synthese-Techniken können helfen, den Datensatz inklusiver zu gestalten.

Ein Beispiel ist unser synthetisierter Datensatz für simulierte Kollisionen zwischen Autos und Fußgängern. Mithilfe der MuJoCo-Physik-Engine haben wir über eine Million vollständig synthetische Kollisionen erzeugt. Um Verzerrungen zu mindern, nutzen unsere Simulationen unterschiedliche Humanoid-Modelle – von Kindern bis Erwachsenen – mit variierenden Körperproportionen, Bewegungsdynamiken und Gangarten. Alle Eigenschaften werden aus gleichverteilten Zufallswerten generiert, um Überrepräsentation zu vermeiden. Durch Variation der Startbedingungen von Fußgängern und Fahrzeugparametern decken wir ein breites Spektrum an Unfallszenarien ab. Der Datensatz unterstützt die Vorhersage menschlicher Bewegungen und erleichtert die Entwicklung fairer, robuster Fußgängerschutzsysteme für autonome Fahrzeuge. Durch einheitliche Benchmarks wird sichergestellt, dass zukünftige Sicherheitstechnologien im Straßenverkehr für alle zuverlässig funktionieren.

Bei Zielkonflikten zwischen Modellleistung und Fairness sollte stets offen mit Stakeholdern kommuniziert werden. Oft ist es wichtiger, eine faire und zugängliche KI-Anwendung in großem Maßstab bereitzustellen, als ein Benchmark-bestes, aber sozial unausgewogenes Modell zu veröffentlichen.

KI-Modelle fair evaluieren

Wähle oder entwickle Evaluationsmetriken, die alle Stakeholder berücksichtigen. Frage dich: Spiegelt die Metrik die Modellleistung für alle Gruppen wider? Ein KI-Modell kann bei einer Metrik gut abschneiden, bei einer anderen jedoch schlecht. Standardmetriken erfassen möglicherweise nicht das eigentliche Problem. Passe sie gegebenenfalls an oder entwickle eigene, die besser zu deinen Zielen passen.

Nutze außerdem Interpretierbarkeitsmethoden wie SHAP oder LIME, um zu prüfen, ob das Modell valide Merkmale verwendet – oder ob es sich auf irrelevante oder voreingenommene Merkmale stützt.

Die Grenzen von KI-Modellen kommunizieren

Sei ehrlich in der Kommunikation über dein KI-Modell sowie dessen Fähigkeiten und Grenzen. Stakeholder sollten verstehen, wie Modellentscheidungen zu interpretieren sind – und genauso wichtig: was diese Entscheidungen nicht bedeuten. Wenn ein Modell in großem Maßstab eingesetzt wird, solltest du seine Einschränkungen immer klar benennen. Biete, wenn möglich, Nutzungshinweise in verschiedenen Formaten an und überlege, offene Sprechstunden zur Rückmeldung und Unterstützung einzurichten.

send icon

Schreib uns eine Mail – wir freuen uns auf deine Nachricht! hello@qualityminds.de oder auf LinkedIn