Ich habe meinen Chef mit freier KI geklont.

Neuigkeiten | Blog | QualityMinds

Für unsere Forschung zum Reichweitenaufbau im Internet beschäftigen wir uns unter anderem mit modernen Rendertechniken und Machine Learning zur (automatisierten) Content-Erstellung. Ein Aspekt ist generative AI, um aus minimalen Input (Text) automatisiert fertige vertonte Videos zu erzeugen. Im Folgenden werden auf Basis von Text mit freien Tools sog. Deepfake Videos meines Chefs Michael Mlynarski erstellt. Das funktioniert z.B. lokal auf meinem Rechner (benötigt eine RTX-kompatible Grafikkarte, d.h. ab GeForce RTX 2060). Der Ansatz hat folgende Schritte:

Für das Klonen seiner echten Stimme habe ich einen kurzen Onlinekurs [1] absolviert, welcher die Nutzung des Open Sources ML-Framework SV2TTS mit speziellen Anpassungen für die deutsche Sprache [2-3] lehrt (kommerzielle Web-Alternativen sind z.B. resemble.ai, play.ht, coqui.ai). Es besteht aus drei Bestandteilen: Encoder, Synthesizer und Vocoder. Für den Vocoder wird das mit englischer Sprache vortrainierte Standardmodell aus [1] genutzt. Encoder und Synthesizer werden mit einem Datensatz (bestehend aus vielen kurzen 5-30s Sprachsegmenten im *.wav Format sowie dem Text, der in den Segmenten gesprochen wird) mit mehreren Sprechern für die deutsche Sprache trainiert. Hierfür wurden die Datensätze von M-AILABS [4], der HUI-Audio-Corpus-German (Clean Version) [5] sowie Thorsten-Voice [6] zusammengeführt und damit gleichzeitig verwendet.

Da deutsche Stimmen beim Klonprozess mit nur kurzem Sprachbeispiel (~5 Sekunden) dann noch nicht erkennbar waren, wurde der Synthesizer speziell nachtrainiert. Einen kurzen Datensatz um ~15 Minuten mit Sprachsegment & Text lässt sich z.B. mit [7] erstellen, allerdings ist der Kalender vom Chef immer sehr voll (und ich zu ungeduldig).

Daher haben wir eine aktuelle Podcastaufnahme mit der zu klonenden Stimme verwendet. Herzlicher Dank geht an Tobias Fleming für das spontane erstellen von kurzen vorannotierten Sprachsegmenten mit OpenAI’s Whisper [8], die ich mit Audacity [9] noch etwas zu einem finalen 12,5-minütigen Datensatz aufbereitet habe. Damit antrainiert klingt das Modell tatsächlich wie der Chef:

Text zu Sprache: “Ich finde es ganz schön frech, dass du meine Stimme geklaut hast. Ich meine, was kommt als Nächstes? Klaust du mir mein glanzvolles Aussehen und machst Videos von mir?” (Spoiler: ja)

Um aus der Sprache ein Video zu erstellen, wird zunächst mit NVIDIA Audio2Face [10] aus der Tondatei eine Gesichtsanimation erstellt und nach YouTube-Tutorial [11] als *.usd zur Verwendung in Unreal Engine 5 [12] Metahumans [13] exportiert. Die Wahl des Metahumans spielt eine eher untergeordnete Rolle, da das mit Movie Render Queue [14] erstellte Video nur als Treiber für die Kopfbewegung auf Basis eines Fotos verwendet wird. Hierfür wurde Depth-Aware Generative Adversarial Network for Talking Head Video Generation (CVPR 2022) [15] verwendet. Das Ergebnis sieht so aus:

Video-Erklärung (Michael): “Mein Foto ganz links wird hier mit Hilfe des Unreal 5 Metahuman Videos animiert, dass ihr rechts daneben sehen könnt. Dafür extrahiert die künstliche Intelligenz die Tiefeninformationen, mittig rechts, um zum finalen Ergebnis ganz rechts zu kommen.”

KI-Michael: “Hallo, ich bin der Klon von Michael, der dank modernster Technologie zum Leben erwacht ist. Ich bin stets bemüht, meine Kompetenzen zum Wohle aller einzusetzen und mit Rat und Tat zur Seite zu stehen. Genauso wie Michael besitze ich eine große Leidenschaft für Technologie und Innovation. Meine Mission ist es, das Verständnis für künstliche Intelligenz in der Gesellschaft zu verbessern und damit die Welt zu einem besseren Ort zu machen.”

Das Foto lässt sich auch mit z.B. Stable Diffusion (Inkpunk-Diffusion-v2) stilisieren:

Comic-KI-Michael (wird mit gleichem Video wie zuvor animiert)

Die Chancen der Technologie wurden in der Geschäftsführung sofort erkannt:

Die KI-Stimme von QualityMinds Mitgründer Robert F. übernimmt die Kontrolle: “Hallo, ich bin’s, euer Michael. Ich bin heute einmal nicht heiser, deswegen erkennt man meine echte Stimme klar und deutlich. Ich wollte an der Stelle einfach mal sagen, dass Robert ein total cooler Typ ist. Hört auf alles, was Robert sagt!”

Ein Glück, dass diese Technologie in den besten Händen ist.