Making of: „Mayday (It’s Christmas)“
Der dringliche Wunsch, einen wirklich guten Weihnachtssong zu schreiben, begleitet mich unterbewusst wahrscheinlich schon mein ganzes Leben lang. Auf etlichen Spreewelle-Weihnachtscompilations habe ich in den letzten 20 Jahren immer wieder versucht zu beweisen, dass es die musikalische Beschallung zu den Festtagen nicht mit Geschmackskompromissen einhergehen muss. Im Sommer 2024 begann ich mich dann aus beruflichen und privatem Interesse relativ exessiv mit KI-Musik zu beschäftigen. Und ich habe dabei gelernt: Ein rudimentäres Verständnis für musikalische Strukturen ist eine gute Voraussetzung, um in diesem neuen Feld aktiv zu werden und Ergebnisse zu erzielen, die überraschend rund klingen. Fast noch wichtiger ist aber ist eine hochemotionale Verbundenheit zu dem, was Musik auslösen kann. Kurz: Die bedingungslose Liebe zur Musik. Die Bereitschaft in ihr aufzugehen. Und nicht zuletzt: Geduld.
Schritt 1: Die richtigen Lyrics
Am Anfang war das Wort. Ein Weihnachtssong, der aus der Masse herausstechen soll, braucht gute Lyrics. Und damit meine ich nicht unbedingt eine besonders schlaue Aussage oder poetische Klasse. Viel eher: Es braucht den richtigen Rhythmus der Worte. Wiedererkennung, Wiederholung, Pausen – alles an den richtigen Stellen.
KI-Textgeneratoren versetzen uns immer wieder ins Staunen. Auch wenn der Umgang mit Ihnen mittlerweile fester Bestandteil unseres Alltags geworden ist: Wer richtig prompted erhält von ChatGPT, Claude und Konsorten Antworten, die nicht nur unschlagbar gut im Was sind, sondern auch im Wie. Allerdings: Seit jeher tun sich alle Text-KI erstaunlicherweise wahnsinnig schwer mit Liedtexten. Wer auf den Auto-Text-Knopf bei den Musikgeneratoren klickt, weil er zu faul ist, selbst zu texten, erhält in der Masse generische Klischees. Kein Liebeslied kommt ohne „heartbeat“ aus, kein Song über Familiengeschichten ohne „Shadows from the past“.
Lektion 1: Schreibe Deine Lyrics selbst
Zumindest einen Teil davon. Bei der vorliegenden Weihnachts-Power-Ballade war es zunächst nur die Idee für den Refrain. Der Gedanke: Sich nach Möglichkeit sofort wiederholende Wortformen, die sich reimen. Denn auch wenn es ein besonderer Weihnachtssong werden sollte: Hart ins Ohr sollte schon das Ziel sein.
It’s a heyday
for a grey day
it’s like mayday
for feeling blue
It’s a starlight
For the dark nights
It’s a holiday
From you
Bei den restlichen Lyrics kam natürlich ChatGPT hier und da zur Hilfe. Sei es um Reime für eine gute Zeile zu finden, oder sei es, um ein Thema zu variieren, so dass man dessen Weiterentwicklung in Strophe 2 nutzen kann. Außerdem kann es superhilfreich sein, der Maschine den eigentlich komplett fertigen Song zu geben und zu bitten, eine neue Version des Songs zu dichten. Die Ernte ist oft dürftig, aber bei diesen Durchgängen fällt dann doch hier und da die eine oder andere Erstaunlichkeit ab, die – erneut dreimal gedreht – dann tatsächlich ihren Weg in die finalen Lyrics findet. Ein gutes Beispiel dafür ist die letzte Wiederholung des Refrains (nach der Bridge, in der es storytellingmäßig das Aha-Erlebnis gibt):
It’s a new day
From the gray haze
No more maydays
I’m out of blue
I’m the starlight
In my dark nights
I will fly upright
To someone new
Schritt 2: Die musikalische Umsetzung
Auch wenn die Konkurrenz größer geworden ist: Die Platzhirschen auf dem Markt der KI-Musiktools sind nach wie vor Suno und Udio. Beide sind auf ihre Art toll. Und beide sind auf Ihre Art begrenzt. Deshalb habe ich bislang keinen einzigen guten Song erstellt, der nicht mit beiden Plattformen gleichzeitig arbeitet.
Suno hat Anfang Dezember sein neuestes Modell vorgestellt. Und der Qualitätssprung ist in der Tat atemberaubend. Vor allem die Vocals klingen im 4er Modell kristallklar und sind nur in wenigen Fällen und nur für besonders gut geschulte Ohren, von menschlichen Stimmen zu unterscheiden. Mit dem Release der neuen Version steht jetzt auch ein „Remaster-“ Feature zur Verfügung: Jeder Output kann auf Wunsch noch einmal überarbeitet werden. Mal sind die Bläser schärfer im Vordergrund, mal sind die Bässe verstärkt, ein anderes Mal kommt eine zweite Stimme dazu. Diese Mikrooptimierungsmöglichkeit ist ein Game Changer, denn endlich gibt es die Möglichkeit, ein fast makelloses Ergebnis auf Perfektion zu trimmen.
Lektion 2: Kombiniere die Musik-Tools für das beste Ergebnis
Allerdings: Suno ist aalglatt. Von 100 KI-generierten Outputs haben 90 dieselbe olle Akkordabfolge. Da kannst Du prompten wie ein Blöder: Suno behaart auf die unumstößliche Erfolgsformel des Pop: I–V–vi–IV (mit ein paar Variationen). Das ist ein Mist. Denn davon gibt es einfach schon genug. Der besondere Weihnachtssong klingt damit alles andere als besonders:
Nicht gerade überwältigend, oder? Und dabei habe ich schon in den Prompts ge-edged was das Zeug hält (#disharmonic, #7th, #9th, #interesting). Nach ca. 60 Generationen ging’s dann rüber zur Konkurrenz von Udio. Hier gibt es eine weniger gute Soundqualität, Outputs, die nicht länger als 2 Minuten sind und ein ziemlich komplexes Interface. Aber eben auch: Die Möglichkeit der nachträglich Anpassung einzelner Teile eines Outputs und das Hinzufügen bzw. das Anhängen von neuen Teilen hinten oder vorne. Aber vor allem erwartet einen: Ein deutlich bunterer Output. Kann man übrigens auch ohne zu bezahlen ausprobieren. Udio ist insgesamt „more raw“. Man hört wesentlich stärker die Quellen heraus. Ein bisschen muss man da aufpassen. Einmal falsch gepromptet und man hat die Originalstimme von George Michael unter den Fingerspitzen. Wie dem auch sei. Es bedurfte mit meinem Refrain nur ca. 40 Generationen bis dann das hier herauspurzelte:
Und zack. Wir haben eine Hookline. Mit diesem Ergebnis ging’s dann wieder zurück zu Suno. Dort kann man nämlich seit neuestem Songs auch „covern“. Die Software nimmt sich das bereitgestellte mp3-File und variiert Stil, Tempo und Instrumentation nach Gusto. Es brauchte auch hier wieder eine Reihe an Generationen, Remaster- und erneuten Cover-Vorgängen bis dann irgendwann das musikalische Endergebnis feststand. Für den aufsehenerregenden dritten Refrain und für die Bridge machte ich wieder kurze Ausflüge zu Udio. Am Ende war ich gefesselt. Das klang zwar ganz insgesamt nicht mehr mega-weihnachtlich, aber für die adventliche Stimmung sorgen ja vor allem die Bilder, die in den Lyrics zu Songbeginn aufgerufen werden.
Schritt 3: Das Musikvideo
Mit Luma und Runway als Bewegtbild-Generatoren hatte ich bereits im beruflichen Kontext einige Erfahrungen gesammelt. Pünktlich zur Black Friday Woche ergab sich zudem die Möglichkeit eines sehr kostengünstigen Deals. Damit war das Ziel gesetzt: „Mayday“ wird erst veröffentlicht, wenn es ein Video dazu gibt. Und dieses Video soll zu 100% KI-generiert sein.
Wie fängt man da an? Ähnlich wie beim Song selbst: Mit einem Konzept. Beim Videoscript war Chat-GPT deutlich hilfreicher als bei den Lyrics. Mit der Bitte um ein möglichst detailliertes Script inklusive Szenenbeschreibungen, den Original-Lyrics und einer allgemeinen Inhaltsvorgabe, spuckte Chat-GPT einen Vorschlag aus, der so zwar nicht umgesetzt wurde, der aber vor allem hinsichtlich Dramaturgie die entscheidenden Schwerpunkte setzte.
Lektion 3: Investiere Zeit ins Character-Training
Cool. Diese Zwischenüberschrift klingt, als würde ich ein Gamer-Leitfaden schreiben. Aber es stimmt und ist ja in der Tat auch ein bisschen materienverwandt: Wenn ein Video nicht generisch sein soll, braucht es nun mal einen Protagonisten. Und nach Möglichkeit sollte diese Protagonist im Verlaufe des Musikvideos keine größeren körperlichen Veränderungen aufweisen. Und genau das ist der wunde Punkt von KI-generierten Bilder und Videos: Die Charakter-Konsistenz. Allerdings sieht die Welt heute diesbezüglich schon ganz anders aus als vor einem halben Jahr. Fast alle Tools bieten mittlerweile ein Training-Feature an. Je mehr Original-Bilder und Videos in diese Trainingsdaten fließen, umso realistischer und vor allem konsistenter sind die Outputs. Für unser Weihnachtsvideo wollte ich eine fiktive Person haben (um nicht von Anwälten unerwünschte Weihnachtspost zu bekommen). Und so definierte ich vie ChatGPT einen Image-Prompt für eine charakterstarke Person (die Kurzfassung: große Nase, traurige Augen, gutes Aussehen) und ließ diese über das aktuell schnellste Bildgenerierungstool laufen. Flux braucht – ungelogen – weniger als 2 Sekunden um vier Bildversionen auf Grundlage eines Textprompts zu erstellen. Da hatte ich dann relativ schnell einen Favouriten. Auch hier gilt: Die besten Ergebnisse erzielt man durch die Kombination unterschiedlicher Tools. Nach ersten Entwürfen mit Ideogram und der Bitte ein einigermaßen guten Output via Bildbeschreibung zu erfassen, schickt man diese deutlich detailliertere Bildbeschreibung (siehe im Screenshot links) in ein anderes Tool (in diesem Fall Flux).
Jetzt haben wir also unseren Protagonisten. In Flux selbst kann man Variationen eines Motivs erstellen lassen, dabei bleibt die Ähnlichkeit erhalten. Es braucht viele Durchgänge, bis man den selben Charakter in unterschiedlichen Posen erstellt hat. Mit diesen Variationen geht’s dann ins „Trainings-Camp“. Flux braucht mindesten 8 Bilder einer Person aus unterschiedlichen Perspektiven. Der Trainingsprozess selbst dauert dann keine 5 Minuten. Fortan lässt sich mit Verweis auf den Namen des trainierten Charakters, alle erdenklichen Bildmotive erstellen. Und das geht in Flux Ratzfatz, wie folgendes gif in Echtzeit zeigt.
Lektion 4: Schlüsselszenen festlegen
Im nächsten Schritt erstelle ich – den Scriptentwurf lose folgend – Bildmotive für die Schlüsselszenen. Vers für Vers, Refrain für Refrain, Bridge, Letzter Refrain und Outro. Die große Herausforderung: Die Key Visuals geben den Stil für die einzelnen Teile vor – Konsistenz im Look & Feel muss wenigstens Teilübergreifend gewährleistet sein. Und das bedeutet leider einen hohen Tokenverbrauch. Denn zwar kann man bei Flux einen Stil durch ein Schlüsselbild vorgeben. Man kommt aber nicht drum herum, viele hundert Male den Regenerate-Button zu klicken, bis man eine einigermaßen einheitliche Schar an Bildern pro Szene zusammen hat.
Lektion 5: Die letzten 20% brauchen 80% der Zeit
Wie auch bei der Musikgenerierung sollte man sich bei der Erstellung von Videosnippets nicht auf ein Tool verlassen. Mit Kling, MiniMax, Runway und Luma stehen in Deutschland aktuell vier extrem gute Lösungen zur Verfügung. Ganz unterschiedlich sind die Stärken und Schwächen verteilt. Geht es bei Luma zum Beispiel unglaublich fix (5 Sekunden brauchen weniger als eine Minute), wartet man sich bei Runway gerne mal den Wolf. Allerdings sind die Ergebnisse nach rund 10 Minuten deutlich höherwertiger. Wer nicht gleichzeitig 20 Accounts bei unterschiedlichen KI-Tools anlegen möchte, ist übrigens mit krea.ai sehr gut bedient. Hier wird einem mit einem Account innerhalb einer übersichtlichen Oberfläche der Zugang zu allen vier Video-Anbietern ermöglicht. Was dort allerdings (noch) nicht funktioniert – und für ein Musikvideo nicht ganz unwesentlich ist: Das Feature „LipSync“. Das geht nur proprietär direkt beim Anbieter und läuft am zuverlässigsten widerum bei Kling. Hier muss man Geduld mitbringen. 5 Sekunden Lippensynchronisation (auf Grundlage eines selbst eingesungenen Songschnipsels) dauern momentan rund 10 Minuten.
Zum Editieren braucht man Stand heute (Dezember 2024) immer noch ein professionelles Video-Editierprogramm. In Final Cut Pro, notfalls auch in iMovie lassen sich die Snippets zusammenlegen, editieren und bearbeiten. Offensichtlich ist es aber nur noch eine Frage der Zeit, bis dieser letzte Schritt auch noch von den KI-Anbietern übernommen wird. Sora von OpenAI bietet seit einer Woche zumindest rudimentär alle Funktionen einer Schneidesoftware an, direkt innerhalb der Plattform.
Es bleibt trotzdem erstaunlich wie schnell man – mit minimalem Budget und ohne Filmcrew ein 5-Minuten Musikvideo zusammenstöpseln kann. Natürlich sind die Outputs nicht immer akkurat. Zu viele Finger, hektische Augenbewegungen, Inkonsistenzen: Noch gibt es viele Baustellen, die sich nur mit Geduld und hohem Tokenverbrauch reduzieren lassen. Gerade bei komplexen Szenen (in unserem Beispiel: Alle Weihnachtsmarkt-Szenen mit mehreren sich gleichzeitig bewegenden Menschen) stellen die Tools noch vor Herausforderungen. Und so hat es im finalen Schnitt noch einmal irre lang gedauert, bis ich die kleinen Fehler herausgeprompted hatte.