Musikvideo mit Sora

Idee

Wir wollten unserem Techno-Track ein eigenes Video spendieren, komplett von der KI-Plattform Sora generiert. Das Konzept:

  • kurzes Intro mit kleiner Handlung (zwei Figuren, Kamerafahrt, Industrial-Look)
  • ab dem Drop vor allem Farben, Bewegung und abstrakte Formen, die zum Beat pulsieren

Songtext als roter Faden
Die Mini-Handlung im Intro orientiert sich an unserer Vocal-Zeile «There was a time when two guys failed…». Szenen und Stimmungen greifen also direkt die Geschichte des Tracks auf, bevor das Video ab dem Drop in abstrakte Visuals übergeht.

Prompts schreiben

Für jede Szene legten wir drei Eckpunkte fest:

  1. Umgebung – z. B. verlassene Lagerhalle, Neonröhren, leichter Nebel
  2. Licht – kräftiges Cyan-Magenta, starke Kontraste
  3. Kamera – langsamer Dolly-Move oder Close-ups auf Silhouetten

Nach jedem Render notierten wir die genauen Stichwörter, damit wir gelungene Ergebnisse wiederholen konnten.

Clips generieren

Sora liefert nur stumme 5-Sekunden-Clips. In vier Sessions entstanden rund 60 Sequenzen. Etwa ein Drittel war brauchbar; der Rest wanderte direkt in den «Müll»-Ordner. Typische Fehler:

  • Gesichter mutieren innerhalb weniger Frames
  • Farben springen – Frame 1 knallrot, Frame 2 grau, Frame 3 wieder rot
  • Sora ignoriert Gravitation: Figuren schweben oder laufen ohne Boden­kontakt

Die skurrilsten Fehlversuche haben wir zur Anschauung hochgeladen:
https://fhgraubuenden-my.sharepoint.com/:f:/g/personal/hagmandionys_fhgr_ch/EkPHe8M3vAZBvfpZ0eMW43MBDHwJlhij2Q-kgT6SOymAow?e=BPJkRP

Bitte akzeptiere die statistik, Marketing Cookies um diesen Inhalt zu sehen.

Wir haben das KI-Werkzeug vermutlich nicht an seine Grenzen gebracht, sondern eher unsere eigenen aufgezeigt. Darum hier ein offenes Fazit.

Technischer Rahmen
Sora liefert stumme Clips von maximal fünf Sekunden. Mit geschicktem Prompt-Design lassen sich daraus erstaunlich stimmige Einzelshots gewinnen, das haben wir gemerkt, wenn ein Prompt unverhofft genau die Lichtstimmung traf, die wir im Kopf hatten. Doch sobald wir eine fortlaufende Handlung wollten, stiessen wir an unsere Grenzen: Jede Figur verändert sich bei kleinster Textänderung, jeder Kameraschwenk endet abrupt, weil die Cliplänge fix ist. Aus heutiger Sicht hätten wir besser auf diese Rahmenbedingungen reagiert, statt an einem fast filmischen Intro festzuhalten.

Planung und Erwartungsmanagement
Wir wollten Protagonisten, Spannungsbogen, Auflösung, alles in rund zwei Minuten. Erst im Editing bemerkten wir, dass wir uns damit einen Knoten gelegt hatten: Die Clips passten einzeln, fielen aber als Kette auseinander. Die Technik ist inzwischen wahrscheinlich weiter, als wir sie eingesetzt haben, verlangt aber eine präzisere Vorplanung und deutlich mehr Zeit für Prompt-Iteration als wir vorgesehen hatten.

Nachbearbeitung
Die nötige Postproduktion ist kein Makel des Werkzeugs, sondern eine feste Grösse: Farben vereinheitlichen, Tempi angleichen, harte Schnittkanten verstecken. Dafür fehlte uns schlicht die Geduld.

Lernkurve
Trotzdem war das Experiment lehrreich. Wir haben verstanden, dass KI-Video zurzeit eher Material-Generator als fertiger Regisseur ist. Gute Ergebnisse entstehen dort, wo man die Clips wie Bausteine begreift und sie mit klassischem Schnittkunsthandwerk verbindet. Uns fehlte an manchen Stellen dieser Handwerksteil, nicht unbedingt die Rechenkraft der KI.

Schlussgedanke
Sora hat Potenzial. Unser Clip zeigt eher den Zwischenstand eines Lernprojekts: visuell reizvoll hier und da, aber erzählerisch brüchig. Die entscheidende Erkenntnis lautet: Das Tool ist kein Shortcut, sondern ein neues Instrument, das ebenso viel Übung verlangt wie Kamera oder Schnittpult.