Erkennst du das Original?

04. Januar 2023

Kannst du die gefälschten KI-Bilder vom Original unterscheiden?

«Künstliche Intelligenz (KI) ist ein immer wichtiger werdender Bereich der Technologie, der darauf abzielt, Maschinen mit menschenähnlicher Intelligenz zu schaffen. Dazu gehören Fähigkeiten wie das Verstehen von Sprache, das Lösen von Problemen und das Lernen aus Erfahrungen. In den letzten Jahren hat sich KI rasch weiterentwickelt und es gibt viele Beispiele dafür, wie KI immer besser wird.»

Das kommt dabei raus, wenn man ChatGPT (ein Chatbot von OpenAI, der auf künstlicher Intelligenz beruht) fragt, was Künstliche Intelligenz ist. Entspricht das der Wahrheit? Wird KI immer besser? Mit diesem Projekt habe ich den momentanen Zustand eines KI-gestützten Bildgenerators überprüft.

Dazu habe ich mich in Zürich auf die Suche nach interessanten Motiven gemacht. Ich bin durch die Stadt gewandert und habe verschiedene Orte besucht, die für ihre Architektur oder ihre Atmosphäre bekannt sind. Dabei habe ich verschiedene Fotos von bekannten Gebäuden und Kunstwerken aufgenommen, die ich dann später mit Hilfe eines Bildgenerators in einem ähnlichen Stil verändert habe.

Kannst du die gefälschten Bilder vom Original unterscheiden? Probiere es aus!
Die Auflösung findest du weiter unten.

Wie sieht der Prime Tower aus?

Welches Denkmal und Altstadtkirche liegt in Zürich?

Welches Kunstwerk wurde von Jean Tinguely gebaut?

Wie sieht der Schutzengel «Nana» aus, der in der Haupthalle des Zürcher Hauptbahnhofs wacht?

ORIGINALFOTOS (Auflösung)

(dbo)

Idee und Motivation

Seit einigen Monaten habe ich in den Sozialen Medien mitverfolgt, wie innerhalb von wenigen Minuten Kunstwerke oder sogar fotorealistische Bilder erstellt werden. Ich war fasziniert, wie KI in der Lage ist, Muster in Daten zu erkennen und diese Muster dann nutzen kann, um neue Dinge zu erstellen. Ich habe mich daher entschieden, mich mit Künstlicher Intelligenz auseinanderzusetzen und habe mir vorgenommen, Bildermanipulationen selbst zu versuchen.

Umsetzung

Bevor ich mich ans Fotografieren machte, habe ich zunächst überlegt, welche Orte in Zürich am bekanntesten sind. Ich recherchierte online und fragte Freunde und Familienmitglieder, um eine Liste der Sehenswürdigkeiten zusammenzustellen, die ich fotografieren wollte.
Nachdem ich meine Liste erstellt hatte, machte ich mich auf den Weg, um die verschiedenen Orte in Zürich zu besuchen und fotografierte sie im RAW-Format von verschiedenen Perspektiven aus. Mit meiner Nikon D3500 achtete ich darauf, dass ich die Orte von unterschiedlichen Winkeln und Höhen fotografierte, um interessante und abwechslungsreiche Bilder zu erhalten.
Sobald ich alle meine Fotos aufgenommen hatte, ging ich sie durch und wählte meine Favoriten aus. Ich suchte nach Bildern, die besonders gut belichtet waren, interessante Perspektiven zeigten und eine gute Komposition hatten. Die Bilder, die mir besonders gefielen, habe ich in Lightroom dann weiter bearbeitet, um es noch besser zur Geltung zu bringen. Ich passte die Belichtung an, korrigierte die Farben und fügte verschiedene Effekte hinzu, um das Bild noch interessanter zu gestalten.
Währenddessen entschied ich mich dafür, ein Programm namens «Stable Diffusion» zu installieren, um die Bilder zu verändern. Stable Diffusion ist ein Deep-Learning-Text-zu-Bild Generator und wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet. Man kann aber auch auch andere Aufgaben ausführen wie Inpainting, Outpainting und die Generierung von Bild-zu-Bild-Übersetzungen. Ich fand einen Youtube-Kanal, der mir zeigte, wie das Programm funktionierte, und folgte den Anweisungen, um es auf meinem Computer zu installieren (https://youtu.be/vg8-NSbaWZI).
Nachdem ich das Programm erfolgreich installiert hatte, lud ich meine bearbeiteten Bilder hoch und wählte den Inpainting-Modus aus. Mit diesem Modus kann man bestimmte Bereiche des Bildes auswählen, die die KI modifizieren sollte. Was auch für die Manipulation ebenfalls benötigt wird, ist ein Prompt (Textbeschreibung) für das, was man erstellen möchte. Zum Beispiel kann man sagen: «Erstelle ein Bild von einer Taube, die auf dem Rücken einer Kuhstatue sitzt». Das KI-Modell wird dann versuchen, ein Bild zu erstellen, das dieser Beschreibung und Masken-Auswahl entspricht. Das generierte Bild wird oft nicht immer die eigene Vorstellung treffen und kann ganz surreale oder kreative Bilder erstellen. Die Bilder wurden mehrmals überarbeitet, bis ich mit dem Ergebnis zufrieden war.
Zuletzt musste ich die generierten Bilder ein kleines Stückchen in Photoshop korrigieren. Obwohl die KI-Software eine gute Arbeit bei der Bearbeitung der Bilder geleistet hatte, gab es noch ein paar kleine Anpassungen, die ich vornehmen musste, um das finale Ergebnis zu perfektionieren. Mit Photoshop konnte ich die Bilder feinsäuberlich bearbeiten und die gewünschten Veränderungen vornehmen.

Learnings und Fazit

Dies ist mein erster Versuch, etwas mit KI zu machen und ich muss sagen, dass ich überrascht bin, wie einfach es war. Um mich vorzubereiten, habe ich mir einige Tutorials auf YouTube angesehen, die mir geholfen haben, das Grundprinzip von der Bildgenerierung zu verstehen und die notwendigen Schritte zu erlernen. Es war herausfordernd, den Prompt so präzis einzugeben, dass genau das herauskommt, was ich mir vorgestellt hatte. Oft musste ich meine Wortwahl anpassen und genau überlegen, wie ich meine Gedanken anders ausdrücken kann, damit meine Absicht klar rüberkommt. Ein Fehler, den ich gemacht habe, war, alles auf höchster Auflösung bearbeiten zu wollen. Das hat dazu geführt, dass meine Computerleistung an ihre Grenzen gegangen ist und ich lange warten musste, bis die Bearbeitung abgeschlossen war. Das Programm stürzte auch ab und zu ab, was frustrierend war. Jedoch habe ich einen viel einfacheren Weg gefunden, die Bilder zu generieren. Dank TinyWow konnte ich die Bilder in kürzerer Zeit bearbeiten, ohne auf die lange Training-Zeit warten zu müssen. TinyWow ist ein kostenloses KI-Tool, das es ermöglicht, die Auflösung von Bildern zu erhöhen, indem es fehlende Details hinzufügt. So konnte ich die schwach-aufgelösten generierten Bilder hochskalieren. Ich kann das Programm sehr empfehlen, da es ein multifunktionales Werkzeug ist. Es bietet viele weitere nützliche Funktionen und ist sehr praktisch.

Um auf die Frage «Wird KI immer besser?» zurückzukommen: Nach wie vor bin ich begeistert von der Möglichkeit, die KI zu nutzen, um Bilder noch interessanter zu gestalten. Das alles auf Knopfdruck funktioniert, war bei mir nicht der Fall. Ich habe gelernt, dass das Erstellen von guten KI-Bildern seine Zeit braucht. Es ist erstaunlich, dass aus nur 4 Ausgangsbildern insgesamt 1801 Bilder entstanden sind. Obwohl es möglich ist, innerhalb kürzester Zeit eine Vielzahl von Bildern zu generieren, benötigt es Zeit und Geduld, um wirklich gute Ergebnisse zu erzielen. Allerdings lohnt sich die Zeit, die man investiert, da die Ergebnisse oft überraschend und kreativ sind. Meiner Meinung hat Stable Diffusion im jetzigen Zustand noch etwas Verbesserungsbedarf. Hier ist wichtig zu erwähnen, dass KI auf der Qualität und Menge der Daten basiert, die sie zur Verfügung hat. Je mehr und bessere Daten ein KI-Programm hat, desto besser kann es werden. Zudem denke ich, dass sie mit regelmässigen Updates und neuen Plugins schon auf dem guten Weg sind, neue Anwendungsbereiche zu erschliessen. Rückblickend bin ich davon überzeugt, dass ich durch die Arbeit mit Künstlicher Intelligenz meine Fähigkeiten im Bereich der Bildverarbeitung und -manipulation verbessert habe und freue mich darauf, weitere Projekte mit Stable Diffusion zu verwirklichen und neue künstlerische Ideen zu entwickeln.