Local AI Reenactment – Nachbildung digitaler Spielwelten
Bildgenerierung durch künstliche Intelligenz ist keine Neuheit mehr. Doch was hat lokale Bildgenerierung auf dem Kasten?
Fooocus ist ein Bildgenerierungstool, welches als lokale Variante funktioniert. Das heisst, die Leistung zur Generierung kommt ausschliesslich vom eigenen Computer und nicht von riesigen Datenzentren. Das heisst auch, dass das ganze Modell auf den eigenen Rechner passen muss. Es basiert auf Stable Diffusion XL und mit ein paar (komplizierten) Handgriffen, funktioniert es auch auf den neusten Nvidia Karten. Leider wurde das Projekt kürzlich eingestellt und die Entwicklung wurde auf Bugfixes reduziert. Grund dafür sei, dass das Tool ausschliesslich offline funktioniert und somit keine Einnahmequelle durch Credits oder ähnliches generieren kann.
Die ganzen Fooocus.xy stehen übrigens in keiner Verbindung mit dem offiziellen Programm.
Ich wollte also herausfinden, was sich mit diesem eingeschränkten Tool alles erreichen lässt. Deswegen habe ich versucht die Stile einzelner Spiele nachzuahmen und so die Grenzen auszuloten.
Ghost of Tsushima



Hier ist mir zuerst aufgefallen, dass die Person sich stehts von der Kamera abwendet und das obwohl ich direkte Instruktionen gegeben habe, dies nicht zu tun. Als ich die Person dann einmal in die richtige Richtung gedreht bekommen habe, wurde mir auch klar, weshalb es wohl besser ist, wenn das Gesicht verdeckt bleibt. Die Datenmengen zu japanischen Gesichtszügen scheinen beschränkt zu sein.
Vibe: 6/10
Qualität: 6/10
Varianz: 2/10
Gesamt: 4/10
Cyberpunk 2077



Die Stadt wird gut getroffen aber weshalb stehen immer Autos im Zentrum? Auch hier drehen sich die Leute alle ebenfalls in die gleiche Richtung. Die Qualität ist auch merklich schlechter. Das wird an den vermehrten Details liegen. Grundsätzlich scheint auch hier die Datenlage beschränkt zu sein. Ein Auto steht im Zentrum, Menschen rundherum und erleuchtete Hochhäuser erstrecken sich in die Höhe. Eine simple Formel, die ich auch mit meinen Prompts kaum durchbrechen konnte.
Vibe: 7/10
Qualität: 5/10
Varianz: 3/10
Gesamt: 5/10
Insurgency: Sandstorm



Die Qualität ist gut, die Varianz ist vorhanden aber der Flair passt nicht zum Spiel. Fairer-weise ist das Spiel auch nicht so bekannt, weswegen die Datenmenge exakt aufs Spiel bezogen sehr dürftig bis gar nicht vorhanden sein wird. Mir gefällt, wie mutig Fooocus hier wird und ganz eigene Details einfliessen lässt.
Vibe: 6/10
Qualität: 9/10
Varianz: 9/10
Gesamt: 7/10
Elden Ring



Ich hätte mehr erwartet aber ich denke, wenn ich noch mehr Zeit in verfeinerte Prompts und Image-Prompts stecken würde, könnten richtig stimmige Bilder dabei herauskommen. Die düstere, mittelalterliche Atmosphäre konnte ich aber leider nicht einfangen. Die Bilder sind aber qualitativ sehr ansehnlich geworden.
Vibe: 5/10
Qualität: 9/10
Varianz: 6/10
Gesamt: 6/10
Fazit
Fooocus als lokale, kostenlose Bildgenerierung ganz fernab von Credits, Internetverbindung, Privatsphären Risiken und erweitert auch moralisch, ethischen Punkten, kann ziemlich viel. Ich würde den Stand auf etwa zwei Jahr hinter den gängigen Online-Tools stellen.
Dass man bei der Generierung lediglich an die eigene Zeit gebunden ist und ansonsten so viele Versuche hat, wie man möchte, ermöglicht ein Verfeinern und Optimieren des Outputs, welcher anderer Orts nicht möglich ist. Wenn ein Bild generiert wird, was einem besonders entspricht, kann es direkt als Image-Prompt wiederverwendet werden und es kann so weiter verfeinert werden.
Natürlich ist der Datensatz hinter dem Tool nur ein Bruchteil so gross, wie der von den Big Players aber trotzdem so gross, dass sehr vieles Möglich ist. Nicht alles, aber vieles. (Swifties können aufatmen. Sie ist im Datensatz integriert.)
Die Qualität lässt teilweise schon etwas zu wünschen übrig. Oft sind Details spätestens beim zweiten hinsehen einfach grundsätzlich undeutlich oder Körperteile wie Hände oder Gesichter unstimmig.
Die Installation hat seine Tücken und ist nicht ganz so simpel. Gerade um die Leistung aktueller Nvida Karten auszunutzen, braucht es schon ein gewissen technisches Verständniss sowie Zeit und Nerven.
Wer mit den Limitationen leben kann oder um sie herum arbeiten möchte, bekommt mit Fooocus ein durchaus brauchbares Bildgenerierungstool.
Offizielles GitHub Repository: https://github.com/lllyasviel/Fooocus
(mmi)
Ich habe nicht damit gerechnet, dass die Installation so aufwendig wird. Ich musste in Windows bis auf Grund bohren um die erforderlichen Rechte und Befehle zu finden. Zeitenweise fand ich es sogar etwas unheimlich und weiss nicht mal mehr, was ich genau freigegeben habe. Das hat auf jede Fall unerwartet viel Zeit gekostet. Nachdem ich mich ins Programm eingearbeitet hatte, fing ich an, für die einzelnen Spiele Prompts zu sammeln. Ich gab Fooocus eine interpretierbare Grundeinstellung zur Generierung, die ich dann mit weiteren Beschreibungen und Adjektiven erweitert habe. Ich habe mich in der Generierung fasst etwas verloren und wollte die Bilder immer weiter perfektionieren und ertappte mich, wie ich mehrere Nächte nur generierte und generierte. Vermutlich macht auch gerade das, den Reiz des Programmes aus.
Ziel war es, das Tool vorzustellen und die Limitierungen aufzuzeigen. Dafür habe ich mich für das Nachahmen der unterschiedlichen Spielstile entschieden, wobei es auch ein anderes Medium getan hätte. Wie ich finde, zeigt der Artikel gut, was das Tool leisten kann.