Bahnbrechende Fortschritte: KI-Bildgenerierung 2024

Es ist schon fast zwei Jahre her: KI-Bildgeneratoren wie Midjourney und DALL-E wurden der breiten Öffentlichkeit vorgestellt, im März 2023 folgte Adobe Firefly – eine neue Ära der Bilderstellung wurde eingeläutet. Exemplarisch haben wir uns die Neuerungen bei den drei Bildgeneratoren angesehen und uns anhand von Beispielen aus der Produkt- und Werbewelt Gedanken über die Zukunft der Fotografie gemacht.

Mithilfe der KI-Tools zur Bildgenerierung kann man heute die verschiedensten Kreativideen umsetzen – einfach und bequem von zu Hause. „Für mich als Liebhaber von extremen Naturereignissen wie Vulkanen und Unwettern haben Fotografie und KI-Bildgenerierung zwei unterschiedliche Intentionen“, so Adrian Rohnfelder (s. Kasten weiter unten).
„Wenn ich bei einer Multivisionsshow von einem Ort mit Fotos erzählen möchte, dann muss ich dahin reisen. Ich bringe eine Geschichte mit. Wenn ich aber einfach nur die Idee visualisieren und mal ein Abenteuerbild machen möchte, dann kann ich mir mit KI genau die Bedingungen, die für mich perfekt wären, erschaffen und das Bild in der Form machen.“ — Mithilfe der KI-Tools zur Bildgenerierung kann man heute die verschiedensten Kreativideen umsetzen – einfach und bequem von zu Hause. „Für mich als Liebhaber von extremen Naturereignissen wie Vulkanen und Unwettern haben Fotografie und KI-Bildgenerierung zwei unterschiedliche Intentionen“, so Adrian Rohnfelder (s. Kasten weiter unten). „Wenn ich bei einer Multivisionsshow von einem Ort mit Fotos erzählen möchte, dann muss ich dahin reisen. Ich bringe eine Geschichte mit. Wenn ich aber einfach nur die Idee visualisieren und mal ein Abenteuerbild machen möchte, dann kann ich mir mit KI genau die Bedingungen, die für mich perfekt wären, erschaffen und das Bild in der Form machen.“ (Bild: Adrian Rohnfelder (mit Midjourney generiert))

KI-Bildgenerierung 2024: Status Quo

In der dynamischen Welt der KI-Bildgeneratoren befinden wir uns an einem bemerkenswerten Wendepunkt. Innovative Technologien wie DALL-E, Midjourney und Adobe Firefly revolutionieren die Art und Weise, wie wir kreativ tätig sind, und öffnen die Tür zu einer Ära, in der die Grenzen zwischen menschlicher Kunstfertigkeit und maschineller Präzision verschwimmen.

Diese Bildgeneratoren, ausgestattet mit der Fähigkeit, aus Textbeschreibungen (den sogenannten Prompts) eindrucksvolle visuelle Inhalte zu erstellen, erweitern das kreative Spektrum und stellen gleichzeitig neue Fragen zu Originalität und Ethik in der digitalen Kunstwelt.

Erinnert Sie diese Geschichte auch an etwas anderes? Möglicherweise an die Furore, die zum Beispiel die ersten Digitalkameras und die digitale Bildbearbeitung mit Adobe Photoshop in den 90er-Jahren des vergangenen Jahrhunderts ausgelöst haben.

Während Chatbots wie ChatGPT mit den Frage- und Aufgabenstellungen auf Deutsch sehr gut klarkommen, ist die Eingabe von Prompts bei manchen KI-Bildgeneratoren auf Englisch zu empfehlen. Midjourney z. B. arbeitet nur mit Befehlen auf Englisch.

Wenn Sie sich bei der ausführlichen Formulierung unsicher fühlen, können Sie Übersetzungstools wie DeepL (www.deepl.com/translator) nutzen. Adobe Firefly funktioniert ganz gut auf Deutsch (und noch vielen anderen Sprachen), es lohnt sich aber, sich die Bildergebnisse auch von Prompts auf Englisch anzusehen.

Ständig erweitert

Die KI-gesteuerten Bildgeneratoren sind heute nicht mehr aus unserem Alltag wegzudenken. Laut einer Statistik der Plattform FlexOS ist Bildgenerierung mit 11 Prozent einer der meistgesuchten Themenbereiche nach Schreiben („Writing & Editing“), Lernen („Education“) und Kommunizieren („Social & Characters“)*.

Dabei hatte Midjourney, einer der weltweit beliebtesten KIBildgeneratoren, von September 2022 bis August 2023 etwa 500,4 Millionen Aufrufe, was 2,1 Prozent des gesamten KI-Nutzungstraffics überhaupt ausmacht**. Beim Adobe Summit 2024 Ende März wurde vom Software-Hersteller berichtet, dass bis dato (nur ein Jahr nach der Veröffentlichung von Adobe Firefly) die Nutzerinnen und Nutzer des hauseigenen Bildgenerators mehr als 6,5 Milliarden KI-Bilder erzeugt haben.

Um sich im Ozean des schnell und ständig wachsenden KI-Feldes hervorzuheben, sind die Macherinnen und Macher dahinter stets bemüht, ihr Angebot zu optimieren. Es werden immer neue Funktionen und Erweiterungen hinzugefügt, die die Nutzung der KI-Bildgeneratoren bedienungsfreundlicher und die Ergebnisse präziser machen (sollten).

So wurden in diesem Jahr in Midjourney 6 unter anderem gleich zwei große Features eingeführt – „Consistent Styles“ (Parameter --sref für „Style Reference“) und „Consistent Characters“ (Parameter --cref für „Character Reference“). Mit der ersten Funktion können Sie Bilder als Stilreferenzen in Ihrem Prompt verwenden, um den Stil oder die Ästhetik der Werke zu beeinflussen, die Sie von Midjourney erstellen lassen möchten.

Funktion zwei wird von vielen auch als die bislang wichtigste Neuerung beim Bildgenerator bezeichnet. Es ermöglicht, eine Charakterabbildung zu erstellen und diese als Charakterreferenz im Prompt anzuwenden, um Bilder desselben Charakters in verschiedenen Situationen zu generieren (s. Kasten auf S. 55).

Eine bahnbrechende Verbesserung! Die Fortsetzung dieser an den Nutzerbedürfnissen angepassten Funktionen soll in den kommenden Monaten und der Version 7 verfeinert werden, kündigte Midjourney- Gründer David Holz Mitte März an. Mit der neuen Personalisierungsfunktion werden KI-Bildergebnisse auch anhand der Likeund Galerie-Historie der einzelnen Nutzenden generiert. Bis Ende 2024 möchte Midjourney zudem ein eigenes 3D- und Video-Modell herausbringen.

Mehr Varianz: Dank der KI kann man den Kundinnen und Kunden verschiedene Szenerien für ihr Produkt anbieten – wie ihr neues Automodell z. B. in der Wüste, in einer isländische Landschaft (s. weiter oben), im Schnee oder Regen. (Bild: Adrian Rohnfelder (mit Midjourney generiert))

Landschaftsfotograf Adrian Rohnfelder ist begeisterter KI-Nutzer der ersten Stunde. Zusammen mit seinem Kollegen Andreas Jürgensen betreibt er die Plattform AI Imagelab, auf der sie über Neues aus der Bild-, Video- und Musik-KI-Welt berichten und Tipps geben.

Adrian Rohnfelder bezeichnet sich selbst als Bildermacher. Um seine vielen abenteuerlichen Ideen umzusetzen, hat er bis jetzt seine Kamera in Kombination mit Photoshop & Co. benutzt. „Die KI gibt mir einfach eine andere Möglichkeit, die Bilder, die ich nicht fotografieren kann oder momentan nicht fotografieren möchte, endlich auch zu realisieren“, so der Kreative.

„Wenn ich Bilder mache, habe ich die erlebten Fotos, wie auch die KI-generierten Bilder. Aber die Geschichten, die ich im Kopf habe, die versuche ich, mit beiden Welten – je nachdem, welches Medium gerade passt – zu erzielen.“

So kombiniert Adrian seine Fotos mit neu generierten Objekten, nutzt die eigenen Aufnahmen als Referenz für künstlich erstellte Welten, um seinen eigenen Stil neu zu interpretieren. „Es ist erstaunlich, wie schnell Midjourney, mein persönlicher Favorit unter den KI-Bildgeneratoren, von einem absoluten Spielzeug zu einem ernst zu nehmenden Tool gereift ist“, fügt der Bildermacher hinzu.

„Für mich als Nutzer ist es toll, ein richtiges Werkzeug an der Hand zu haben, bei dem die Ergebnisse nicht mehr à la ‚Lassen wir uns überraschen‘ sind, sondern es kontrolliert steuern kann.“ Aufgrund der großen Zugänglichkeit am Computer oder per App sowie der relativ einfach zu bedienenden Funktionen und somit der verkürzten Produktionszeit glaubt Adrian, dass in Zukunft ein Großteil der Bilder und Videos mit KI generiert wird.

„Jetzt kommt jedoch das große Aber: Wenn du hochqualitative Werke erstellen möchtest, wirst du auch weiterhin fotografisches Knowhow brauchen. Wenn ich an Agenturen, größere Projekte und Werbung für bekannte Marken denke, werden immer noch Leute gebraucht, die die KI-Tools beherrschen.

Du wirst nicht unbedingt fotografieren, sondern generieren, dafür brauchst du aber meistens mehrere Versuche, Verständnis für Bildkomposition, Lichtsetzung, Farben und überhaupt gute Ideen. Du wirst eventuell mehrere Tools kombinieren, doch noch feine Korrekturen in Photoshop vornehmen. Für gute Qualität werden wir Fusionslösungen haben müssen.“

Adrian Rohnfelder Fotograf, Promptograf, Storyteller & Trainer (Bild: Adrian Rohnfelder)

https://rohnfelder.de | www.ai-imagelab.de

Schneller zum Bildergebnis

Kurz vor Redaktionsschluss hat auch OpenAI drei große Neuerungen beim firmeneigenen Bildgenerator DALL-E 3 präsentiert. Es gibt nun direkt neben der Texteingabeleiste verschiedene Auswahlknöpfe: Mit „Aspect Ratio“ wählen Sie automatisch das Bildformat („Square“ für Quadrat, „Widescreen“ für 16:9 und „Vertical“) aus.

Die Punkte über der Leiste bieten neue, spannende Bildstil-Optionen mit Vorschau des Looks an. So sparen Sie sich die manuelle Eingabe dieser Parameter in Ihrem Prompt. Die dritte Neuigkeit erreichen Sie, nachdem Sie Ihre Bilder generiert und eine Version angeklickt haben: Oben rechts im Vorschaufenster finden Sie den Knopf „Select“.

Sobald ausgewählt, können Sie mit der Maus ein Objekt oder einen ganzen Bildbereich markieren und in die Textbox unten rechts Ihren Änderungswunsch eintippen. Auf diese Weise verändern Sie nur diese bestimmte Stelle, ohne Ihr generiertes Bild zu verlieren. Bereits angekündigt wurde auch Sora, der KI-Videogenerator von OpenAI, der bis jetzt nur von einigen wenigen Kreativen getestet wurde.

Auch im Hause Adobe wird hinter den Kulissen weiter getüftelt. Beim eben erwähnten Event Ende März kündigte der Hersteller einige neue Funktionen seines KI-Bildgenerators Adobe Firefly an. Mit der Struktur-Referenz können Sie die Struktur eines bestehenden Bildes (Ihres eigenen oder eines aus der KI-Datenbank) auf einfache Weise auf neu generierte Bilder anwenden.

Dies soll das mühsame Ausprobieren der perfekten Eingabeaufforderung erleichtern, um die gewünschte Ausgabe zu erhalten. Durch die Kombination der Struktur-Referenz mit der Stile-Referenz von Adobe Firefly, einer weiteren Funktion im Modul „Text zu Bild“, können Sie sowohl die Struktur als auch den Bildlook eines Werkes referenzieren, um Ihre Ideen schnell zum Leben zu erwecken.

Beides ist, wie üblich für diesen KI-Bildgenerator, per Auswahlpunkt im Menü links anwählbar, und soll laut Hersteller den Zufallsfaktor bei der Bildgenerierung reduzieren. Adobe gab außerdem die sogenannten „Custom Models“ für Firefly bekannt, die ein individuelles Training des KI-Modells für die eigene Corporate-Design-Sprache wie Objekte, Hintergründe und Stile ermöglichen sollen.

Laut Adobe seien zehn bis 20 Trainingsbilder für gute Ergebnisse vollkommen ausreichend. Strenge Governance- und Sicherheitskontrollen sollen außerdem sicherstellen, dass die Inhalte, Daten und Arbeitsabläufe einer Marke innerhalb des Unternehmens bleiben.

Erstes generiertes Bild (Bild: Sina Dallmann (mit Midjourney generiert))

Weitere Bildversion (Bild: Sina Dallmann (mit Midjourney generiert))

Der im Februar eingeführten Funktion „Consistent Styles“ folgte Anfang März die nächste wichtige Neuerung beim beliebten Bildgenerator: „Consistent Characters“.

Die Erstellung von „Consistent Characters“ mit Midjourney, also konsistenten Charakteren innerhalb Ihrer visuellen Projekte, basiert auf dem Prinzip, einen einheitlichen Charakter oder eine Gruppe von Charakteren über mehrere Bilder hinweg beizubehalten.

Auf diese Weise generieren Sie schnell und einfach eine Art realistische Bilderserie, die Sie für Storyboards benutzen können. Im Folgenden zeigen wir Ihnen, wie das funktioniert:

1 | Wie bei allen Bildgeneratoren beginnen Sie auch hier mit dem Charakterentwurf.

Skizzieren Sie hierfür eine detaillierte Beschreibung der gewünschten Person, einschließlich physischer Merkmale wie Geschlecht, Alter, Körpergröße, Stil, Kleidung und Haltung.

2 | Nutzen Sie nun Ihre Beschreibung, um einen genauen Prompt zu erstellen. Integrieren Sie spezifische Details, die Sie in Ihrem Charakter konsistent halten möchten.

Passen Sie, falls nötig, Ihren Prompt so lange an, bis Sie mit dem Ergebnis zufrieden sind (s. unser großes hochformatiges Bild oben).

3 | Per Rechtsklick auf das fertige Bild wählen Sie „Bildadresse kopieren“. Erstellen Sie jetzt einen neuen Prompt, der darstellt, was der Charakter tun soll.

Fügen Sie den Parameter --cref und die kopierte Bildadresse/URL hinzu („cref“ steht für „Character reference“). Ein Tipp zum letzten Schritt von Sina Dallmann, Performance- und Conversion-Kolleg*in aus unserem Verlag: Stellen Sie am Ende des Prompts auch die Gewichtung ein, wie stark Midjourney der Referenz folgen soll.

Der Parameter dafür ist --cw und funktioniert mit jedem Wert zwischen 0 und 100. --cw 100 ist die Standardeinstellung und berücksichtigt das Gesicht, die Haare und die Kleidung, während Stärke 0 (--cw 0) sich nur auf das Gesicht konzentriert.

Keine KI: Abgebildet (s. oben) ist ein echtes Foto. Profi Eberhard Schuy arbeitet seit über 20 Jahren als Fotograf und hat einige der Trends und Entwicklungen der Fotografie mitgekriegt.
In der KITechnologie sieht er auch viel Positives, z. B. bei der Erstellung von Moodboards für die Präsentation seiner Ideen vor Kundinnen und Kunden. „So kann ich meine Vorstellungen besser transportieren. Letztendlich wird wieder richtig fotografiert, aber als Vorstufe ist die KI grandios“, so Schuy. — Keine KI: Abgebildet (s. oben) ist ein echtes Foto. Profi Eberhard Schuy arbeitet seit über 20 Jahren als Fotograf und hat einige der Trends und Entwicklungen der Fotografie mitgekriegt. In der KITechnologie sieht er auch viel Positives, z. B. bei der Erstellung von Moodboards für die Präsentation seiner Ideen vor Kundinnen und Kunden. „So kann ich meine Vorstellungen besser transportieren. Letztendlich wird wieder richtig fotografiert, aber als Vorstufe ist die KI grandios“, so Schuy. (Bild: Eberhard Schuy)

„KI-generierte Bilder sind letztendlich auch nur eine weitere Möglichkeit, zu Abbildungen zu kommen. Die Frage, die sich daraus ergibt, ist doch, welche Positionierung dazu eingenommen wird und wie Fotografierende ihre Arbeit definieren. Es ist keinesfalls so, dass die rein fotografische Arbeit nicht mehr gefragt ist.

Ganz im Gegenteil: Auch wenn bestimmte Aufgaben durch KI erledigt werden können, die pure Fotografie steht immer noch für Authentizität und für die von der durch die Schaffenden getragenen, persönlichen Arbeitsweise.

Das, was in den letzten Jahren durch die vielfältigen Möglichkeiten der digitalen Bilderstellung entstanden ist und nun zu großen Befürchtungen führt, ist ursprünglich nicht in der Technik der Bildgenerierung zu suchen, sondern in der Intention und der mangelnden, auf Persönlichkeit ausgerichteten Umsetzung.

Wer bisher glaubte, Bilder können schlicht digital so verändert oder generiert werden, dass dadurch ein individuelles Werk entsteht, der wird inzwischen mit der auf diese Art produzierten Beliebigkeit solcher Bilder konfrontiert. So liegt es nicht an der Technik, die Probleme bereitet, sondern an der mangelnden Relevanz der Arbeiten, zumindest im kommerziellen und anspruchsvollen künstlerischen Bereich.

Früher, zu analogen Zeiten, ging es bei den Profis um das fotografische Handwerk, um Großformatfotografie, die die breite Masse nicht beherrschen konnte. Seit den 90er-Jahren und der Einführung der Digitalkameras hat sich das deutlich gewandelt. Jede und jeder kann heute ein Foto machen und es nachträglich optimieren. Das Beherrschen der Technik ist keine Legitimation mehr, sich Fotografin oder Fotograf zu nennen.

Es kommt immer auf die Idee, die Kreativität, auf die persönliche Philosophie an, wie wir etwas sehen und fotografieren. Genau das wird auch von den Kundinnen und Kunden gewünscht. Mit der KI-Bildgenerierung werden ihnen die Individualität und Authentizität sogar noch wichtiger, damit sich ihre Produkte von der Maße abheben können.

Es liegt an den Fotografierenden, sich so zu positionieren, dass die Klientinnen und Klienten ihre Besonderheiten erkennen und dafür Geld bezahlen. Es ist schwer, aber so war es immer in diesem Beruf.“

Eberhard Schuy; Fotograf, Dozent, Autor (Bild: Eberhard Schuy)

http://eboschuy.com

„Bei falkemedia streben wir stets danach, neueste Technologien zu nutzen und Branchentrends zu setzen. Wir sind tatsächlich an einem Punkt, an dem traditionelle Fotografie auf die neuesten KI-Innovationen trifft – eine Mischung, die nicht nur spannend ist, sondern auch unsere Kolleginnen und Kollegen herausfordert, da unendliche neue Möglichkeiten eröffnet werden.

In unserem täglichen Kreativworkflow sind KIgestützte Techniken integriert und in der digitalen Bildbearbeitung KI-basierte Routinen wie Hintergrundentfernung, Upscaling Out- und Inpainting schon fest verankert. Mit ihrer Hilfe stoßen wir die kreativen Türen weit auf und steigern unsere Prozesseffizienz deutlich, sodass wir mehr Freiheiten haben, Mehrwert für unsere Kundinnen und Kunden zu kreieren.

Trotz des aufregenden Potenzials von KI bleibt der menschliche Einfluss in unserem Schaffensprozess unverzichtbar. Jedes von KI interpolierte Bild wird vom Team kuratiert, genau geprüft und überarbeitet, um sicherzustellen, dass Qualität und Kundenerlebnis immer an erster Stelle stehen.

Unser nächstes Ziel ist es, durch den Einsatz von KI aus unseren umfangreichen hauseigenen Bildarchiven maßgeschneiderte Bilder zu generieren. Wir gehen diese Herausforderung mit einer Mischung aus Neugier und Sorgfalt an, denn in der Food- Fotografie zählt jede Komponente für ein realistisches Endergebnis.

Deshalb setzen wir aktuell bei unseren hochwertigen Druckprodukten und umfangreichen Kampagnen nach wie vor auf echte Fotografie. Wir sind jedoch optimistisch, dass die KI schon bald auch unsere strengen Anforderungen erfüllen und ein integraler Bestandteil unserer Weiterentwicklung sein wird.“

Marleen Osbahr; Art Direktorin falkemedia mein ZauberTopf & ZauberMix (Bild: falkemedia)

www.falkemedia.de

KI-generierte Bilder (Bild: KI-generiert)

KI vs. Studioshooting: In den Food-Redaktionen unseres Medienhauses falkemedia werden sowohl KI-generierte Bilder (s. Bilder weiter oben), als auch echte, im eigenen Studio präzise erstellte Fotos verwendet, wie dieser Teriyaki-Nudelsalat. (Bild: falkemedia/Anna Gieseler)

„Es gibt Fotos im Foodkontext, die sehr generisch sind. Ein Strauch Basilikum oder ein Hefeteig sind für eine KI kein Problem, weil es Tausende Beispiele gibt, aus denen sich die immer gleiche Information zusammensetzen, was genau diese beiden Dinge ausmacht.

Daher lässt sich so ein Motiv heute schon gut individualisieren – zum Beispiel Hefeteig in einer roten Schüssel auf einem Tisch im Garten oder mehrere Basilikum-Töpfe auf einem Esstisch. Beides wird man so konkret länger in einer Bilddatenbank suchen müssen und vielleicht nie finden.

Da kann man schon mal die KI beauftragen. Schwieriger wird es, wenn Kreationen optisch dargestellt werden sollen, die es so kein zweites Mal gibt, wie ein Gericht, das aus einer absolut neuen Kombination aus Zutaten und anders als gewöhnlich zusammengesetzt ist – dafür gibt es dann online nicht viele vergleichbare Informationen, also kann das Ergebnis sehr schwankend oder auch fehlerhaft ausfallen. Da ist es aktuell noch einfacher, eine solche Kreationen neu zu shooten.“

Vivien Koitka; Chefredakteurin mein ZauberTopf (Bild: falkemedia)

www.zaubertopf.de/rezepte

Eine Frage der Sicherheit

Aber was ist mit dem Datenschutz bei Referenzbildern, vor allem bei neuen Produkten, für die neue Werbebilder mithilfe der KI erstellt werden? Auf welchen Servern werden diese gesichert, wer wird sich daran bedienen, wo werden sie noch ausgespielt oder als Trainingsdaten verwendet?

Davor warnt auch Storyteller Adrian Rohnfelder: „Stellen wir uns eine große Autofirma vor, die ein neues Modell einführen möchte. Es wäre wahnsinnig, Bilder vom neuen Produkt als Referenz etwa bei Midjourney hochzuladen.

Diese landen irgendwo auf Servern in den USA, wo ganz andere Gesetze gelten. Wo sie ab dann noch zu sehen sein werden, wissen wir gar nicht.“ Bei solchen Fällen sei es besser, die komplette Bildgenerierung bei sich im Haus zu machen und die Daten auf lokalen Rechnern zu sichern.

*www.flexos.work/learn/generative-ai-top-150

**www.visualcapitalist.com/ranked-the-most-popular-ai-tools/

Recherchestand: 08.04.2024

Die 10 besten Landschaftsfotos aus unserem Fotowettbewerb 2024

Neue Landschaften gibt es kaum noch zu entdecken – neue spannende Perspektiven auf bekannte Motive schon. Das zeigen die besten Bilder aus... mehr

Status Quo in der Welt der KI-Bildgenerierung: schneller zum Bildergebnis

KI-Bildgenerierung 2024: Status Quo

Ständig erweitert

Schneller zum Bildergebnis

Eine Frage der Sicherheit

Die 10 besten Landschaftsfotos aus unserem Fotowettbewerb 2024

Mehr zum Thema