Inhaltsverzeichnis
Einführung
Die Welt der KI-gestützten Kunst eröffnet dir unendliche kreative Möglichkeiten, und ein Tool, das in dieser Hinsicht besonders heraussticht, ist Stable Diffusion. In diesem Beitrag zeige ich dir, wie du mit verschiedenen Stable Diffusion Models unterschiedliche Bildstile kreieren kannst. Falls du noch nicht mit den Grundlagen vertraut bist, schau dir zuerst meinen früheren Artikel Stable Diffusion: Der ultimative Guide für Anfänger an. Dort findest du eine umfassende Einführung in die Welt der KI-gestützten Bildgenerierung.
In diesem Artikel erkunden wir die vielfältigen Möglichkeiten verschiedener Stable Diffusion Models und zeigen dir, wie du den Stil deiner Bilder mit LORAs (Local Rank Aware Random Sampling) noch weiter verfeinern kannst. Unser Ziel ist es, dir eine einfache und verständliche Anleitung an die Hand zu geben, damit du deine kreativen Visionen Wirklichkeit werden lassen kannst.
Falls du Inspirationen für Prompts benötigst, dann kann ich die meine Facebook Gruppe AI Art Prompts empfehlen. Hier können die Mitglieder Bilder mit den dazugehörigen Prompts teilen.
Grundlagen von Stable Diffusion
Bevor du in die faszinierende Welt der KI-gestützten Bildgenerierung eintauchst, ist es wichtig, ein grundlegendes Verständnis von Stable Diffusion zu haben. Stable Diffusion ist ein leistungsstarkes Tool, das künstliche Intelligenz nutzt, um aus Textbeschreibungen (Prompts) beeindruckende Bilder zu erstellen. Es verwendet Modelle, die auf riesigen Datenmengen trainiert wurden, um eine Vielzahl von Bildstilen zu generieren – von realistischen Porträts bis hin zu abstrakten Kunstwerken.
Die Magie der Modellauswahl
Das Herzstück von Stable Diffusion sind die verschiedenen Modelle, die du verwenden kannst. Jedes Modell wurde speziell trainiert, um bestimmte Arten von Bildern zu erstellen. Einige Modelle sind beispielsweise darauf spezialisiert, fotorealistische Bilder zu erzeugen, während andere eher abstrakte oder cartoonartige Stile bevorzugen. Die Wahl des richtigen Modells ist entscheidend für das Ergebnis deines Kunstwerks.
Ich verwende als Software für Stable Diffusion AUTOMATIC1111 und wenn du ein Modell (Checkpoint) herunterlädst, dann kommt das in den Ordner \stable-diffusion-webui\models\Stable-diffusion
dann erkennt AUTOMATIC1111 die Modelle. AUTOMATIC1111 ist ein sehr vielfältiges Programm und ermöglicht eine sehr tiefe Anpassung von allen Möglichen Einstellung im Vergleich zu NMKD, was wesentlich einfacher gestaltet ist, aber auch einfacher zum installieren.
Hier findest du auch keine Installationsanleitung für AUTOMATIC1111, dafür gibt es viele gute Anleitungen auf YouTube, hier geht es nur um die verschiedenen Modelle.
Praktisches Beispiel: Erstellung eines Porträts
Lass uns das an einem Beispiel durchgehen. Hier sind die Metadaten für AUTOMATIC1111, die ich für das Porträt verwendet habe:
- Prompt:
portrait of a beautiful woman, best quality, high detailed, masterpiece, 1girl, green eyes, orange hair, bangs, upper body, sweater, white collared shirt, cute, smirk, award-winning, highres, extremely detailed, 8k photo, best quality, intricate details, realistic, gorgeous, hyperdetailed, grainy, high quality, (((professional))), canon 5d
- Negativer Prompt:
easynegative
- Schritte: 40
- Sampler: Euler a
- CFG-Skala: 7
- Seed: -1 (also zufällig)
Mit diesen Einstellungen kannst du ein detailliertes und realistisches Porträt einer Frau mit grünen Augen und orangefarbenem Haar erstellen. Die Qualität des Bildes wird durch die hohe Auflösung (8K) und die detaillierten Angaben im Prompt, wie „high detailed“ und „hyperdetailed“, verstärkt.
Für den negativen Prompt verwende ich das Embedding EasyNegative, das kannst du hier herunterladen: huggingface.co/datasets/gsdf/EasyNegative
Speichere die Datei EasyNegative.safetensors
in den Ordner \stable-diffusion-webui\embeddings
, dann verwende im Negativen Prompt-Eingabefeld einfach das Wort: easynegative
In den folgenden Beispielen lasse ich den oben genannten Prompt und die Einstellungen von AUTOMATIC1111 gleich, ich verwende nur jeweils ein anderes Modell.
Stable Diffusion Version 1.5:
Das Basismodell von Stable Diffusion 1.5 bildet das Herzstück der KI-gestützten Bildgenerierung. Diese Version dient als robuste Grundlage für die spezialisierten Modelle und bietet eine umfassende Palette an generativen Fähigkeiten. Sie ist ideal für eine Vielzahl von Bildstilen und bietet dank ihres umfangreichen Trainings auf diversen Datensätzen eine hohe Flexibilität und Qualität in der Bildproduktion. Ob realistische Porträts, abstrakte Kunstwerke oder alles dazwischen – die Stable Diffusion 1.5 ist die Basis, auf der spezialisierte Modelle aufbauen, um noch spezifischere Stile und Effekte zu erzeugen.
Ich empfehle die eher spezialisierten Modelle zu verwenden und nur wenn man ein eigenes Modell trainieren will sollte diese Version verwendet werden.
Stable Diffusion Version 2.1
Stable Diffusion 2.1 ist zwar eine Weiterentwicklung, erzeugt aber aus meiner Erfahrung wesentlich schlechtere Ergebnisse. Wie man hier sieht, absolut unbrauchbar.
Realistic Vision
Hier habe ich Realistiv Vision in der Version 5.1 verwendet, das ist eines meiner Lieblingsmodellen, da es sehr gute Ergebnisse liefert.
Analog Madness – Realistic model
Auch ein sehr gutes Modell für realistische Bilder die eine Anmutung von analoger Fotografie haben. Hier habe ich Analog Madness v7 verwendet.
Dieses Modell zeichnet sich durch seine Vielseitigkeit aus. Je stärker und präziser die Prompts formuliert werden, desto beeindruckender sind die Ergebnisse. Es ist in der Lage, sowohl NSFW- als auch SFW-Bilder zu erstellen und überzeugt ebenso mit eindrucksvollen Landschafts- und Porträtdarstellungen.
XtReMiX UltiMate Merge
Dieses Modell erzeugt auch sehr gute Ergebnisse wenn es um Realismus geht, hier habe ich XtReMiX UltiMate Merge v1.8 verwendet.
DreamShaper
DreamShaper (ich habe DreamShaper v8 verwendet) begann als eine Alternative zu MidJourney in der Open-Source-Welt. Die geschlossene Natur und eingeschränkte Nutzerfreiheit von MidJourney im Vergleich zu Stable Diffusion waren ausschlaggebende Gründe für die Entwicklung von DreamShaper. Ziel war es, „ein besseres Stable Diffusion“ zu schaffen – ein Modell, das eigenständig alles erledigen kann und Träume webt. DreamShaper steht für Freiheit und Flexibilität in der KI-gestützten Bildgenerierung. Mit Werkzeugen von TIs über LoRA bis hin zu ControlNet und Latent Couple eröffnet DreamShaper ungeahnte Möglichkeiten. Es symbolisiert das Streben nach einem umfassenden Modell, das jede kreative Herausforderung meistern kann.
Art Universe
Art Universe v8 wie es hier verwendet wurde ist für Cartoon und Comic Bildstile trainiert worden.
Disney Pixar Cartoon Type A
Dieses Modell ist den 3D Disney und Pixar Figuren nachempfunden, hier habe ich Disney Pixar Cartoon Type A v1.0 verwendet.
RealCartoon3D
Wie der Name schon verrät ist dieses Modell Speziell für Cartoon mit etwas mehr Realismus, hier verwende ich RealCartoon3D v13.
Toon Babes
Toon Babes v1.0 wurde hier verwendet, erzeugt einen Cartoon-Artigen Stil.
AniVerse
AniVerse (v1.6 wurde hier verwendet) erzeugt auch einen Animation und Cartoon Stil.
Feinabstimmung mit Prompts
Die Kunst, ein perfektes Bild mit Stable Diffusion zu erzeugen, liegt oft in der Feinabstimmung deines Prompts. Ein gut formulierter Prompt hilft der KI, genau das Bild zu erzeugen, das du im Kopf hast. Es ist eine Balance aus präzisen Beschreibungen (positiver Prompt) und dem Ausschluss unerwünschter Elemente (negativer Prompt).
Wenn du einen Assistenten zum erstellen von Prompts willst, dann gibt es von Civitai einen eigenen PromptBot GPT, dieser hilft dir bei der Prompt Erzeugung und erstellt dir fertige Prompts für Stable Diffusion. Im GPT Store findest du auch noch viele weitere Prompt-Erstellungs-GPTs.
Anpassung des Stils mit LORAs
Nachdem du ein Grundverständnis für die Arbeit mit Stable Diffusion und die Bedeutung von Prompts hast, ist es an der Zeit, einen Schritt weiterzugehen. Hier kommen LORAs (Local Rank Aware Random Sampling) ins Spiel. LORAs sind fortschrittliche Werkzeuge, die dir eine noch feinere Kontrolle über den generierten Bildstil ermöglichen.
Was sind LORAs?
LORAs sind spezielle Algorithmen, die innerhalb von Stable Diffusion verwendet werden, um bestimmte Aspekte des Bildes gezielter zu beeinflussen. Stell dir vor, du möchtest den Hintergrund eines Porträts abstrakter gestalten, während das Gesicht realistisch bleibt. Mit LORAs kannst du genau das erreichen, indem du die Art und Weise anpasst, wie die KI die Informationen aus deinem Prompt interpretiert.
Wie funktionieren LORAs?
LORAs arbeiten, indem sie die Gewichtung bestimmter Merkmale in deinem Bild erhöhen oder verringern. Du kannst sie so einstellen, dass sie bestimmte Stilelemente, Farbschemata oder Texturen hervorheben oder abschwächen. Dies ermöglicht eine unglaubliche Vielfalt und Präzision in der Bildgestaltung, die weit über das hinausgeht, was mit herkömmlichen Methoden möglich wäre.
Praktische Anwendung
Um LORAs zu verwenden, musst du zunächst das gewünschte Modell in Stable Diffusion auswählen und dann die spezifischen Einstellungen anpassen, die du ändern möchtest. Experimentiere mit verschiedenen Einstellungen, um zu sehen, wie sie den Stil und die Atmosphäre deines Bildes verändern. Es kann ein wenig Übung erfordern, aber die Ergebnisse sind es wert!
Hier habe ich das LORA CinematicStyleV1 verwendet, wenn du ein LORA herunterlädst, dann speichere dieses in \stable-diffusion-webui\models\Lora
nur dann wird es von AUTOMATIC1111 richtig erkannt.
Ich habe hier das Analog Madness Modell mit dem selben Prompt verwendet aber mit dem Zusatz <lora:CineStyle5:0.5>
.
Hier ist der gesamte Prompt:
portrait of a beautiful woman, best quality, high detailed, masterpiece, 1girl, green eyes, orange hair, bangs, upper body, sweater, white collared shirt, cute, smirk, award-winning, highres, extremely detailed, 8k photo, best quality, intricate details, realistic, gorgeous, hyperdetailed, grainy, high quality, (((professional))), canon 5d, <lora:CineStyle5:0.5>
Im zweiten Vergleich habe ich <lora:CineStyle5:1>
verwendet und wie du siehst kann man mit der Zahl am Ende nach dem Doppelpunkt die Stärke des LORA einstellen zwischen 0 und 1.
Du kannst auch mehrere LORAs in deinem Prompt verwenden und genau diese Flexibilität und der die kleine Dateigröße im Vergleich zu ganzen Modellen macht LORAs so gut, da sie unabhängig mit allen möglichen Modellen zusammenspielen und zusätzlich den Stil verändern können.
Ressourcen und Downloads
Zum Schluss ist es wichtig zu wissen, wo du Stable Diffusion Models und LORAs herunterladen kannst. Viele Modelle und Tools sind online verfügbar und können einfach in deine Stable Diffusion-Umgebung integriert werden. Hier sind einige Ressourcen, die dir den Einstieg erleichtern:
- AUTOMATIC1111, eine Software um Stable Diffusion zu verwenden.
- Civitai, eine Plattform mit Modellen, LORAs und vielem mehr, als Benutzer kann man auch generierte Bilder hochladen und andere können dann deinen Prompt und den anderen Metadaten sehen.
- Hugging Face, eine Plattform für alle möglichen KI-Modellen, nicht nur „Text-to-Image“ Modelle.
- PromptHero, hier gibt es Modelle zum herunterladen sowie Bilder mit den verwendeten Prompts und Metadaten nicht nur für Stable Diffusion, sondern auch für Midjourney, ChatGPT oder DALL-E.
- AI Art Prompts, meine Facebook Gruppe, hier können die Mitglieder Bilder mit den dazugehörigen Prompts teilen.
- PromptBot, ein GPT von Civitai um Prompts für Stable Diffusion zu generieren.
Mit diesen Links bekommt man schon so gut wie alles was man für Stable Diffusion benötigt.
Hier nochmal die Pfade für AUTOMATIC1111 in welche du die Modelle, LORAs usw. speicherst, eine detaillierte Anleitung findest du hier: github.com/civitai/civitai/wiki/How-to-use-models
- Modell (Checkpoint):
\stable-diffusion-webui\models\Stable-diffusion
- LORA:
\stable-diffusion-webui\models\Lora
- Embedding (Textual Inversion):
\stable-diffusion-webui\embeddings