Bildgenerierung: Diffusion verstehen

Nach deinem ersten Bild und der Reflexion über Stärken und Schwächen wird es Zeit für die Theorie. Wie funktioniert Bildgenerierung eigentlich? Warum sind deine Worte so entscheidend? Und warum Hände?

Das Geheimnis klingt vertraut

In K01-L03 hast du gelernt, wie Token-Vorhersage bei Text funktioniert. In K02-L03 haben wir Audio-Token-Vorhersage und Diffusion bei Musik durchgenommen. Bildgenerierung nutzt Diffusion — genau das gleiche Prinzip wie Stable Audio, nur für Pixel statt für Sound.

Wie Diffusion funktioniert

Stell dir die Analogie mit Fernsehrauschen vor:

  1. Stelle dir einen Fernseher vor, der nur Schneerauschen zeigt — reines weißes Rauschen. Jetzt stell dir vor, du könntest dieses Rauschen nach und nach "abstimmen", bis ein klares Bild erscheint. Das ist Diffusion in umgekehrter Richtung.

  2. Der echte Prozess funktioniert so: Eine KI hat gelernt, Millionen echte Fotos Schritt für Schritt mit Rauschen zu überlagern, bis nur noch Rauschen übrig ist. Dann hat sie gelernt, den Prozess umzukehren — Rauschen Schritt für Schritt zu entfernen.

  3. Deine Text-Beschreibung fungiert als der "Abstimmregler" — sie sagt der KI, welches Bild sie aus dem Rauschen extrahieren soll.

Warum deine Worte so wichtig sind: CLIP

CLIP (Contrastive Language-Image Pre-training) ist die Brücke zwischen Text und Bild. Es hat gelernt, Text-Beschreibungen mit visuellen Inhalten zu verbinden, indem es Milliarden von Bild-Text-Paaren analysiert hat.

Wenn du schreibst "ein Kater auf einem Dach bei Sonnenuntergang", erstellt CLIP einen mathematischen "Ort" für dieses Konzept. Das Diffusions-Modell generiert dann ein Bild, das diesem Ort entspricht.

Das erklärt, warum Wortwahl so wichtig ist: "professionelles Foto" vs. "Aquarellmalerei" vs. "Pixel-Art" aktivieren völlig unterschiedliche visuelle Nachbarschaften.

Es erklärt auch, warum manche Prompts besser funktionieren: KI versteht "im Stil des Art Nouveau" gut, weil dieses Konzept einen klaren Cluster hat. "Im Stil meiner Großmutter" funktioniert nicht, weil es dafür keinen Cluster gibt.

Warum Hände schwer sind

KI kennt keine Anatomie — sie kennt Muster. Gesichter sind sehr konsistent in Trainingsdaten. Aber Hände erscheinen in tausenden verschiedenen Konfigurationen — zeigend, packend, schreibend, gestikulierend.

Der "Durchschnitt" aller Hand-Positionen ist keine valide Hand. Es ist wie wenn du alle Karten von Europa mittelst — das Ergebnis zeigt verschwommene Grenzen, nicht eine echte Karte.

Das gleiche Problem betrifft Text in Bildern: KI sieht Buchstaben als visuelle Muster, nicht als Symbole mit Bedeutung.

Die drei Aufgabentypen — für Bilder

Multiplikator: Blog-Header, Social-Media-Grafiken, Präsentations-Illustrationen. Du könntest diese selbst erstellen, aber KI macht es in Sekunden.

Ermöglicher: Visualisiere etwas, das du nicht zeichnen oder fotografieren kannst. Produkt-Mockups bevor das Produkt existiert. Illustrationsstile, die du dir nicht leisten kannst.

Grenzen: Konsistente Charaktere über mehrere Bilder. Exakt brand-konforme Grafiken. Bilder, die spezifisches echtweltliches Wissen erfordern.

Was das für dich bedeutet

  • Das Verständnis von Diffusion erklärt, warum dein Bild so professionell aussah — es wurde auf professionellen Bildern trainiert.
  • Das Verständnis von CLIP erklärt, warum manche Prompts besser funktioniert haben als andere.
  • Das Verständnis der Grenzen erklärt das Finger-Problem und die Text-Issues.
  • Nächste Lektion: Wende dieses Wissen jetzt gezielt an.

Bildgenerierung nutzt Diffusion (Rauschen schrittweise entfernen) und CLIP (Text-Bild-Brücke). Das erklärt sowohl die Stärken als auch die Schwächen, die du bereits erlebt hast.

Wo AI bei Bildern stark und schwach ist
Bild mit Intention