Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden
Mithilfe eines KI-Modells können Bilder sehr stark komprimiert werden. Derartige Verfahren sind aber nicht verlustfrei und es gibt keine Garantie, dass sich keine Verfälschungen ergeben.
Um sowohl den Transport als auch die Speicherung effizienter zu gestalten, stehen für Bilder längst zahlreiche Kompressionsformate zur Verfügung. Dadurch kann die benötigte Datenmenge teils drastisch reduziert werden, ohne den Inhalt zu stark unkenntlich zu machen oder gar zu verfälschen. Bislang werden diese Kompressionsformate allerdings von Hand entwickelt. Doch auch in diesem Segment gibt es Bestrebungen, KI einzusetzen. Einen entsprechenden Ansatz beschreibt aktuell ein auf Arxiv veröffentlichtes Paper, das von Mitarbeitern des chinesischen Internet-Konzerns Bytedance (Tiktok) unter Mitwirkung der TU München geschrieben wurde.
Starke Kompression - mit einem Problem
Darin wird beschrieben, wie ein KI-Modell auf Basis von Transformern, die zahlreiche moderne KI-Anwendungen ermöglichen, zur Kompression verwendet werden kann. Demnach gelingt es, mit einem entwickelten Modell namens Titok (Transformer-based 1-Dimensional Tokenizer) Bilder mit sehr geringem Datenaufwand weitgehend originalgetreu darzustellen. Dabei wird die gesamte Datei mithilfe von 307 Millionen Parametern in einige, wenige Tokens umgewandelt, aus denen anschließend wieder ein Bild generiert wird. Dadurch müssen also nur die Werte der Tokens gespeichert werden.
Quelle: yucornetto.github.io
Die Ergebnisse ähneln zwar dem Originalbild, es gibt aber teils deutliche Unterschiede.
Bereits 32 Tokens mit je 10 Bit sollen Bilder mit einer Auflösung von 256 x 256 Pixeln dabei passabel darstellen können. Für höhere Auflösungen oder Qualitätsstufen sind zwar natürlich mehr Tokens notwendig - bei 512 x 512 Pixeln etwa 64 Tokens mit je 12 Bit. Im Vergleich zur Größe der (komprimierten) Originalbilder ist die Einsparung aber trotzdem deutlich.
Dass ein solches Projekt von Bytedance stammt, ist dabei durchaus passend. Schließlich produziert Tiktok unglaubliche Datenmengen und jede Reduktion könnte zu deutlichen Einsparungen führen. Die aktuelle KI-Datenkompression hat aber auch Probleme. Denn der aktuelle Ansatz wurde (noch) nicht mit Videos getestet. Zudem dürfte er vergleichsweise viel Rechenleistung benötigen.
Auch interessant: Zu mächtig dank KI-Boom: Nvidia, Microsoft und OpenAI droht Ungemach von US-Behörden
Außerdem kann das aus den Tokens erzeugte Bild trotzdem deutlich von der Originalaufnahme abweichen. Das könnte teils zu drastischen Problemen führen, wie sie früher etwa mit einer Xerox-Implementierung des JBIG2-Kompressionsformats auftraten. Dadurch wurden bei gescannten PDF-Dateien Zahlen und Buchstaben vertauscht und damit Daten verfälscht. Ähnliche Probleme wären auch bei der KI-Kompression denkbar. "Normale" Kompressionsalgorithmen neigen hingegen eher dazu, Daten einfach nur unkenntlich zu machen.
Was halten Sie von der neuen KI-Kompression? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Zum Kommentieren müssten Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie über eine Registrierung nachdenken, die viele Vorteile mit sich bringt. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln.

64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.
(Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)
Das Bild habe ich mal ausprobiert.
x4:
[Ins Forum, um diesen Inhalt zu sehen]
Dieses nochmal x4:
[Ins Forum, um diesen Inhalt zu sehen]
Die Modell-Dateien:
[Ins Forum, um diesen Inhalt zu sehen]
"Das gesamte im Internet verfügbare Wissen ist in ChatGPT durch seine 175 Milliarden Parameter enthalten."
[Ins Forum, um diesen Inhalt zu sehen]
64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.
(Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)
Solches Wissen ist für Kompression nicht erforderlich, nehme ich mal an. Warten wir es also ab.