Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden

News 24.06.2024 um 10:15 Uhr Valentin Sattler Als bevorzugte Quelle auf Google hinzufügen

Quelle: Foto von Hitesh Choudhary auf Unsplash

Mithilfe eines KI-Modells können Bilder sehr stark komprimiert werden. Derartige Verfahren sind aber nicht verlustfrei und es gibt keine Garantie, dass sich keine Verfälschungen ergeben.

Um sowohl den Transport als auch die Speicherung effizienter zu gestalten, stehen für Bilder längst zahlreiche Kompressionsformate zur Verfügung. Dadurch kann die benötigte Datenmenge teils drastisch reduziert werden, ohne den Inhalt zu stark unkenntlich zu machen oder gar zu verfälschen. Bislang werden diese Kompressionsformate allerdings von Hand entwickelt. Doch auch in diesem Segment gibt es Bestrebungen, KI einzusetzen. Einen entsprechenden Ansatz beschreibt aktuell ein auf Arxiv veröffentlichtes Paper, das von Mitarbeitern des chinesischen Internet-Konzerns Bytedance (Tiktok) unter Mitwirkung der TU München geschrieben wurde.

Starke Kompression - mit einem Problem

Darin wird beschrieben, wie ein KI-Modell auf Basis von Transformern, die zahlreiche moderne KI-Anwendungen ermöglichen, zur Kompression verwendet werden kann. Demnach gelingt es, mit einem entwickelten Modell namens Titok (Transformer-based 1-Dimensional Tokenizer) Bilder mit sehr geringem Datenaufwand weitgehend originalgetreu darzustellen. Dabei wird die gesamte Datei mithilfe von 307 Millionen Parametern in einige, wenige Tokens umgewandelt, aus denen anschließend wieder ein Bild generiert wird. Dadurch müssen also nur die Werte der Tokens gespeichert werden.

Quelle: yucornetto.github.io Die Ergebnisse ähneln zwar dem Originalbild, es gibt aber teils deutliche Unterschiede. Bereits 32 Tokens mit je 10 Bit sollen Bilder mit einer Auflösung von 256 x 256 Pixeln dabei passabel darstellen können. Für höhere Auflösungen oder Qualitätsstufen sind zwar natürlich mehr Tokens notwendig - bei 512 x 512 Pixeln etwa 64 Tokens mit je 12 Bit. Im Vergleich zur Größe der (komprimierten) Originalbilder ist die Einsparung aber trotzdem deutlich.

Dass ein solches Projekt von Bytedance stammt, ist dabei durchaus passend. Schließlich produziert Tiktok unglaubliche Datenmengen und jede Reduktion könnte zu deutlichen Einsparungen führen. Die aktuelle KI-Datenkompression hat aber auch Probleme. Denn der aktuelle Ansatz wurde (noch) nicht mit Videos getestet. Zudem dürfte er vergleichsweise viel Rechenleistung benötigen.

Auch interessant: Zu mächtig dank KI-Boom: Nvidia, Microsoft und OpenAI droht Ungemach von US-Behörden

Außerdem kann das aus den Tokens erzeugte Bild trotzdem deutlich von der Originalaufnahme abweichen. Das könnte teils zu drastischen Problemen führen, wie sie früher etwa mit einer Xerox-Implementierung des JBIG2-Kompressionsformats auftraten. Dadurch wurden bei gescannten PDF-Dateien Zahlen und Buchstaben vertauscht und damit Daten verfälscht. Ähnliche Probleme wären auch bei der KI-Kompression denkbar. "Normale" Kompressionsalgorithmen neigen hingegen eher dazu, Daten einfach nur unkenntlich zu machen.

Was halten Sie von der neuen KI-Kompression? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Zum Kommentieren müssten Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie über eine Registrierung nachdenken, die viele Vorteile mit sich bringt. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln.

Quelle: Arxiv via Golem

Artikel teilen

Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden Mithilfe eines KI-Modells können Bilder sehr stark komprimiert werden. Derartige Verfahren sind aber nicht verlustfrei und es gibt keine Garantie, dass sich keine Verfälschungen ergeben.

Per E-Mail versenden

- Kommentare (20)
  Zur Diskussion im Forum
  
  Von pestb_eule Komplett-PC-Käufer(in)
  
  Zitat von Olstyle
  
  Wenn man 4Byte pro Parameter annimmt sind das 700GB.
  
  So groß ist das Sprachmodell aber nicht.
  
  Zitieren
  
  Von pestb_eule Komplett-PC-Käufer(in)
  
  Zitat von Olstyle
  
  Wenn man 4Byte pro Parameter annimmt sind das 700GB.
  
  So groß ist das Sprachmodell aber nicht.
  
  Zitieren
  
  Von Olstyle Trockeneisprofi (m/w)
  
  Zitat von pestb_eule
  
  175 Milliarden Parameter
  
  Zitat von pestb_eule
  
  wenige GB
  
  Wenn man 4Byte pro Parameter annimmt sind das 700GB.
  
  Zitieren
  
  Von pestb_eule Komplett-PC-Käufer(in)
  
  Zitat von PCGH_Torsten
  
  Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
  64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.
  
  (Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)
  
  Aufhübschen geschieht auch, aber der Fokus liegt auf Details. Das Modell heißt Gen Detail v2.
  
  Das Bild habe ich mal ausprobiert.
  
  x4:
  [Ins Forum, um diesen Inhalt zu sehen]
  
  Dieses nochmal x4:
  [Ins Forum, um diesen Inhalt zu sehen]
  
  Die Modell-Dateien:
  [Ins Forum, um diesen Inhalt zu sehen]
  
  Zitat von PCGH_Torsten
  
  Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
  
  Es handelt sich um 45 TB reinen Text, der in wenige GB große Sprachmodelle integriert wurde. Hinzu kommen noch diverse Konversationen.
  
  "Das gesamte im Internet verfügbare Wissen ist in ChatGPT durch seine 175 Milliarden Parameter enthalten."
  [Ins Forum, um diesen Inhalt zu sehen]
  
  Zitieren
  
  Von RyzA Flüssigstickstoff-Guru (m/w)
  
  Zitat von Incredible Alk
  
  Einfach weil die Leute keine Notwendigkeit haben umzusteigen und die uralten Formate den Vorteil haben auf jeder ähnlich alten Kartoffel abspielbar zu sein.
  
  Letzteres ist wohl der Hauptgrund.
  
  Zitieren
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Zitat von pestb_eule
  
  Ich experimentiere gerade mit dem Programm Winxvideo AI, welches Super Resolution und Frame Generation anbietet. Offenbar wird für jede neue Ausgabe-Auflösung ein neues KI-Modell heruntergeladen, welches um die 20 MB groß ist. Ich krieche mit 1 bis 2 FPS herum, aber die Ergebnisse sind meist sehr beindruckend. Das Programm macht so gut wie keine Fehler.
  
  Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
  64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.
  
  (Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)
  
  Zitat von pestb_eule
  
  Es ist nicht gesagt, daß die Modelldatei so groß werden muß. Die großen Sprachmodelle enthalten in Form von Tokens das gesammelte Wissen der Menschheit. Deswegen können sie dir zu allen möglichen Themen eine (meist) realitätsnahe Antwort geben.
  Solches Wissen ist für Kompression nicht erforderlich, nehme ich mal an. Warten wir es also ab.
  
  Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
  
  Zitieren
  
  Direkt zum Diskussionsende

Hoch

Print / Abo

Apps

Die Redaktion Datenschutz Artikel-Archiv Datenschutz-Optionen Mediadaten Impressum Utiq verwalten Abo kündigen Vertrag widerrufen AGB Inhalt melden Newsletter

Starke Kompression - mit einem Problem

Artikel teilen

Kommentare (20)