Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden

20
News Valentin Sattler Als bevorzugte Quelle auf Google hinzufügen
Extreme KI-Kompression: Bilder können mit nur wenigen Bytes gespeichert werden
Quelle: Foto von Hitesh Choudhary auf Unsplash

Mithilfe eines KI-Modells können Bilder sehr stark komprimiert werden. Derartige Verfahren sind aber nicht verlustfrei und es gibt keine Garantie, dass sich keine Verfälschungen ergeben.

Um sowohl den Transport als auch die Speicherung effizienter zu gestalten, stehen für Bilder längst zahlreiche Kompressionsformate zur Verfügung. Dadurch kann die benötigte Datenmenge teils drastisch reduziert werden, ohne den Inhalt zu stark unkenntlich zu machen oder gar zu verfälschen. Bislang werden diese Kompressionsformate allerdings von Hand entwickelt. Doch auch in diesem Segment gibt es Bestrebungen, KI einzusetzen. Einen entsprechenden Ansatz beschreibt aktuell ein auf Arxiv veröffentlichtes Paper, das von Mitarbeitern des chinesischen Internet-Konzerns Bytedance (Tiktok) unter Mitwirkung der TU München geschrieben wurde.

Starke Kompression - mit einem Problem

Darin wird beschrieben, wie ein KI-Modell auf Basis von Transformern, die zahlreiche moderne KI-Anwendungen ermöglichen, zur Kompression verwendet werden kann. Demnach gelingt es, mit einem entwickelten Modell namens Titok (Transformer-based 1-Dimensional Tokenizer) Bilder mit sehr geringem Datenaufwand weitgehend originalgetreu darzustellen. Dabei wird die gesamte Datei mithilfe von 307 Millionen Parametern in einige, wenige Tokens umgewandelt, aus denen anschließend wieder ein Bild generiert wird. Dadurch müssen also nur die Werte der Tokens gespeichert werden.

Die Ergebnisse ähneln zwar dem Originalbild, es gibt aber teils deutliche Unterschiede. Quelle: yucornetto.github.io Die Ergebnisse ähneln zwar dem Originalbild, es gibt aber teils deutliche Unterschiede. Bereits 32 Tokens mit je 10 Bit sollen Bilder mit einer Auflösung von 256 x 256 Pixeln dabei passabel darstellen können. Für höhere Auflösungen oder Qualitätsstufen sind zwar natürlich mehr Tokens notwendig - bei 512 x 512 Pixeln etwa 64 Tokens mit je 12 Bit. Im Vergleich zur Größe der (komprimierten) Originalbilder ist die Einsparung aber trotzdem deutlich.

Dass ein solches Projekt von Bytedance stammt, ist dabei durchaus passend. Schließlich produziert Tiktok unglaubliche Datenmengen und jede Reduktion könnte zu deutlichen Einsparungen führen. Die aktuelle KI-Datenkompression hat aber auch Probleme. Denn der aktuelle Ansatz wurde (noch) nicht mit Videos getestet. Zudem dürfte er vergleichsweise viel Rechenleistung benötigen.

Auch interessant: Zu mächtig dank KI-Boom: Nvidia, Microsoft und OpenAI droht Ungemach von US-Behörden

Außerdem kann das aus den Tokens erzeugte Bild trotzdem deutlich von der Originalaufnahme abweichen. Das könnte teils zu drastischen Problemen führen, wie sie früher etwa mit einer Xerox-Implementierung des JBIG2-Kompressionsformats auftraten. Dadurch wurden bei gescannten PDF-Dateien Zahlen und Buchstaben vertauscht und damit Daten verfälscht. Ähnliche Probleme wären auch bei der KI-Kompression denkbar. "Normale" Kompressionsalgorithmen neigen hingegen eher dazu, Daten einfach nur unkenntlich zu machen.

Was halten Sie von der neuen KI-Kompression? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Zum Kommentieren müssten Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie über eine Registrierung nachdenken, die viele Vorteile mit sich bringt. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln.

Quelle: Arxiv via Golem

20
    • Kommentare (20)

      Zur Diskussion im Forum
      • Von pestb_eule Komplett-PC-Käufer(in)
        Zitat von Olstyle
        Wenn man 4Byte pro Parameter annimmt sind das 700GB.
        So groß ist das Sprachmodell aber nicht.
      • Von pestb_eule Komplett-PC-Käufer(in)
        Zitat von Olstyle
        Wenn man 4Byte pro Parameter annimmt sind das 700GB.
        So groß ist das Sprachmodell aber nicht.
      • Von Olstyle Trockeneisprofi (m/w)
        Zitat von pestb_eule
        175 Milliarden Parameter
        Zitat von pestb_eule
        wenige GB
        Wenn man 4Byte pro Parameter annimmt sind das 700GB.
      • Von pestb_eule Komplett-PC-Käufer(in)
        Zitat von PCGH_Torsten
        Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
        64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.

        (Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)
        Aufhübschen geschieht auch, aber der Fokus liegt auf Details. Das Modell heißt Gen Detail v2.

        Das Bild habe ich mal ausprobiert.

        x4:
        [Ins Forum, um diesen Inhalt zu sehen]

        Dieses nochmal x4:
        [Ins Forum, um diesen Inhalt zu sehen]

        Die Modell-Dateien:
        [Ins Forum, um diesen Inhalt zu sehen]

        Zitat von PCGH_Torsten
        Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
        Es handelt sich um 45 TB reinen Text, der in wenige GB große Sprachmodelle integriert wurde. Hinzu kommen noch diverse Konversationen.

        "Das gesamte im Internet verfügbare Wissen ist in ChatGPT durch seine 175 Milliarden Parameter enthalten."
        [Ins Forum, um diesen Inhalt zu sehen]
      • Von RyzA Flüssigstickstoff-Guru (m/w)
        Zitat von Incredible Alk
        Einfach weil die Leute keine Notwendigkeit haben umzusteigen und die uralten Formate den Vorteil haben auf jeder ähnlich alten Kartoffel abspielbar zu sein.
        Letzteres ist wohl der Hauptgrund.
      • Von PCGH_Torsten Kokü-Junkie (m/w)
        Zitat von pestb_eule
        Ich experimentiere gerade mit dem Programm Winxvideo AI, welches Super Resolution und Frame Generation anbietet. Offenbar wird für jede neue Ausgabe-Auflösung ein neues KI-Modell heruntergeladen, welches um die 20 MB groß ist. Ich krieche mit 1 bis 2 FPS herum, aber die Ergebnisse sind meist sehr beindruckend. Das Programm macht so gut wie keine Fehler.
        Das nutzt aber deutlich größere Eingangsinformationen und versucht diese nur aufzuhübschen, oder?
        64× 12 Bit Ausgangs-Tokens hier entsprechen dem Informationsgehalt eines Bilds von 8 × 8 Pixeln mit 4 Bit zudem nur 16 Helligkeitsabstufungen je Farbkanal. Daraus wird ein Bild von 256 × 256 Pixeln generiert, also 32-fache Auflösung mit vermutlich den üblichen 256 Abstufungen. Das eine größere Spanne als Upscaling von einem Game Boy Color auf 4K Dolby-Vision-HDR. Wenn du mir eine KI zeigst, die das Artefakt frei hinbekommt, bin ich schwer beeindruckt.

        (Natürliche Gameboy-Color-Inhalte gab es natürlich nicht, aber hier mal eine Komposition aus Bildern der zugehörigen Kamera. Die Auflösung kommt hin, Farbtiefe ist noch einen Tick schlechter, aber ich denke das macht bei DEM Abstand zu 4K keinen entscheidenden Unterschied: https://en.wikipedia.org/...)

        Zitat von pestb_eule
        Es ist nicht gesagt, daß die Modelldatei so groß werden muß. Die großen Sprachmodelle enthalten in Form von Tokens das gesammelte Wissen der Menschheit. Deswegen können sie dir zu allen möglichen Themen eine (meist) realitätsnahe Antwort geben.
        Solches Wissen ist für Kompression nicht erforderlich, nehme ich mal an. Warten wir es also ab.
        Eine universelle Bildkompression müsste die gesammelten Anblicke des Universums und zusätzlich noch des menschlichen Erfindungsgeists beinhalten. Dagegen ist eine eingeschränkte Auswahl von Online zugänglichen Texten eher wenig.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk