Reddit sperrt Internet Archive wegen KI-Crawlern aus

6
News Norman Wittkopf Als bevorzugte Quelle auf Google hinzufügen
Reddit sperrt Internet Archive wegen KI-Crawlern aus
Quelle: buffed (DALL-E)

Reddit möchte seine Webseiten nicht länger vom Internet Archive indexieren lassen, da KI-Unternehmen die Daten unerlaubt für sich nutzen sollen.

In der Debatte um die freie Verwendung von Web-Inhalten durch KI hat die bekannte Social- und News-Aggregator-Plattform Reddit angekündigt, sich nicht mehr umfangreich von der sogenannten Wayback Machine des Internet Archive erfassen lassen zu wollen. Als Grund wird angegeben, dass man KI-Unternehmen dabei erwischt habe, wie sie Reddit-Daten von dort kopiert haben, wie The Verge berichtet.

Die Wayback Machine soll dann ihrerseits nicht mehr in der Lage sein, Detailseiten von Beiträgen, Kommentare oder Profile zu erfassen und festzuhalten, sondern nur noch die Homepage von Reddit.com indexieren zu können. Das führt dazu, dass das Internet Archive nur noch Einblicke in die beliebtesten Schlagzeilen und Beiträge eines bestimmten Tages auf der Hauptseite archivieren kann, so der Bericht.

"Das Internet Archive bietet einen Dienst für das offene Web an, aber wir wurden auf Fälle aufmerksam gemacht, in denen KI-Unternehmen gegen Plattformrichtlinien, einschließlich unserer eigenen, verstoßen und Daten aus der Wayback Machine scrapen", erklärte Sprecher Tim Rathschmidt gegenüber The Verge. "Bis sie in der Lage sind, ihre Webseite zu verteidigen und die Richtlinien der Plattform einzuhalten (z. B. die Privatsphäre der Nutzer zu respektieren, d. h. entfernte Inhalte zu löschen), beschränken wir ihren Zugriff auf Reddit-Daten, um die Redditoren zu schützen", so Rathschmidt.

Reddit will Daten für KI lieber verkaufen

"Wir haben eine langjährige Beziehung zu Reddit und führen weiterhin Gespräche über diese Angelegenheit", sagt Mark Graham, Direktor der Wayback Machine, in einer Erklärung gegenüber The Verge. Die Mission des Internet Archive ist es bekanntlich, ein digitales Archiv von Webseiten im Internet zu führen und sie mit der Wayback Machine so anzeigen zu können, wie sie zu bestimmten Zeitpunkten erschienen sind.

Vor dem Inkrafttreten der Reddit-Beschränkungen am 11. August habe man laut Rathschmidt "im Voraus" Kontakt zum Internet Archive aufgenommen, um "es über die Beschränkungen zu informieren, bevor sie in Kraft treten". Er sagt, Reddit habe in der Vergangenheit auch "Bedenken" hinsichtlich der Möglichkeit geäußert, Inhalte aus dem Internet Archive zu scrapen.

Reddit hat dem Bericht nach zwar in jüngster Zeit den Zugriff auf Scraper-Tools gesperrt, sei aber bereit, Daten zur Verfügung zu stellen, wenn Unternehmen dafür bezahlen. So schloss die Plattform etwa Anfang des Jahres einen Vertrag mit Google über Google-Such- sowie KI-Trainingsdaten ab und schloss auch einen KI-Vertrag mit OpenAI. Unterdessen wurde mit Anthropic auch bereits ein großer KI-Anbieter wegen der Verwendung von Daten verklagt.

Ihre Meinung ist gefragt!

Was sagen Sie zu dem Thema? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte (oftmals gewürzt mit einer Prise Humor) finden Sie bei Youtube, Instagram und Tiktok.

6
    • Kommentare (6)

      Zur Diskussion im Forum
      • Von LegacyTool Kabelverknoter(in)
        Fremden Content verkaufen, so verdient man heute im Internet Geld.
        Traurig, aber ist wohl der Lauf der Dinge.
        Am Ende wird die Firma dann noch als Einhorn gelobt.
      • Von LegacyTool Kabelverknoter(in)
        Fremden Content verkaufen, so verdient man heute im Internet Geld.
        Traurig, aber ist wohl der Lauf der Dinge.
        Am Ende wird die Firma dann noch als Einhorn gelobt.
      • Von Majima Komplett-PC-Aufrüster(in)
        Zitat von theGucky
        Es geht darum, das die KIs viel Traffic erzeugen, welcher Geld kostet.
        Wenn die Daten beim Internet Archive statt beim Original abgegriffen werden, erzeugt das keinen Traffic für Reddit. Es geht um die Daten selbst. Reddit will sich sein jüngstes Geschäftsmodell (siehe den Exklusivdeal mit Google) nicht untergraben lassen, und da ist die Kritik daran berechtigt, auf was für tönernen Füßen seine Legitimität ohnehin steht.
        Zitat von saphira33
        Das Geschäftsmodell von Reddit ist schon genial.
        User generieren Daten, Reddit verkauft Userdaten und verklagt Firmen welche die Daten der User (welche öffentlich einsehbar und garantiert nicht unter Copyright von Reddit sind) verwendet...
        Und baut eine Suchfunktion, die so beschissen ist, dass alle bei Google „problem xy reddit“ eingeben und damit den Google-Traffic und die Indexierung ganz automatisch aufbessern, so weit, dass Google von sich aus den Reddit-Datenschatz gekauft hat.

        Nicht mal bezahlte Moderatoren braucht man, die Ehrenamtler sind von den bloßen Dopaminkicks abhängig genug, dass sie niemals geschlossen rebellieren würden, zumindest nicht länger als 48 Stunden mit Vorankündigung. Und wenn sie dann noch mucken, droht man einfach damit, ihnen ihre Mod-Privilegien zu entziehen – spätestens dann ziehen sie verlässlich den Schwanz ein.
      • Von saphira33 Software-Overclocker(in)
        Zitat von theGucky
        Darum geht es ja gar nicht.
        Es geht darum, das die KIs viel Traffic erzeugen, welcher Geld kostet.
        Nutzer tragen zu Reddit bei und suchen dort Werbung, also generieren Geld. Das macht eine KI-Crawler nicht.
        Da es nicht IHR Crawler ist, warum sollte man die unterstützen?
        Die Klage gegen Anthropic ist aber spezifisch wegen der Verwendung der Daten ohne Einverständniss und nicht wegen "Erzeugen von Traffic".
        Reines erzeugen von Traffic (sofern nicht böswillig aka DDOS) ist auch nicht Illegal und würde daher auch keinen Klagegrund bieten.
      • Von theGucky Volt-Modder(in)
        Zitat von saphira33
        Das Geschäftsmodell von Reddit ist schon genial.
        User generieren Daten, Reddit verkauft Userdaten und verklagt Firmen welche die Daten der User (welche öffentlich einsehbar und garantiert nicht unter Copyright von Reddit sind) verwendet...
        Darum geht es ja gar nicht.
        Es geht darum, das die KIs viel Traffic erzeugen, welcher Geld kostet.
        Nutzer tragen zu Reddit bei und suchen dort Werbung, also generieren Geld. Das macht eine KI-Crawler nicht.
        Da es nicht IHR Crawler ist, warum sollte man die unterstützen?
      • Von Tomoyo_Chan Freizeitschrauber(in)
        Reddit wird auch jeden Tag schlechter. Nach dem IPO ging es echt ganz stark bergab. Mal schauen was die sich als nächstes einfallen lassen.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 06/2026 play5 07/2026 N-Zone 06/2026 Linux Magazin 06/2026 LinuxUser 06/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk