Reddit sperrt Internet Archive wegen KI-Crawlern aus
Reddit möchte seine Webseiten nicht länger vom Internet Archive indexieren lassen, da KI-Unternehmen die Daten unerlaubt für sich nutzen sollen.
In der Debatte um die freie Verwendung von Web-Inhalten durch KI hat die bekannte Social- und News-Aggregator-Plattform Reddit angekündigt, sich nicht mehr umfangreich von der sogenannten Wayback Machine des Internet Archive erfassen lassen zu wollen. Als Grund wird angegeben, dass man KI-Unternehmen dabei erwischt habe, wie sie Reddit-Daten von dort kopiert haben, wie The Verge berichtet.
Die Wayback Machine soll dann ihrerseits nicht mehr in der Lage sein, Detailseiten von Beiträgen, Kommentare oder Profile zu erfassen und festzuhalten, sondern nur noch die Homepage von Reddit.com indexieren zu können. Das führt dazu, dass das Internet Archive nur noch Einblicke in die beliebtesten Schlagzeilen und Beiträge eines bestimmten Tages auf der Hauptseite archivieren kann, so der Bericht.
"Das Internet Archive bietet einen Dienst für das offene Web an, aber wir wurden auf Fälle aufmerksam gemacht, in denen KI-Unternehmen gegen Plattformrichtlinien, einschließlich unserer eigenen, verstoßen und Daten aus der Wayback Machine scrapen", erklärte Sprecher Tim Rathschmidt gegenüber The Verge. "Bis sie in der Lage sind, ihre Webseite zu verteidigen und die Richtlinien der Plattform einzuhalten (z. B. die Privatsphäre der Nutzer zu respektieren, d. h. entfernte Inhalte zu löschen), beschränken wir ihren Zugriff auf Reddit-Daten, um die Redditoren zu schützen", so Rathschmidt.
Reddit will Daten für KI lieber verkaufen
"Wir haben eine langjährige Beziehung zu Reddit und führen weiterhin Gespräche über diese Angelegenheit", sagt Mark Graham, Direktor der Wayback Machine, in einer Erklärung gegenüber The Verge. Die Mission des Internet Archive ist es bekanntlich, ein digitales Archiv von Webseiten im Internet zu führen und sie mit der Wayback Machine so anzeigen zu können, wie sie zu bestimmten Zeitpunkten erschienen sind.
Vor dem Inkrafttreten der Reddit-Beschränkungen am 11. August habe man laut Rathschmidt "im Voraus" Kontakt zum Internet Archive aufgenommen, um "es über die Beschränkungen zu informieren, bevor sie in Kraft treten". Er sagt, Reddit habe in der Vergangenheit auch "Bedenken" hinsichtlich der Möglichkeit geäußert, Inhalte aus dem Internet Archive zu scrapen.
Reddit hat dem Bericht nach zwar in jüngster Zeit den Zugriff auf Scraper-Tools gesperrt, sei aber bereit, Daten zur Verfügung zu stellen, wenn Unternehmen dafür bezahlen. So schloss die Plattform etwa Anfang des Jahres einen Vertrag mit Google über Google-Such- sowie KI-Trainingsdaten ab und schloss auch einen KI-Vertrag mit OpenAI. Unterdessen wurde mit Anthropic auch bereits ein großer KI-Anbieter wegen der Verwendung von Daten verklagt.
Ihre Meinung ist gefragt!
Was sagen Sie zu dem Thema? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte (oftmals gewürzt mit einer Prise Humor) finden Sie bei Youtube, Instagram und Tiktok.

Traurig, aber ist wohl der Lauf der Dinge.
Am Ende wird die Firma dann noch als Einhorn gelobt.
User generieren Daten, Reddit verkauft Userdaten und verklagt Firmen welche die Daten der User (welche öffentlich einsehbar und garantiert nicht unter Copyright von Reddit sind) verwendet...
Nicht mal bezahlte Moderatoren braucht man, die Ehrenamtler sind von den bloßen Dopaminkicks abhängig genug, dass sie niemals geschlossen rebellieren würden, zumindest nicht länger als 48 Stunden mit Vorankündigung. Und wenn sie dann noch mucken, droht man einfach damit, ihnen ihre Mod-Privilegien zu entziehen – spätestens dann ziehen sie verlässlich den Schwanz ein.
Es geht darum, das die KIs viel Traffic erzeugen, welcher Geld kostet.
Nutzer tragen zu Reddit bei und suchen dort Werbung, also generieren Geld. Das macht eine KI-Crawler nicht.
Da es nicht IHR Crawler ist, warum sollte man die unterstützen?
Reines erzeugen von Traffic (sofern nicht böswillig aka DDOS) ist auch nicht Illegal und würde daher auch keinen Klagegrund bieten.
User generieren Daten, Reddit verkauft Userdaten und verklagt Firmen welche die Daten der User (welche öffentlich einsehbar und garantiert nicht unter Copyright von Reddit sind) verwendet...
Es geht darum, das die KIs viel Traffic erzeugen, welcher Geld kostet.
Nutzer tragen zu Reddit bei und suchen dort Werbung, also generieren Geld. Das macht eine KI-Crawler nicht.
Da es nicht IHR Crawler ist, warum sollte man die unterstützen?