Reddit sperrt Internet Archive wegen KI-Crawlern aus

News 13.08.2025 um 08:01 Uhr Norman Wittkopf Als bevorzugte Quelle auf Google hinzufügen

Quelle: buffed (DALL-E)

Reddit möchte seine Webseiten nicht länger vom Internet Archive indexieren lassen, da KI-Unternehmen die Daten unerlaubt für sich nutzen sollen.

In der Debatte um die freie Verwendung von Web-Inhalten durch KI hat die bekannte Social- und News-Aggregator-Plattform Reddit angekündigt, sich nicht mehr umfangreich von der sogenannten Wayback Machine des Internet Archive erfassen lassen zu wollen. Als Grund wird angegeben, dass man KI-Unternehmen dabei erwischt habe, wie sie Reddit-Daten von dort kopiert haben, wie The Verge berichtet.

Die Wayback Machine soll dann ihrerseits nicht mehr in der Lage sein, Detailseiten von Beiträgen, Kommentare oder Profile zu erfassen und festzuhalten, sondern nur noch die Homepage von Reddit.com indexieren zu können. Das führt dazu, dass das Internet Archive nur noch Einblicke in die beliebtesten Schlagzeilen und Beiträge eines bestimmten Tages auf der Hauptseite archivieren kann, so der Bericht.

"Das Internet Archive bietet einen Dienst für das offene Web an, aber wir wurden auf Fälle aufmerksam gemacht, in denen KI-Unternehmen gegen Plattformrichtlinien, einschließlich unserer eigenen, verstoßen und Daten aus der Wayback Machine scrapen", erklärte Sprecher Tim Rathschmidt gegenüber The Verge. "Bis sie in der Lage sind, ihre Webseite zu verteidigen und die Richtlinien der Plattform einzuhalten (z. B. die Privatsphäre der Nutzer zu respektieren, d. h. entfernte Inhalte zu löschen), beschränken wir ihren Zugriff auf Reddit-Daten, um die Redditoren zu schützen", so Rathschmidt.

Reddit will Daten für KI lieber verkaufen

"Wir haben eine langjährige Beziehung zu Reddit und führen weiterhin Gespräche über diese Angelegenheit", sagt Mark Graham, Direktor der Wayback Machine, in einer Erklärung gegenüber The Verge. Die Mission des Internet Archive ist es bekanntlich, ein digitales Archiv von Webseiten im Internet zu führen und sie mit der Wayback Machine so anzeigen zu können, wie sie zu bestimmten Zeitpunkten erschienen sind.

Vor dem Inkrafttreten der Reddit-Beschränkungen am 11. August habe man laut Rathschmidt "im Voraus" Kontakt zum Internet Archive aufgenommen, um "es über die Beschränkungen zu informieren, bevor sie in Kraft treten". Er sagt, Reddit habe in der Vergangenheit auch "Bedenken" hinsichtlich der Möglichkeit geäußert, Inhalte aus dem Internet Archive zu scrapen.

Reddit hat dem Bericht nach zwar in jüngster Zeit den Zugriff auf Scraper-Tools gesperrt, sei aber bereit, Daten zur Verfügung zu stellen, wenn Unternehmen dafür bezahlen. So schloss die Plattform etwa Anfang des Jahres einen Vertrag mit Google über Google-Such- sowie KI-Trainingsdaten ab und schloss auch einen KI-Vertrag mit OpenAI. Unterdessen wurde mit Anthropic auch bereits ein großer KI-Anbieter wegen der Verwendung von Daten verklagt.

Ihre Meinung ist gefragt!

Was sagen Sie zu dem Thema? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte (oftmals gewürzt mit einer Prise Humor) finden Sie bei Youtube, Instagram und Tiktok.

Artikel teilen

Reddit sperrt Internet Archive wegen KI-Crawlern aus Reddit möchte seine Webseiten nicht länger vom Internet Archive indexieren lassen, da KI-Unternehmen die Daten unerlaubt für sich nutzen sollen.

Per E-Mail versenden

Reddit will Daten für KI lieber verkaufen

Ihre Meinung ist gefragt!

Artikel teilen

Kommentare (6)