Cloudflare will kostenloses, endloses AI Scraping mit Ein-Klick-Blockierung beenden

Cloudflare will kostenloses, endloses AI Scraping mit Ein-Klick-Blockierung beenden

Cloudflare angekündigt Das Unternehmen hat am Montag neue Tools vorgestellt, die dazu beitragen sollen, die Ära des endlosen AI Scraping zu beenden, indem sie allen Sites im Netzwerk die Möglichkeit geben, Bots mit einem Klick zu blockieren.

Dies wird dazu beitragen, die Flut des uneingeschränkten KI-Scrapings zu stoppen. Aber was für Content-Ersteller vielleicht noch interessanter ist: Cloudflare sagt, dass es dadurch auch einfacher wird, zu erkennen, welche Inhalte Bots am häufigsten scannen, sodass Websites den Zugriff schließlich sperren und Bots für das Scraping ihrer wertvollsten Inhalte zur Kasse bitten können. Um den Weg für diese Zukunft zu ebnen, schafft Cloudflare auch einen Marktplatz für alle Websites, auf dem Content-Deals auf der Grundlage detaillierterer KI-Audits ihrer Websites ausgehandelt werden können.

Diese Tools, Cloudflares Blog sagten, sie würden Inhaltserstellern „zum ersten Mal“ Möglichkeiten bieten, „schnell und einfach zu verstehen, wie Anbieter von KI-Modellen ihre Inhalte verwenden, und dann die Kontrolle darüber zu übernehmen, ob und wie die Modelle darauf zugreifen können“.

Das ist für Content-Ersteller notwendig, da der Aufstieg der generativen KI es schwieriger gemacht hat, ihren Inhalt zu bewerten, Cloudflare empfohlen in einem längeren Blog, in dem die Tools erklärt werden.

Bisher konnten Websites unterscheiden, ob sie hilfreichen Bots, die den Datenverkehr steigern (wie etwa Crawlern von Suchmaschinen), den Zugriff gewähren oder bösartigen Bots, die versuchen, Websites lahmzulegen oder vertrauliche Daten oder Daten von Wettbewerbern abzugreifen, den Zugriff verweigern wollten.

Doch nun haben „Large Language Models (LLMs) und andere generative Tools eine düsterere dritte Kategorie“ von Bots geschaffen, so Cloudflare, die in keine der beiden Kategorien passen. Sie „treiben nicht unbedingt den Verkehr an“ wie ein guter Bot, aber sie versuchen auch nicht, sensible Daten zu stehlen wie ein böser Bot. Daher haben viele Websitebetreiber keine klare Vorstellung davon, welchen „Wertaustausch“ sie mit der Erlaubnis von KI-Scraping eingehen, so Cloudflare.

Das sei ein Problem, weil die Aktivierung von Scraping in vollem Umfang den Inhaltserstellern auf lange Sicht schaden könnte, prognostizierte Cloudflare.

„Viele Websites ließen diese KI-Crawler ihre Inhalte scannen, weil diese Crawler größtenteils wie ‚gute‘ Bots aussahen – nur um im Ergebnis weniger Verkehr auf ihrer Website zu verursachen, da ihre Inhalte in von der KI verfasste Antworten neu verpackt wurden“, sagte Cloudflare.

Dieses uneingeschränkte KI-Scraping „stellt ein Risiko für das offene Internet dar“, warnte Cloudflare und meinte, dass seine Tools einen neuen Industriestandard für das Scraping von Online-Inhalten setzen könnten.

So blockieren Sie Bots mit einem Klick

Kreative, die darum kämpfen, zu kontrollieren, was mit ihren Inhalten geschieht, sehen sich zunehmend dazu gedrängt, entweder KI-Unternehmen zu verklagen, um unerwünschtes Scraping zu unterbinden (wie die New York Times), oder ihre Inhalte hinter Bezahlschranken zu stellen und so den öffentlichen Zugang zu Informationen einzuschränken.

Während einige große Verlage Verträge mit KI-Unternehmen zur Lizenzierung von Inhalten abgeschlossen haben, hofft Cloudflare, dass neue Tools dazu beitragen werden, gleiche Bedingungen für alle zu schaffen. Auf diese Weise „kann es einen transparenten Austausch zwischen den Websites geben, die mehr Kontrolle über ihre Inhalte wünschen, und den KI-Modellanbietern, die neue Datenquellen benötigen, sodass alle davon profitieren“, sagte Cloudflare.

Heute können Cloudflare-Sitebetreiber damit aufhören, jeden KI-Bot einzeln manuell zu blockieren, und sich stattdessen dafür entscheiden, „alle KI-Bots mit einem Klick zu blockieren“, so Cloudflare.

Dies können sie tun, indem sie den Abschnitt „Bots“ unter der Registerkarte „Sicherheit“ des Cloudflare-Dashboards aufrufen und dann auf einen blauen Link in der oberen rechten Ecke klicken, „um zu konfigurieren, wie der Proxy von Cloudflare mit Bot-Verkehr umgeht“, so Cloudflare. Auf diesem Bildschirm können Betreiber ganz einfach „den Knopf auf der Karte ‚KI-Scraper und -Crawler blockieren‘ auf die Position ‚Ein‘ umschalten“, wodurch alles blockiert wird und die Ersteller von Inhalten Zeit haben, zu überlegen, welchen Zugriff sie ggf. wieder aktivieren möchten.

Betreiber können nicht nur Bots blockieren, sondern auch KI-Audits durchführen und schnell analysieren, welche Bereiche ihrer Websites am häufigsten von welchen Bots gescannt werden. Auf dieser Grundlage können die Betreiber entscheiden, welches Scraping zulässig ist, und mithilfe ausgefeilter Kontrollen festlegen, welche Bots welche Teile ihrer Websites scrapen dürfen.

„Einige Teams werden sich dafür entscheiden, den Bots, die mit KI-Suchmaschinen verbunden sind, das Scannen ihrer Internet-Eigenschaften zu erlauben, da diese Tools immer noch den Verkehr auf die Site lenken können“, heißt es im Blog von Cloudflare. „Andere Organisationen schließen möglicherweise Verträge mit einem bestimmten Modellanbieter ab und möchten jedem Bottyp dieses Anbieters den Zugriff auf ihre Inhalte erlauben.“

Für Herausgeber, die bereits mit Bots Maulwurfspielchen betreiben, wäre es ein entscheidender Vorteil, wenn sie mit den Tools von Cloudflare Regeln schreiben könnten, um bestimmte Bots einzuschränken, die Websites sowohl zu „guten“ als auch zu „schlechten“ Zwecken durchsuchen, sodass die guten behalten und die schlechten weggeworfen werden.

Der für Publisher derzeit vielleicht frustrierendste Bot ist der Googlebot, der Websites durchsucht, um Suchergebnisse zu füllen und KI zu trainieren, um Übersichten für die Google-Suche zu erstellen, die sich durch Zusammenfassung von Inhalten negativ auf den Verkehr zu den Quellseiten auswirken könnten. Publisher haben derzeit keine Möglichkeit, sich von Trainingsmodellen abzumelden, die Googles KI-Übersichten antreiben, ohne die Sichtbarkeit in den Suchergebnissen zu verlieren, und die Tools von Cloudflare werden Publisher nicht aus dieser unangenehmen Lage befreien können, bestätigte Cloudflare-CEO Matthew Prince gegenüber Ars.

Für alle Websitebetreiber, die versucht sind, das KI-Scraping komplett abzuschalten, kann die Blockierung des Scrapings durch den Googlebot und die damit einhergehende unbeabsichtigte Verursachung von Verkehrseinbrüchen ein zwingender Grund sein, die Ein-Klick-Lösung von Cloudflare nicht zu verwenden.

Prince geht jedoch davon aus, dass „Googles Vorgehensweisen auf lange Sicht nicht zukunftsfähig sind“ und dass „Cloudflare dazu beitragen wird, dass Google und andere Leute wie Google“ den Entwicklern „viel mehr feingranulare Kontrolle darüber“ geben, wie Bots wie der Googlebot das Internet durchsuchen, um KI zu trainieren.

Prince sagte gegenüber Ars, dass Google zwar seine „philosophische“ interne Frage löse, ob das Scraping des Googlebots für die Suche oder für KI sei, dass aber bald eine technische Lösung auftauchen werde, um einen Bot von bestimmten Arten des Scrapings auszuschließen. Und in der Zwischenzeit „kann es auch eine rechtliche Lösung geben“, die „auf Vertragsrecht beruhen kann“, basierend auf der Verbesserung der Nutzungsbedingungen von Websites.

Natürlich kann sich nicht jede Website eine Klage leisten, um AI Scraping anzufechten, aber um den Entwicklern zu helfen, sich besser zu verteidigen, hat Cloudflare ausgearbeitet „Modell-Nutzungsbedingungen, die jeder Inhaltsersteller zu seinen Websites hinzufügen kann, um seine Rechte rechtlich zu schützen, da Websites mehr Kontrolle über KI-Scraping erhalten.“ Mit diesen Bedingungen könnten Websites möglicherweise leichter gegen eingeschränktes Scraping vorgehen, das durch die Analysetools von Cloudflare entdeckt wird.

„Auf die eine oder andere Weise wird Google gezwungen sein, hier feinkörniger vorzugehen“, prophezeite Prince.

Leave a Comment

Your email address will not be published. Required fields are marked *