complex economy GmbH > KI Crawler per Robots.txt blocken/einschränken

KI Crawler per Robots.txt blocken/einschränken

KI Crawler per Robots.txt bloken

Immer mehr KI-Unternehmen nutzen Web-Crawler (auch Spider oder Bots genannt), um Inhalte zum Training für KI LLM-Modelle zu sammeln. Wer nicht möchte, dass eigene Inhalte für diese Zwecke verwendet werden, kann in der robots.txt gezielt den Zugriff einschränken oder vollständig blocken. Hier zeigen wir Ihnen, wie Sie die 10 größten AI-Crawler erkennen und ausschließen – vollständig oder nur für bestimmte Verzeichnisse. Es muss jedoch berücksichtig werden, dass sich nicht alle Webcrawler zu 100% an die Regeln halten könnten, von daher ist es nur eine Option Crawler von KI-Suchsystemen gezielt zu steuern bzw. komplett auszusperren.

Hier einige große KI Crawler. Für jeden Crawler/Bot sollte aus unserer Erfahrung immer genau abgewogen werden und das auch mehrfach im Jahr – was genau sind die Vor- oder auch Nachteile einen KI-Bot zuzulassen oder kompett auszusperren. Kann ich es mir leisten in verschiedenen Suchsystemen nicht mehr statt zu finden oder aber kann ich es mir leisten, dass KI-Anbieter auf meinen Daten meine eigenen Konkurrenzprodukte bauen?

10 große und bekannte KI-Crawler:

Anbieter Crawler-Name (User-Agent) Zweck
OpenAI GPTBot Training von ChatGPT
Anthropic ClaudeBot Training von Claude
Google Google-Extended AI-Zugriff für Google Gimini & Vertex AI
Common Crawl CCBot Datenquelle für viele KI-Systeme
Perplexity AI PerplexityBot KI Suchmaschine
Meta (Facebook) facebookexternalhit / MetaBot Trainingsdaten für Meta-KI
Amazon Amazonbot Daten für Produkt- und KI-Systeme von Amazon
You.com YouBot KI-Suchmaschine
Neeva (jetzt Teil von Snowflake) Neevabot Ehemals Suchmaschine mit AI-Integration
Apple Applebot Siri- und KI-Dienste von Apple

 

Beispiel: Vollständiger Ausschluss aller 10 AI-Crawler

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: facebookexternalhit
Disallow: /

User-agent: MetaBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Neevabot
Disallow: /

User-agent: Applebot
Disallow: /

Beispiel: Nur ein Verzeichnis sperren

User-agent: GPTBot
Disallow: /produkte/

User-agent: ClaudeBot
Disallow: /daten/
Disallow: /bilder/
Disallow: /PDF/

User-agent: M/3.8 – aarkayn
Disallow: /kategorien/

WordPress Cookie Plugin von Real Cookie Banner