Immer mehr KI-Unternehmen nutzen Web-Crawler (auch Spider oder Bots genannt), um Inhalte zum Training für KI LLM-Modelle zu sammeln. Wer nicht möchte, dass eigene Inhalte für diese Zwecke verwendet werden, kann in der robots.txt
gezielt den Zugriff einschränken oder vollständig blocken. Hier zeigen wir Ihnen, wie Sie die 10 größten AI-Crawler erkennen und ausschließen – vollständig oder nur für bestimmte Verzeichnisse. Es muss jedoch berücksichtig werden, dass sich nicht alle Webcrawler zu 100% an die Regeln halten könnten, von daher ist es nur eine Option Crawler von KI-Suchsystemen gezielt zu steuern bzw. komplett auszusperren.
Hier einige große KI Crawler. Für jeden Crawler/Bot sollte aus unserer Erfahrung immer genau abgewogen werden und das auch mehrfach im Jahr – was genau sind die Vor- oder auch Nachteile einen KI-Bot zuzulassen oder kompett auszusperren. Kann ich es mir leisten in verschiedenen Suchsystemen nicht mehr statt zu finden oder aber kann ich es mir leisten, dass KI-Anbieter auf meinen Daten meine eigenen Konkurrenzprodukte bauen?
10 große und bekannte KI-Crawler:
Anbieter | Crawler-Name (User-Agent) | Zweck |
---|---|---|
OpenAI | GPTBot |
Training von ChatGPT |
Anthropic | ClaudeBot |
Training von Claude |
Google-Extended |
AI-Zugriff für Google Gimini & Vertex AI | |
Common Crawl | CCBot |
Datenquelle für viele KI-Systeme |
Perplexity AI | PerplexityBot |
KI Suchmaschine |
Meta (Facebook) | facebookexternalhit / MetaBot |
Trainingsdaten für Meta-KI |
Amazon | Amazonbot |
Daten für Produkt- und KI-Systeme von Amazon |
You.com | YouBot |
KI-Suchmaschine |
Neeva (jetzt Teil von Snowflake) | Neevabot |
Ehemals Suchmaschine mit AI-Integration |
Apple | Applebot |
Siri- und KI-Dienste von Apple |
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: facebookexternalhit
Disallow: /
User-agent: MetaBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Neevabot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: GPTBot
Disallow: /produkte/
User-agent: ClaudeBot
Disallow: /daten/
Disallow: /bilder/
Disallow: /PDF/
User-agent: M/3.8 – aarkayn
Disallow: /kategorien/