如何屏蔽各大AI公司爬虫User Agent
2023/12/31 5:02:19
本文主要是介绍如何屏蔽各大AI公司爬虫User Agent,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机GPTBot
GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。
30%的大站屏蔽了它
User-agent: GPTBot Disallow: /
ChatGPT-User
ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。
10%的大站屏蔽了它
User-agent: ChatGPT-User Disallow: /
cohere-ai
Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。
1%的大站屏蔽了它
User-agent: cohere-ai Disallow: /
Google-Extended
Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。
11%的大站屏蔽了它
User-agent: Google-Extended Disallow: /
CCBot
CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。
13%的大站屏蔽了它
User-agent: CCBot Disallow: /
Omgilibot
Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。
1%的大站屏蔽了它
User-agent: omgilibot Disallow: / User-agent: omgili Disallow: /
FacebookBot
FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。
0%的大站屏蔽了它
User-agent: FacebookBot Disallow: /
anthropic-ai
anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。
2%的大站屏蔽了它
User-agent: anthropic-ai Disallow: /
Twitterbot
Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。
11%的大站屏蔽了它
User-agent: Twitterbot Disallow: /
更多AI公司爬虫User Agent不定时更新
这篇关于如何屏蔽各大AI公司爬虫User Agent的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-15Tailwind开发入门教程:从零开始搭建第一个项目
- 2024-11-14Emotion教程:新手入门必备指南
- 2024-11-14音频生成的秘密武器:扩散模型在音乐创作中的应用
- 2024-11-14从数据科学家到AI开发者:2023年构建生成式AI网站应用的经验谈
- 2024-11-14基于AI的智能调试助手创业点子:用代码样例打造你的调试神器!
- 2024-11-14受控组件学习:从入门到初步掌握
- 2024-11-14Emotion学习入门指南
- 2024-11-14Emotion学习入门指南
- 2024-11-14获取参数学习:初学者指南
- 2024-11-14受控组件学习:从入门到实践