「财富」杂志报道,字节跳动为了追赶大模型的训练进度,把自家的数据爬虫功率拉满了,全网抓取速度达到了OpenAI爬虫的25倍,还说字节、OpenAI、Anthropic这些公司的爬虫全都无视了robots.txt协议,也就是不管一个网站有没有拒绝爬虫访问,它们都照爬无误。[允悲]
我们现在每天300TB猛搞。。。//@yooYLB:此处应该@梁斌penny