我们现在大量数据其实都是开放给全球学术界免费做研究的。最近一些比较热门的数据包括 1)安全类语料对:Anthropic/hh-rlhf 模型备案可能要用到 2)Yelp酒店数据:数千万全球酒店数据,含经纬度,不含大陆地区酒店数据 3)Fineweb高质量数据:15T tokens的高质量数据 4)日语quora:700万条提问回答对 其实还有很多很多,欢迎全球学术界的做论文的朋友们和我们联系。@梁博助理小姐姐