Oddbean new post about | logout
 我们现在大量数据其实都是开放给全球学术界免费做研究的。最近一些比较热门的数据包括
1)安全类语料对:Anthropic/hh-rlhf   模型备案可能要用到
2)Yelp酒店数据:数千万全球酒店数据,含经纬度,不含大陆地区酒店数据
3)Fineweb高质量数据:15T tokens的高质量数据
4)日语quora:700万条提问回答对

其实还有很多很多,欢迎全球学术界的做论文的朋友们和我们联系。@梁博助理小姐姐