今天开发汇报有重大进展,reddit 目前每天以1000万条的数据下载了,按照官方说法应该有5亿条左右,按照目前的速度,大概还有40天能全部拿下。洋数据要做到应下尽下。下个月可能要去美国出差,和美国当地大模型团队切磋,希望能顺利[允悲]
reddit数据和quora数据一样,也都是赠送的,当然大部分小团队用不到,普通商业团队只做中文也不需要,没有训练能力的也用不上,主要是提供给爱国,且有训练能力的团队哈。