Oddbean new post about | logout
 人工智能公司为什么痴迷于Reddit?

Reddit产生了完美的LLM训练数据:大量非正式、口语化的内容,自带内容质量打分(点赞/点踩)

优点:训练数据质量高、相关性强。
缺点:可能存在偏见、不当言论、错误信息等负面影响。

当训练数据不足、质量不高时。
用Prompt engineering人造数据就变的很重要。

比如把不同题材的小说、诗歌都变成多轮对话,提升Bot的情感表达能力,更像人。