人工智能公司为什么痴迷于Reddit? Reddit产生了完美的LLM训练数据:大量非正式、口语化的内容,自带内容质量打分(点赞/点踩) 优点:训练数据质量高、相关性强。 缺点:可能存在偏见、不当言论、错误信息等负面影响。 当训练数据不足、质量不高时。 用Prompt engineering人造数据就变的很重要。 比如把不同题材的小说、诗歌都变成多轮对话,提升Bot的情感表达能力,更像人。