Oddbean

人工智能公司为什么痴迷于Reddit？ Reddit产生了完美的LLM训练数据：大量非正式、口语化的内容，自带内容质量打分(点赞/点踩) 优点：训练数据质量高、相关性强。缺点：可能存在偏见、不当言论、错误信息等负面影响。当训练数据不足、质量不高时。用Prompt engineering人造数据就变的很重要。比如把不同题材的小说、诗歌都变成多轮对话，提升Bot的情感表达能力，更像人。