Oddbean

周末时，女儿一直在学习背诵古诗，突然想，能否用AI给孩子做一个背古诗产品？比如从古诗文网收集小学必背古诗词和释义，用LLM拆解释义为多个镜头画面，生成古风图，图片再加上微动，TTS朗读合成视频。但仔细想，这里会有不少问题，比如TTS读错发音或音调，AI合成视频会比人精心制作的好吗？倒是有可能做一个简化版AI视频制作工具：输入文本→LLM拆解镜头→生产图片→图生视频→合入字幕和贴纸->调时间轴→合成最终视频。从文本直接生成长视频，目前技术不成熟，需不断抽卡。还不如拆成多步，给用户一定控制和编辑，反而有可能做出可用视频。比如当前广告领域最热的是Avatar + URL2Video，提供商品详情页，自动抓取产品图片和视频，选脚本Pattern生成视频，并非一步到位。比较乐见类似Eggnog类似AI视频编辑器出现 https://t.co/pOmy9CHYHu 把SD生态成果，如各种ComfyUI的工作流，包装转变成普通人可用的简单产品。