周末时,女儿一直在学习背诵古诗,突然想,能否用AI给孩子做一个背古诗产品? 比如从古诗文网收集小学必背古诗词和释义,用LLM拆解释义为多个镜头画面,生成古风图,图片再加上微动,TTS朗读合成视频。 但仔细想,这里会有不少问题,比如TTS读错发音或音调,AI合成视频会比人精心制作的好吗? 倒是有可能做一个简化版AI视频制作工具: 输入文本→LLM拆解镜头→生产图片→图生视频→合入字幕和贴纸->调时间轴→合成最终视频。 从文本直接生成长视频,目前技术不成熟,需不断抽卡。还不如拆成多步,给用户一定控制和编辑,反而有可能做出可用视频。 比如当前广告领域最热的是Avatar + URL2Video,提供商品详情页,自动抓取产品图片和视频,选脚本Pattern生成视频,并非一步到位。 比较乐见类似Eggnog类似AI视频编辑器出现 https://t.co/pOmy9CHYHu 把SD生态成果,如各种ComfyUI的工作流,包装转变成普通人可用的简单产品。