虽然上周OpenAI GPT4o成功狙击了Google的产品。 但仔细看了Google IO大会后,发现Gemini与谷歌全家桶整合的很好,前瞻看到很多略感科幻的场景。 谷歌搜索也打算基于Gemini重塑,很多功能都会在今年夏天推出,我甚至想买个pixel 8a手机体验下。 视频地址: https://t.co/26WccCEIs9 笔记如下: 1. Ask Photos 基于gemini,用自然语言与Google photo对话。 比如问:“我女儿xxx什么时候学会的游泳?”,会自动找到对应的图片回答问题。 追问“我女儿学游泳的进展”,AI自动汇集证书、游泳地点、游泳方式(潜泳、仰泳)等。 预计今年夏天发布。 2. Gmail侧边栏对话机器人 3. Google Meeting 会议总结摘要、追问等。 4. Notebook LM:一款Gemini 1.5 pro支持的研究学习辅助工具,演示的例子是基于上传文档、课程PDF,生成音频学习对话,人可以中途插入提问,实现个性化的学习辅导。(比如用孩子最感兴趣的篮球,讲牛顿力学) 5. Agents: 先讲了一个买鞋退货的use case,当你买了一双不合适的鞋子,AI会自动从邮箱里找到收据和订单号,然后去官网填写表单申请退货,安排快递员取货等。 又讲一个Use case:搬家到芝加哥,AI帮助你一起探索城市,发现居住地附近服务商(干洗店、宠物店等等),甚至Chrome自动登录网站修改自己的收货地址等 谷歌正在这些产品原型,但利用Agents的组织、计划、推理能力,未来都能实现。 产品愿景:Making Al helpful for everyone 如何实现:Gemini多模态、长上下文、Agents 6. Project Astra 类似GPT4o的通用人工助理,通过摄像头输入,语音、打字输入交流互动。 给了几个场景案例: 找到画面中能发声的物体(找到了音箱); 快速屏幕箭头标注了一个喇叭,问叫什么名字(高音喇叭); 镜头对准蜡笔cray,让造个符合头韵(一种头字母押韵)的句子; 问同事电脑上的代码起什么作用(加解密); 拍摄窗外景色问是在什么街区。(伦敦国王十字区); 问AI有没有看到自己的眼镜(最近一次见是在苹果旁边); 对着白板上一个服务器构架图,问如何优化让相应速度更快(增加缓存之类); 白板上的两只猫,一个睁眼,一个闭眼,然后拿着一个带着问号的合作放在他们下面,问能想到什么?(薛定谔的猫) 7. Imagen 3 生成的图片更逼真,细节更丰富,光影效果好,失真扭曲少等。遵循Prompt能力强,长提示中的小细节都不会被忽略(如“a small blue bird”),图片中能准确渲染文本(很有挑战)。 谷歌说在side by side独立评估中,用户认为Imagen 3好过其他模型。 8. Music AI sandbox 支持音乐风格、乐器迁移,音乐loop制作,能给创作者大量可以尝试的想法,加速创意制作。 9. Google Search Gemini Era 谷歌正在探索AI搜索的产品形态演进,AI overview已在美国地区全面开放,预计今年覆盖10亿人。 重新改造谷歌搜索有三方面优势:实时信息(超过1万亿的人物、地点、事物的事实)、几十年深受好评的排名和质量系统、Gemini的力量。 未来谷歌会引入多步推理,拆解你的问题成小的子问题,然后汇总成最终的答案。(可能包含图片、链接、视频、地图等) 另外支持Planning in search,举的例子是安排3天的膳食,可查看各个食谱,下载导出或者一键加购物清单(买食谱原料) 想象未来约会、锻炼、习惯养成都可以通过google来协助规划完成。 未来你的所有搜索都不止是简单的信息聚合,而是AI重新组织的对你最有用的内容,甚至通过视频对话解决你的问题。 10. Google workplace Gemini in meeting:自动识别、实时字幕翻译68种语言,提高会议参与度。 Gmail:AI bot出现在Sidebar,能总结摘要当前会话中的所有邮件;随时AI对话总结需要的数据信息;自动生成预测你可能需要的多种回复(基于Gmail会话理解),点击自动填充回邮件。 Spreadsheet:在Sidebar可问gemini公式、教程,通过对话可自动生成图表。(Data Q&A); AI teammate:创建虚拟员工到Team中,像真人一样协作,解答你的问题给你快速找到相关信息。 11. Gemini App 夏季会引入Astra的能力,多模态交流对话,这种语音+摄像头对话称作 Gemini Live(类ChatGPT几个星期后要更新的GPT4o语音对话版) Gems:用户可创建自己的专家机器人(类似GPTs) 12. Gemini on Android Circle to Search:Use case用的是全选一道物理题,自动给出解题步骤。 然后演示了Chat with youtube和内置的Chat with PDF功能。 手机pixel 会搭载Gemini nano模型,本地处理数据保护隐私,需要时才联网调用更大的模型。 有了AI加持后,无障碍功能talkback将变的更强大,比如AI描述收到的图片、商品等。 另外一个use case,遇到电信诈骗,gemini nano会弹出提醒。