Oddbean new post about | logout
 今天我厂大模型组的贵清同学说通义千问2的700亿参数版本发布并开源了,安装测试了下,果然好用。

而且说通义千问这个模型已经在HuggingFace 的Open LLM Leaderboard开源模型榜单登顶了(见图1),太牛了啊。

我也手动测试了几个之前的bad case,结果都是对的(见图2和图3)。。提升巨大,我们现在用大模型处理数据的场景还是蛮多的,比如要标注笔记的正负面,标注对话数据的甲乙方,标注文章里面提到的品牌名称,地名等等。现在开源的大模型真是福音,方便我们这种有大量数据处理业务的企业了。

又安排员工把之前发现的其他大模型跑数据遇到的bad case都跑一遍,发现这一版通义千问在其他大模型跑出的bad case里面的表现正确率超过了75.2% (当然也有一些是错的,见图4)。其他大模型跑通过的case里面正确率达到99%。因为我们是有正确答案的,比较好统计,其实我可以给各家大模型在数据标注方面做测评啊,是不是又一个发财的机会啊。。

下一步还要测试下推理速度和成本,这个是大量使用的关键,小伙伴还在测试中,(待续)。

https://i.postimg.cc/W3y9wnYc/593af2a7gy1hqgliz55wej20z80i1ame.jpg
https://i.postimg.cc/QCWf4Tv9/593af2a7gy1hqglj3m877j212s0p2k9e.jpg
https://i.postimg.cc/tRZyQmjP/593af2a7gy1hqglj6ec9fj21160pzwwn.jpg
https://i.postimg.cc/HWqmp4YN/593af2a7gy1hqgljqobchj21360r3aof.jpg
 
 Tristan_Corleone:我的眼睛要瞎了,梁博[泪] 
 梁斌penny
:现在可以了,是我的锅 
 凉子的狗狗

:截图为什么这么不清晰。。。。。 
 梁斌penny
:现在处理清晰了 
 阿里这次感觉投入蛮大的。。有点虎啊//@子柳:我试用了几个APP之后,手机上留下了通义和Kimi,这一波要为阿里打个call