今年DeepSeek的横空出世之后,整个AI圈可谓是直接变天了。 先是OpenAI打自己脸,表示闭源策略是“站在了历史的错误一边”。 随后百度这边也付出了实际行动。 这就很有节目效果。 DeepSeek一开源,天突然就亮了,风突然就停了。 当然啦,DeepSeek除了带起了大模型开源的趋势。 最近我还发现,它还把很多家大厂的「推理模型」给“逼”出来了。 比如腾讯,前阵子就发布了自研的深度思考模型。 再到这两天,豆包紧随其后,开启了自研深度思考模型的灰度测试。 很可惜的是,机哥没被灰度上。 而阿里最新推出的—— QwQ-Max-Preview推理模型 目前倒是完全免费可用,而且也支持深度思考和联网搜索两大功能。 至于百度的「深度搜索」功能,虽说也基于自研的文心大模型4.0 Turbo。 但我发现它只提供一张免费权益卡。 也罢… 用来做个对比评测够用了。 至此,百度、阿里、腾讯和字节跳动都有了自研的、且支持深度思考的推理模型。 此情此景,不来个赛博斗蛐蛐都说不过去了。 谁家推理模型更好用? 咱们就一块看看,几家推理模型的实际能力如何。 先来看很经典的大模型翻车问题—— 9.11和9.9谁大 这问题对于人类来说,没啥难度可言。 但很多大模型,往往会把小数点后的9和11用来比较,识别出11比9大,就得出9.11>9.9的结论。 属于是聪明了,但只聪明了一半。 但说实话啊,现在各家的深度推理模型,基本就不会犯这样的错误了。 因为推理模型本身就有很强的逻辑推理、自我反思能力。 比如这是阿里QwQ-Max-Preview推理模型,所给出的答案。 他的思考过程就很有意思,知道这个问题经常会有大模型翻车,也知道要着重看小数点部分。 最终给出的答案也很准确。 同样的问题,我也扔给了腾讯元宝的混元T1推理模型。 实际体验下来,混元T1推理模型的思考过程很快。 用时14秒,也有展示思维链,给出的答案准确。 而论起思考的时长和深度,DeepSeek无疑是最详细的。 答案没啥毛病。 最后是百度文心一言的深度搜索。 有一说一,虽然它也提供了深度思考的过程。 但机哥总觉得,它这个思考过程太过繁杂,我看完都差点把自己绕进去了。 大伙可以点开大图,感受一下。 相较起来,阿里和混元的深度思考过程,确实简洁明了不少。 比如它们都考虑到十分位和版本号等差异。 最后根据正确的数学数值对比,给出正确答案。 当然从这轮测试能看出,“数字比较”对于推理模型已经没啥难度了。 那咱们再重点关注下,各家推理模型的联网搜索和整合能力。 我的问题是: “帮我详细汇总今年要发布的影像超大杯手机的配置、定位和特色”。 咱们先看看,阿里QwQ-Max-Preview模型的回答。 老样子,它依旧给出了详细、直观且逻辑清晰的思考过程。 最后给出的答案,机哥自个儿是挺满意的。 像是小米15 Ultra、vivo X200 Ultra、OPPO Find X8 Ultra和华为华为Pura 80 Ultra等超大杯的定位和核心出装,都汇总得很到位。 腾讯元宝这边,得益于优质的公众号文章信源。 给出的回答甚至更胜一筹,对各家超大杯的配置、定位和特色,盘点得更加齐全。 咳咳,它甚至把机哥写的文章当作信源之一了。 而文心一言这边。 说实话其他国产超大杯的配置,给出的信息都问题不大。 但唯独这三星S25 Ultra吧。 我寻思这机子不都发布了么,怎么还写着“发布时间未明确提及”。 最后是大家比较关心的,DeepSeek的表现。 只能说,还是熟悉的味道,一到下午就服务器繁忙。 总的来说,在联网搜索这一块,阿里的QwQ-Max-Preview和腾讯的混元T1表现都挺不错。 平时懒得在传统搜索引擎做主动筛选的机友。 其实可以找它们,来帮忙搜索和总结联网信息。 文心一言的深度搜索,我体验下来是能用的,但偶尔会掉下链子。 再看看它们的文案创作能力。 我测试下来,感觉阿里的推理模型,效果最接近DeepSeek。 机哥让它用孙笑川吧吧友的语气,锐评我自己。 它通过联网搜索,结合深度思考过程,摸清了好机友的文风和调性,锐评起来也是毫不留情。 什么“科技界的三和大神”。 什么“教人下个App都要配8张表情包”。 破防了家人们。 而腾讯元宝和文心一言的攻击性,倒也不是说不够强。 但机哥总感觉遣词造句差点味道。 喷得不够丝滑,不够阴阳怪气。 (腾讯元宝) (文心一言) 这一轮测试的结果,倒是符合机哥预期。 因为阿里的Qwen2.5-Max,在刚发布的时候,它在多个基准测试中的性能,表现都比DeepSeek-V3更强。 非要比个孰优孰劣的话。 Qwen2.5-Max更擅长数学和编程,DeepSeek-V3更擅长文案创作、解析和总结。 比如我让Qwen2.5-Max画一个贪吃蛇游戏。 它半分钟不到就给我整出来了。 更多开源模型正在路上 当然更让人兴奋的是。 阿里官方表示,后续会把QwQ-Max、Qwen2.5-Max这俩旗舰模型进行开源。 其中就包括,更适合端侧运行的小尺寸模型。 这就让我很好奇,iPhone吃上阿里大模型后,「苹果牌AI」会有怎样的表现。 不得不说,自从DeepSeek搞起了一轮“开源轰炸”后。 整个AI圈都或主动、或被动地加入到这股浪潮。 答案呈现更直观、更严谨、更聪明的推理模型,成为了大厂们的必争之地,目前腾讯、阿里、字节跳动和百度都出手了。 估计后续还会有更多厂商进来玩。 而开源模型的不断涌现,肯定也更有利于,把大模型普及到各行各业,乃至各个App。 想象一下。 打开美团,大模型自动帮你推荐合胃口的外卖。 阅读微信文章,微信提供大模型一键总结摘要的功能。 去电商App买个手机,大模型还能帮你汇总手机的配置和优缺点。 啧,想想就觉得很爽。 图片来自网络 |
19款电子扎带
电路板识别电子标签