如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 19:05:16
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 07:00:14如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
- 2025-06-20 07:20:16我的世界怎么租一个四个人的服务器?
- 2025-06-20 07:25:14杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?
- 2025-06-20 06:40:14怎么通俗的解释路由这个词?
- 2025-06-20 07:20:16为什么老特摄电影能一眼看出是模型?
- 2025-06-20 07:45:15美国真会下场对伊朗开战吗?
- 2025-06-20 07:15:15为什么美军“好像”不怕泄密?
- 2025-06-20 06:45:15网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)?
- 2025-06-20 06:35:15你曾看到空乘做过的最傻的事情是什么?
- 2025-06-20 06:25:14为什么腾讯云或者阿里云不让自建dns服务器?
推荐产品
-
MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响?
似乎目前的通用Agent都是同样的路数: 单个模型或多个模型 -
职高真的很乱吗?
我高中体育生,长得还可以 我有好朋友读职高 他们学校开校运会 -
卖域名还是个好生意吗?
域名投资确实不是遍地黄金的年代了, 但是从2003年我在大学 -
现在个人博客不能备案了吗?
我之前给博客备案,然后接到电话说名字不可以叫“xx博客”,我
新闻动态
最新资讯