OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。
行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。
OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。
行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。
有没有幻觉率100%的模型,想试试(
翻车了,尤其是o3这种大模型还搞成这样
Qwen 2.5 0.5B,幻觉率99%可以试试。
好像是这个名字,问一个错错一个,0.5B太小了
你问问它三英战吕布,所有8B以下的模型,答案很有趣(无论是Qwen,还是Gemma)
逐级往上推理
1.5B>7B>14B>32B
类似的问题,幻觉率会逐渐降低
佬,现在推理模型幻觉最低的是谁啊?Gemini2.5pro?我记得r1好像是14%吧?
关闭联网
GPT-4.5是幻觉率最低模型,我测试特摄、动漫问题的正确率,超越了所有模型(冷门知识)
第二名是Gemini 2.5-Pro
GPT-4.5真的是有点东西的!(夸张的价格)
顺便往o3的脸上唾一口唾沫,不联网的情况下,这个答案简直是辣鸡
用提示词模拟一下答非所问?
还真有。。。
我也忘记是哪里测试的0.5B了,以前无意中测试过一次(理论上,0.5B的模型,可以给1.5G-RAM的传音非洲黑蜀黍的手机本地部署的),看了一下硅基最差的也是1.5B(都没0.5B这个型号)
不要啊 黑蜀黍已经够抽象的了
我记得APPLE所谓的苹果AI(安全本地IOS内置的),本地模型似乎是3-5B规模?不联网也和0.5B,1.5B相比好不到哪里去。(股价也跌了,当时还有人炒苹果AI)
幻觉率可以说是99K(99.9999%)
www确实
试试看同一个问题在Qwen 0.5B,1.5B,7B,14B,32B的回答对比
我这里没有0.5B
六百六十六,笑疯了