问题1.api上下文200k+稍微复杂的问题就会报错
问题2.aistudio超过300k上下文容易忽略超出内容。
求佬友们在线实测gemini最佳长度
问题1.api上下文200k+稍微复杂的问题就会报错
问题2.aistudio超过300k上下文容易忽略超出内容。
求佬友们在线实测gemini最佳长度
<80k,不然思考的强度会被重创
我一般切换都在50K
感谢佬友解答
gemini呈u形吗,长度变强反而精度上升了
免费版的受到tpm的限制的,上限也就只有250K多一点点
完全体得是付费用户才能用到
因为其他模型最大一般就192k左右所以他没测后面更大的,你可以看o3的百分比大概对应到100w估计下
佬友你看中间有掉到60的
你说哪个模型?
0506和0325,都有精度先掉到60几再上升,
0605,8k长度是80.6,192k反而是90.6
我理解的话应该是直接往下掉比较合理
可能是动态思维链长度,越难模型表现越好
也可能是测试方法不准确
0605是测试设计问题或是算是误差范围内吧,0506啥的感觉模型问题,还有现在什么0605啥的不都重定向到标准2.5pro了吗,不知道这个重定向的是哪个版本
50k不才5万吗,五万问几个问题就到了
太多会分散很多注意力的
我这两天有个东西要学,问到了30w,网页都卡死了
现在模型上下文和真实使用还是两码事
我去,为什么0会有人不是100%
感觉这个不太适合思考模型了,因为有些思考模型被调的,长上下文思考特别短,变懒严重,短上下文思考反而长
Based on a selection of a dozen very long complex stories and many verified quizzes, we generated tests based on select cut down versions of those stories. For every test, we start with a cut down version that has only relevant information. This we call the “0”-token test. Then we cut down less and less for longer tests where the relevant information is only part of the longer story overall.
根据十几个非常长的复杂故事和许多经过验证的测验,我们根据这些故事的精选删减版本生成了测试。对于每个测试,我们都会从一个仅包含相关信息的缩减版本开始。我们称之为 “0” 标记测试。然后,对于较长的测试,我们减少的删减越来越少,其中相关信息只是整个较长故事的一部分。
原来如此,感谢!