测评非常不错, Hard Prompt 也是排名第一
然而中文依旧是一个弱项, 测评时建议不止测试中文, 英文也试一试
个人感觉 上一个 exp 更像是 7b 的 flash 1.5 改造, 这个给人的像是 flash 2.0
虽然严重怀疑和 R1 的能力相比如何, 这个速度太快了, 模型感觉就不会太大
可能未来就是 o1/r1 作为复杂的思考模型, thinking exp 作为轻量的思考模型?
等一手 Livebench 和各种测试
根据 aistudio, 65K 输出?
测评非常不错, Hard Prompt 也是排名第一
然而中文依旧是一个弱项, 测评时建议不止测试中文, 英文也试一试
个人感觉 上一个 exp 更像是 7b 的 flash 1.5 改造, 这个给人的像是 flash 2.0
虽然严重怀疑和 R1 的能力相比如何, 这个速度太快了, 模型感觉就不会太大
可能未来就是 o1/r1 作为复杂的思考模型, thinking exp 作为轻量的思考模型?
等一手 Livebench 和各种测试
根据 aistudio, 65K 输出?
感觉65k的上下文非常适合让读一篇论文,然后根据论文做总结,提升阅读效率
厉害,这都发现了,竟然不是8K,而是64K?
上下文1M(1048576),output 64K(65536)
有65!
我感觉那些想要让模型输出2000字,多少字的任务,可以大胆的提一提字数了
有65吗
最少看到了65这个数字w
立刻使用!
奇怪,它吐字多了,突然开始无限重复проникновение了,一大串一大串的,当前是默认的温度0.7。没有复现,第二次重新试了一下,正常
不愧是大善人哪
gemini-2.0-flash-thinking-exp 现在是指向 1219 还是 0121 版本呀
思考模型就是有这个问题,会出俄语,不过我都是色色的时候才会
0121
那这就成为谷歌输出最长的一个模型了
目前实验室里所有模型的输出都是8k
谷歌的模型大多会出现问题
温度低的话表现好,但想象力差,温度高了,90%的概率会输出英文,纯英文,必须指导输出中文
市面上似乎都是8K的,可以去掉限定词谷歌
不知道怎么让它一次回答里生成更多的字,之前试了下生成小说大纲、细纲、然后继续填充,然后大概8000字,自己就停止回复了。
截断是“我会在后续回复中继续完成,请稍等。”
有佬成功让它输出接近64K的内容吗,能不能让它一次回复几万字?
想确定下是不是真的可以输出这么多
没试过,8K都够用了,输出多了质量也不高
你们发现没有,这个B google也是个b人。每次别家大动作,自己就发模型对冲
变快了,但不再会像 1219 那样先分析 user 的需求,然后之前是 罗列小块,每个小块单独解决一个小需求(类似Concern Separation),再合起来,这样就很启发人。
现在则是整合在一起,而且也不深入,之前问单词 针对词根 会反复解释,现在也是一句话带过。专业感是强了,但不好用了。暂时是挺失望的