模型能力对比有感

今天看到了帖子:
claude到底有多强!来看看我生成的效果 - 搞七捻三 - LINUX DO
感谢两位大佬的 prompt

总结:利用 SVG 生成对应图片十分考验模型的能力,并且具有实用价值。但目前多数模型表现一塌糊涂。。。能用的不多。类似的能力:mermaid 生成倒是还行,但也常常出错。

许多问题很简单,但是给人一种十分明显的感觉,其并不会思考,唉,能力不足,就需要prompt弥补。。。

分析:
1,这一测试很轻松测到了模型的上限,尤其是
记忆力(大量prompt,并且prompt对输出结果有很大影响(十分不稳定))
分析能力
输出稳定性

2,目前就claude,o1 preview 输出结果还不错,但是存在地理位置生成错误等严重问题,
gemini 各版本效果一言难尽(exp 1121的svg内容很不错,但是生成位置很糟糕),exp 和 gtp 4o输出差不多,能看,但不多

3,这或许是检测模型能力和训练的一个方向,由此搭建一个类似的使用工具的benchmark,以近似的prompt测试对应能力,应该能从更多维度测试模型能力,也能体现各模型能力差距

claude 3.5 sonnet


o1 preview

gemini exp 1121

还有 gemini 莫名其妙截断是啥玩意。。。怎么解决,没有涉及敏感内容 :tieba_087:太难受了

3 Likes

你還特別把佬的prompt翻譯阿

我发现大模型无法真正的识别汉字,比如问它,上面一个尸下面一个九的汉字,是什么,就答出不出来

還真的 仔細一樣也確實 本來就不是那中文部首來訓練的模型

2 Likes

它回答错了还骂你,这能忍吗?!干它!!!

1 Like

試過了 幹不贏的

物理消灭它 :tieba_025:

image

gemini老是截断,离谱

看到你这我笑出来了