今天看到了帖子:
claude到底有多强!来看看我生成的效果 - 搞七捻三 - LINUX DO
感谢两位大佬的 prompt
总结:利用 SVG 生成对应图片十分考验模型的能力,并且具有实用价值。但目前多数模型表现一塌糊涂。。。能用的不多。类似的能力:mermaid 生成倒是还行,但也常常出错。
许多问题很简单,但是给人一种十分明显的感觉,其并不会思考,唉,能力不足,就需要prompt弥补。。。
分析:
1,这一测试很轻松测到了模型的上限,尤其是
记忆力(大量prompt,并且prompt对输出结果有很大影响(十分不稳定))
分析能力
输出稳定性
2,目前就claude,o1 preview 输出结果还不错,但是存在地理位置生成错误等严重问题,
gemini 各版本效果一言难尽(exp 1121的svg内容很不错,但是生成位置很糟糕),exp 和 gtp 4o输出差不多,能看,但不多
3,这或许是检测模型能力和训练的一个方向,由此搭建一个类似的使用工具的benchmark,以近似的prompt测试对应能力,应该能从更多维度测试模型能力,也能体现各模型能力差距
claude 3.5 sonnet
o1 preview
gemini exp 1121
还有 gemini 莫名其妙截断是啥玩意。。。怎么解决,没有涉及敏感内容 太难受了