重复采样 让AI多次尝试选取最佳答案

原文

感觉和我的新版Q_S有异曲同工之妙 (谦逊点说 只是稍微有点相似)
我的新版提示词在克劳德上的效果是:克劳德会先输出三条回答路径 选取其中最好的 并选择性地以另外两条路径进行辅助 生成最终答案 这样回答问题更有侧重 避免输出无效内容

可见Quiet_STaR‖多次迭代回答【版本代号A】【ByQ_S研究师】

5 个赞

太强了,大佬 :star_struck:

我只是转载
我一点儿都不强
Www

围观~

厉害!

佬,厉害了。

1 个赞

https://arxiv.org/pdf/2407.21787v1

看了下原文章,感觉跟我目前的prompt agent差不多的想法,我也是先评估提供的prompt是什么类型,应该用什么temperature和样本数应该生成多少,在生成一堆样本,用ToT5个专家去打分,打分完了再交叉评估分数准确性,评估完再提取最高分的prompt,如果最高分的prompt也拉胯,那就再通过上一步的缺点和一堆评估去针对优化所有还可以的prompt,迭代多次tot打分出结果

目前问题这种多采样问题就是消耗token太恐怖了,还好deepseek现在上了kv缓存,同样的prompt请求价格能降很多,再就是多次迭代,中文变英文,或者哪次没遵守要求的json格式,后端根据格式取不到,这个样本就没了

楼主可以试试我的agent,目前还是没好的解决方案

https://ai.fuckjava.mom/

4 个赞

神,膜拜

其实还是跟模型有很大关系,我看这论文也是用的deepseek,我试过公益的llama3.1,效果也挺好的,就是输入中文出现英文的次数太多了,deepseek还有个优点就是可以直接让它输出固定JSON格式,这样就为多次提取结果优化提供了极大的方便

几乎所有模型都被我试了个编(除了Gemini没api试),国内除了deepseek就是千问还行,最棒的还是4o和Claude3.5

目前我试过用Claude3.5 sonnet当最终优化的agent,效果是最好的,就是token消耗太恐怖了 :melting_face:

1 个赞

Google ai studio的gemini实验版也可以固定json输出呢

学习!

1 个赞

记录记录,学习学习!

Mark学习

From #develop:ai to 资源荟萃