重复采样让AI多次尝试选取最佳答案

StellaFortuna · 2024 年8 月 2 日 07:10

原文

感觉和我的新版Q_S有异曲同工之妙 (谦逊点说只是稍微有点相似)
我的新版提示词在克劳德上的效果是:克劳德会先输出三条回答路径选取其中最好的并选择性地以另外两条路径进行辅助生成最终答案这样回答问题更有侧重避免输出无效内容

可见Quiet_STaR‖多次迭代回答【版本代号A】【ByQ_S研究师】

leave · 2024 年8 月 2 日 07:12

太强了，大佬

StellaFortuna · 2024 年8 月 2 日 07:15

我只是转载
我一点儿都不强
Www

jiongjiong_JOJO · 2024 年8 月 2 日 09:01

围观~

handsome · 2024 年8 月 2 日 09:29

厉害！

ansemz · 2024 年8 月 5 日 02:15

佬，厉害了。

Nec · 2024 年8 月 5 日 11:38

https://arxiv.org/pdf/2407.21787v1

看了下原文章，感觉跟我目前的prompt agent差不多的想法，我也是先评估提供的prompt是什么类型，应该用什么temperature和样本数应该生成多少，在生成一堆样本，用ToT5个专家去打分，打分完了再交叉评估分数准确性，评估完再提取最高分的prompt，如果最高分的prompt也拉胯，那就再通过上一步的缺点和一堆评估去针对优化所有还可以的prompt，迭代多次tot打分出结果

目前问题这种多采样问题就是消耗token太恐怖了，还好deepseek现在上了kv缓存，同样的prompt请求价格能降很多，再就是多次迭代，中文变英文，或者哪次没遵守要求的json格式，后端根据格式取不到，这个样本就没了

楼主可以试试我的agent，目前还是没好的解决方案

https://ai.fuckjava.mom/

StellaFortuna · 2024 年8 月 5 日 13:50

神，膜拜

Nec · 2024 年8 月 5 日 14:08

其实还是跟模型有很大关系，我看这论文也是用的deepseek，我试过公益的llama3.1，效果也挺好的，就是输入中文出现英文的次数太多了，deepseek还有个优点就是可以直接让它输出固定JSON格式，这样就为多次提取结果优化提供了极大的方便

几乎所有模型都被我试了个编(除了Gemini没api试)，国内除了deepseek就是千问还行，最棒的还是4o和Claude3.5

目前我试过用Claude3.5 sonnet当最终优化的agent，效果是最好的，就是token消耗太恐怖了

StellaFortuna · 2024 年8 月 5 日 14:48

Google ai studio的gemini实验版也可以固定json输出呢

civil · 2024 年8 月 5 日 14:52

学习！

linghch · 2024 年8 月 5 日 15:04

记录记录，学习学习！

EDWINCHENC · 2024 年8 月 8 日 15:45

Mark学习

neo · 2024 年8 月 29 日 06:00

From #develop:ai to 资源荟萃

话题		回复	浏览量
目前最适合科研学习/文献阅读用途的AI大模型(API)是什么？搞七捻三人工智能 , 快问快答	24	748	2025 年3 月 21 日
【投票&评测】选出你认为最好的AI搜索工具！（第一轮评测结果发布）开发调优人工智能	38	1662	2025 年3 月 7 日
请教佬友们分享学术方面的prompt 助力我上岸开发调优 ChatGPT , 人工智能 , 快问快答	21	653	2024 年12 月 27 日
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	19	384	2025 年3 月 22 日
关于深度思考模型，你应该知道的一些东西开发调优人工智能	23	1072	2025 年3 月 11 日

重复采样 让AI多次尝试选取最佳答案

相关话题

重复采样让AI多次尝试选取最佳答案