原文
感觉和我的新版Q_S有异曲同工之妙 (谦逊点说 只是稍微有点相似)
我的新版提示词在克劳德上的效果是:克劳德会先输出三条回答路径 选取其中最好的 并选择性地以另外两条路径进行辅助 生成最终答案 这样回答问题更有侧重 避免输出无效内容
原文
感觉和我的新版Q_S有异曲同工之妙 (谦逊点说 只是稍微有点相似)
我的新版提示词在克劳德上的效果是:克劳德会先输出三条回答路径 选取其中最好的 并选择性地以另外两条路径进行辅助 生成最终答案 这样回答问题更有侧重 避免输出无效内容
太强了,大佬
我只是转载
我一点儿都不强
Www
围观~
厉害!
佬,厉害了。
https://arxiv.org/pdf/2407.21787v1
看了下原文章,感觉跟我目前的prompt agent差不多的想法,我也是先评估提供的prompt是什么类型,应该用什么temperature和样本数应该生成多少,在生成一堆样本,用ToT5个专家去打分,打分完了再交叉评估分数准确性,评估完再提取最高分的prompt,如果最高分的prompt也拉胯,那就再通过上一步的缺点和一堆评估去针对优化所有还可以的prompt,迭代多次tot打分出结果
目前问题这种多采样问题就是消耗token太恐怖了,还好deepseek现在上了kv缓存,同样的prompt请求价格能降很多,再就是多次迭代,中文变英文,或者哪次没遵守要求的json格式,后端根据格式取不到,这个样本就没了
楼主可以试试我的agent,目前还是没好的解决方案
神,膜拜
其实还是跟模型有很大关系,我看这论文也是用的deepseek,我试过公益的llama3.1,效果也挺好的,就是输入中文出现英文的次数太多了,deepseek还有个优点就是可以直接让它输出固定JSON格式,这样就为多次提取结果优化提供了极大的方便
几乎所有模型都被我试了个编(除了Gemini没api试),国内除了deepseek就是千问还行,最棒的还是4o和Claude3.5
目前我试过用Claude3.5 sonnet当最终优化的agent,效果是最好的,就是token消耗太恐怖了
Google ai studio的gemini实验版也可以固定json输出呢
学习!
记录记录,学习学习!
Mark学习
From #develop:ai to 资源荟萃