能否让模型只从知识库而非自己数据集中获取获取数据,从而减少幻觉?

针对某个特定领域的问题,我已经提供了知识库(RAG)。当提问到相关问题时,是否有一些prompts能让模型严格从知识库中获取,而非自己的数据集,从而减少错误?

场景:

一款冷门但是复杂的专业性软件,主要是通过命令交互。知识库是大量的软件帮助/教程,已经使用RAG,UI是lobechat,经测试已可以正确查找。

模型无论是gpt还是claude,数据集对这款软件的命令掌握的非常差。

让模型生成对应命令时,还是存在随机的错误。这些命令的用法在知识库中都是存在的,但是依然有概率不查找数据库,而是模型自己瞎编。

12 Likes

dify, fastgpt这类工具会优先从知识库中提取答案

2 Likes

试过了,不知道什么原因,还是会有幻觉

补充下场景

一款冷门但是复杂的专业性软件,主要是通过命令交互。知识库是大量的软件帮助/教程,已经使用RAG,UI是lobechat,经测试已可以正确查找。

模型无论是gpt还是claude,数据集对这款软件的命令行掌握的非常差。

让模型生成对应命令时,还是存在随机的错误。这些命令的用法在知识库中都是存在的,但是依然有概率不查找数据库,而是模型自己瞎编。

或者是否能在对话中使用指令让大模型从知识库中查找?

这我就不知道了, 可以等等其他人的答案

帮顶 API调用 promote rag 感觉都好复杂呀

完全不用模型自身知识,需要微调才能实现,参考Microsoft copilot studio就有这个选项

顶一下,有没有什么好方案

RAG要分段然后找相关段,相关算法都是自动化的,自然不能完全避免掉。

最好是自己懂一些,然后手动喂它相关性高的资料。

AI的上限取决于使用人的上限。

7 Likes

始皇大人 我有个小疑问
高质量的RAG算是行业机密吗?
论坛还是promote的讨论多一些

能在prompt上做做文章吗,提示他不要产生幻觉,只能在给定的知识中查询答案

要求它不产生幻觉就好比你丢一张新的高考试卷,要求它必须全部做对一样。是不切实际的

问题在于你给的数据是不是那么全面,能涵盖你的问题。

1 Like

可以看看txyz.ai,是个读论文的ai,看他们说会严格从论文中找答案避免幻觉,用的是特殊方法自训练的模型,后续可能会开源训练过程之类的,可以看看

1 Like

现在都是手工活,纯经验,不同企业还不通用,能上召回 85 就是不错的的

1 Like

理解 算是AIGC+时代 AIGC重塑生产力!

现在的问题是模型本身不存储数据,他只是学习到了如何通过概率生成下一个字。

模型本身也是由数据训练的,你说这话那就没法聊了

From 快问快答 to 开发调优

1 Like