知识稀疏下的RAG，想针对这个场景进行RAG优化，求研究生大佬给一些Idea，想毕业。

RoderickZH · 2025 年3 月 14 日 06:57

研二档，目前做RAG，开题开的是信息稀疏下进行RAG的优化，但是完全不知道应该怎么优化。
目前想到的也都是缝合怪。

缝一个Web搜索更新知识库
缝一个多重检索（单词匹配+语义相似度）
缝一个验证模块，验证检索到的知识和问题是否相关
缝一个重排序模块，
最后缝一个嵌入过程，不把知识作为prompt，而是把知识作为参数传给LLM，使其不用解析。

但这些现在都有人做了，还有什么可以做的啊。
开题写的是缝一个数据增强模块，将检索到的知识重构成为新的格式，然后微调一下LLM，使其能够更好的从新的格式下的知识里面挖掘有效信息。
但是完全不知道该怎么做，现在没baseline，也没数据，也没想法。

求帮助，有大佬带可以有偿（分期），目前学生，一次可能给的比较少，找到实习后可以+钱。

可以弄个合同，（我不会跑路）

看了很多科研机构，但都太贵了，最便宜的也要3w块，一次属实拿不出来。

孩子想毕业。

zhuoi · 2025 年3 月 14 日 07:04

帮顶，也想知道怎么搞，大佬知道可以分享下

Yohanes · 2025 年3 月 14 日 07:11

大佬好！对于语义稀疏的场景，个人感觉本质无非就是扩展信息渠道，使得语义稠密。像你说的 1,2,3都是在这方面下功夫！但我从实际的 RAG 工程来看，语义稀疏的问题，不单单要从这方面下功夫，更重要的是诱导用户去提供更多的内容信息，或许你可以试试从诱导信息这方面入入手呢？有机会可以加个好友一起聊一下，我只是对这方面比较感兴趣，但并不是什么高学历人士～

RoderickZH · 2025 年3 月 14 日 07:13

你说的这个方向，实际上是扩展知识库把。这个怎么发文啊，

但我针对的场景就是信息稀疏的场景。

比如说某个县城1950年的历史什么的，这类信息不管怎么样都不多。

Yohanes · 2025 年3 月 14 日 07:13

说的跑题了啊哈哈哈，不过真的只是 idea 的话，可以试试图数据库之类的思想，建立一个数学模型，让他信息补充的更贴近语义？（或者专项小模型之类的）

RoderickZH · 2025 年3 月 14 日 07:17

这是让LLM生成的内容填充数据库么？
这样会有幻觉的吧，

Yohanes · 2025 年3 月 14 日 07:18

幻觉是必然会产生的，但问题是如果带来的好处大于坏处，那这个幻觉也不是不能容忍

RoderickZH · 2025 年3 月 14 日 07:20

对于信息稀疏的领域，领域内知识几乎不可能出现在LLM的内部知识中，那这样得到的几乎全部是幻觉把

Yohanes · 2025 年3 月 14 日 07:20

做一个强化学习的模型（语料都是专门用来解析用户意图并识图补充完善意图的语料 + 深度思考过程的）

RoderickZH · 2025 年3 月 14 日 07:21

类似这样？专门用来增强查询？

RoderickZH · 2025 年3 月 14 日 07:23

或者这样？用一个LLM来做重写的事情？

Yohanes · 2025 年3 月 14 日 07:23

对，看来是已经有了是吗

RoderickZH · 2025 年3 月 14 日 07:27

是的，这两个第一个是24年的，第二个是23年的。

我能想到的方法，基本已经都被做过了。

想毕业。。。。。。。。。。。。。。。。

Yohanes · 2025 年3 月 14 日 07:30

这岂不是很尴尬

RoderickZH · 2025 年3 月 14 日 07:31

qs，最近已经忙疯了。

疯狂的看Java八股，Java项目和力扣，准备投Java实习，还差70%把，每天全力干，月底应该可以过完一轮有个大概印象。

现在还要组会上说说最近的进展，我最近科研啥也没干，水都不知道可以水什么。

头疼的要死

wu_wenyao · 2025 年3 月 14 日 07:33

学习一下RAG改进的思路，有具体的实现吗

RoderickZH · 2025 年3 月 14 日 07:34

我没有自己的实现，但是现在论文基本都开源代码。现在还有很多开源的RAG框架。

哪个都可以试试看吧，

Praxis · 2025 年3 月 14 日 07:41

听起来像是deepresearch后转rag？

RoderickZH · 2025 年3 月 14 日 07:44

有没有什么不扩充知识库的想法？

我的想法倾向于对检索到的结果进行数据增强，使得LLM可以更好的挖掘数据中的知识。

目前普适的方法是用重排序，把相关性高的知识放在给LLM的输入的前面以提高其权重。

Praxis · 2025 年3 月 14 日 07:55

重排不重排的，如果llm上下文够大，资料全丢进入，llm自己就能重排，因为本身重排也是rerank模型在做
rag研究如果不做rag本身，就应该做自动化扩充知识库->由llm信息交叉验证->呈现有序可信的知识，因为这个是使用llm+rag的根本目的。
比如某个县城1950年的历史，县志，地方类型小说，历史类书籍，报纸，这都是人类需要消耗大量精力才能整理归纳的知识，通过llm快速搜索快速整理，交叉验证出可信的部分，其余的孤证也一起列出或者二次搜索验证，这种效率上的显著提升怎么也够你过关了。

话题		回复	浏览量
求助深度学习怎么水篇sci毕业搞七捻三人工智能 , 快问快答	19	1100	2024 年12 月 28 日
本帖无偿帮助Agent开发，解答相关问题开发调优人工智能 , 作品集	133	2364	2025 年3 月 24 日
我想给自己学校，微调一个大模型，专门回答学校相关的问题开发调优人工智能	41	1667	2025 年3 月 22 日
5GB左右企业私有pdf文档，想要基于大模型进行自建私有知识库，有请大佬们进来交流资源荟萃人工智能	51	3090	2025 年2 月 13 日
自己用AI开公司一年后，对AI实际参与工作和取代某些职业的思考开发调优人工智能 , 职场	44	1532	2025 年3 月 23 日

知识稀疏下的RAG，想针对这个场景进行RAG优化，求研究生大佬给一些Idea，想毕业。

相关话题