基于 OpenSPG-KAG 的知识库构建测试,多图慎入

开源地址:
GitHub - OpenSPG/KAG: KAG is a logical form-guided reasoning and retrieval framework based on OpenSPG engine and LLMs. It is used to build logical reasoning and factual Q&A solutions for professional domain knowledge bases. It can effectively overcome the shortcomings of the traditional RAG vector similarity calculation model.

测试模型
嵌入模型: BAAI/bge-m3
Chat模型: deepseek-ai/DeepSeek-V2.5

消费 0.1元左右(硅基流动赠金),被Graph吓怕了,没敢使用自己付费的API,上次跑了一篇文档直接给我跑欠费了

测试知识库(支持格式txt,csv,json,xml,log,md,pdf,doc,docx)
知识库中并没有影视剧相关的字眼,后面我故意想一个这类问题
此知识构建耗时4分钟(纯CPU):2025-02-14 08:14:00~2025-02-14 08:18:53

抽取效果

检索效果和推理过程如下

推理过程展开





效果评价

优点:

  1. 开源,部署简单,不折腾 :tieba_024:
  2. 检索效果比较好,优于现在比较流行的普通的 RAG 检索

缺点:

  1. 内置模型未开源,但是后续有开源计划
  2. 速度很慢,对于知识库变更不是很频繁的场景可以尝试使用 :bili_097:

总结:现在的 RAG 技术有两个优化策略,大拆(拆分成非常细的数据和关系)和大建(建立非常多的检索步骤)

42 个赞

速度很慢的意思是构建慢么?

7 个赞

是的,我详细编辑一下帖子

9 个赞

谢谢佬解答

5 个赞

再问一下佬,他这个慢大概是什么一个程度,还有就是需要N卡不?纯cpu可以构建么

4 个赞

我是纯 CPU,家用电脑,构建这个知识库大概几分钟的样子

4 个赞

您的知识库大概是多大的一个样本量呀

2 个赞

周杰伦(Jay Chou),1979年1月18日出生于台湾省新北市,祖籍福建省永春县,华语流行乐男歌手、音乐人、演员、导演、编剧,毕业于淡江中学。
2000年,发行个人首张音乐专辑《Jay》。2001年,凭借专辑《范特西》奠定其融合中西方音乐的风格。2002年,举行“The One”世界巡回演唱会。2003年,成为美国《时代周刊》封面人物;同年,发行音乐专辑《叶惠美》,该专辑获得第15届台湾金曲奖最佳流行音乐演唱专辑奖。2004年,发行音乐专辑《七里香》,该专辑在亚洲的首月销量达到300万张;同年,获得世界音乐大奖中国区最畅销艺人奖。2005年,主演个人首部电影《头文字D》,并凭借该片获得第25届香港电影金像奖和第42届台湾电影金马奖的最佳新演员奖。2006年起,连续三年获得世界音乐大奖中国区最畅销艺人奖。
2007年,自编自导爱情电影《不能说的秘密》,同年,成立杰威尔音乐有限公司。2007年,凭借歌曲《青花瓷》获得第19届台湾金曲奖最佳作曲人奖。2007年,入选美国CNN“25位亚洲最具影响力人物”;同年,凭借专辑《魔杰座》获得第20届台湾金曲奖最佳国语男歌手奖。2010年,入选美国《Fast Company》评出的“全球百大创意人物”。2011年,凭借专辑《跨时代》获得第22届台湾金曲奖最佳国语男歌手奖。2012年,登上福布斯中国名人榜榜首。2014年,发行个人首张数字音乐专辑《哎呦,不错哦》。2023年,凭借专辑《最伟大的作品》成为首位获得国际唱片业协会“全球畅销专辑榜”冠军的华语歌手。

就是这个

2 个赞

这个都要几分钟啊,那确实不是一般的慢了。我还说把我那专业书每本几百页的拿来测试一下,估计光是构建完都要好几天了

2 个赞

支持哪些格式

如果有显卡可以试试,也许显卡很快

支持格式txt,csv,json,xml,log,md,pdf,doc,docx

俺也没有显卡呀:rofl::rofl::rofl:

感谢佬分享 :bili_019:

1 个赞

支持佬友

1 个赞

mark一下 看看是不是可以参考(C+V)tieba_025

1 个赞

不多。没有教程多。

1 个赞

这个有点意思,回头试试看

1 个赞

太强了,大佬!

有意思, 希望后面佬友多出点教程, 学习学习