想创建个自己专业的知识库,该如何选择呢

如题,想弄两个知识库,一个用来读论文一个用来读教材……
目前论文的知识库收了50多篇感兴趣的论文,在cherrystudio上用deepseek的模型和硅基流动的embedding,用着似乎还可以,标明了出处,但是下面的引用内容不能直接点开,而且也没有出处的具体位置


而读教材的知识库就灾难了,尤曼斯神经外科学这书六千多页,导进去后问了问题连页码都没有,不知道是设置问题还是怎么回事,还望各位佬友教我。

以及请问这种需求是否用本地部署更合适呢,感觉token的消耗也是嘎嘎快

2 个赞

需求主要还是检索,搜到知识的位置还是得自己去看的,想节省检索这能砸死人的书的时间

RAG这东西目前其实刚起步,现在能做的都是通过嵌入模型来划分文本匹配相似度。

1 个赞

嗯,这点我还是清楚的,主要还是想节省寻找的时间,能把感兴趣的部分筛出来快速导航就谢天谢地了

我也部署了个fastgpt,引用倒是可以打开,也能回复图片和表格,就是知识库文档多了会搜索不到想要的结果。其他也尝试了dify、ragflow等,各有各的缺点,都不太满意,估计还要等发展几年成熟一点才能用的舒服。

1 个赞

看来缺陷还比较多,那如果想用一本六千多页的教材构建一个知识库,哪个比较好用呢

把所有的文件放在 Google Drive 然后 @你的 Google Drive 就可以了

感谢建议,这个效果看起来不错,但不是很想用google drive,请问要做到这种效果有什么替代方案吗

那就不知道了 我的open webui也是基于 Google Drive的

notebooklm试试,我之前也有你类似烦恼,我现在用notebooklm还行

那个不是限制10个文件么 而且 这种谷歌自家的产品 最方便的还是链接到 Google Drive吧

现在是50个。我没有链接到Google drive,

记错了 查了下 plus 是单notebook 300

:rofl: plus可以白嫖吗

没有试过这么长的,我几十个文档,每个大概几十到几百页,还要用其他的把pdf转成markdown,再塞给fastgpt,相对来说我觉得这个适合我的要求,你可以都试试。

Pixel 手机送一年 Gemini Pro

好的谢谢,感觉可以参考一下

pdf 用软件 提取出来 附加一些 页码等等信息 ,原生pdf不一定好用,或者换大模型可能也有一些差异

按章节去拆,拆成每一章节小的