我想把我们学院的网页全部爬下来存为无格式的txt,我应该把每个网页当作一个文件还是应该把所有的都放到一个文件中
训练的时候的向量模型可以自建吗?有没有相对免费的api key可以使用?
我想把我们学院的网页全部爬下来存为无格式的txt,我应该把每个网页当作一个文件还是应该把所有的都放到一个文件中
训练的时候的向量模型可以自建吗?有没有相对免费的api key可以使用?
可以试试cherry studio,知识库选择站点地图,把学院网页站点地图加进去。
嵌入模型可以用硅基流动的免费嵌入模型bge-m3。
索引完成后,记住对话的时候从对话框勾选知识库。
感谢,但是学院好像没有sitemap
embedding 模型 bge m3 开源的,可以本地跑,也可以用硅基付费的,百万token 7分钱(可以用赠金),免费的那个太慢了。
肯定是一个页面一个知识库比较好,但是训练应该是用不上知识库的,只有推理的时候才需要挂知识库
Jina Reader 和 Firecrawl 都有整站爬取功能。我觉得最好是一个网页一个文件(主要方便你自己阅读和管理,对于建立知识库其实影响不大)。向量模型还是用 API 吧,也不是很贵。
一个网页一个文件,然后每个路径的所有子路径(不太懂前端,不知道这样描述对不对)都放在一个文件夹中,域名也是,类似这种
太巧了,我也在做这个,我用的本地部署的firecrawl,可以获取url对应的内容和urls,它生成sitemap的功能本地好像有点问题,我是正则一级一级的清洗的
其实学校贴吧,校园集市都有许多有用信息,都能爬下来做知识库内容,贴吧可以用aiotieba这个库,校园集市可以试着逆向一下,挺简单的,api都没加密,cookie也基本是永久的,我的挂了快半年都没事
每个网页做文件好了,没必要放一起,还可能丢信息
向量模型硅基有免费的bge-m3,还有免费的重排
自建 bge-m3 占用显存 2g 不到 bge-m3 的重排稍多一点大概 3g 不到 用的 vllm
个人使用其实可以考虑用腾讯的ima.copilot,如果未来不收费的话
肯定会收费的
硅基有嵌入和重排模型,少量文本资料用免费的就行了
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。