【求教】如何搭建并且训练一个自己的大模型

【需求】
想要自己训练一个大模型,数据集可能来源一些专业群的大佬解答,一些实验室老师给的聊天记录回复以及师哥师姐的一些笔记之类的。类似FAQ机器人这样。可以理解提问者的语意并且给出建议以及解决方案。可以是提醒点也可以是资料链接、论文链接等。大概就是这样。
【提问】
有没有现成的开源的方案?
需要使用哪些技术来实现?可用的模型有没得?

6 Likes

动不动就训练大模型,要不你先说说你有什么硬件资源先?

3 Likes

这个不需要训练大模型,使用已有的API和RAG即可。

大的卡组买不了,小型的十几块实验室还是买的到的。学校也有自己的机房。

主要是不能放出去,只能自己内部用。很多资料,没办法行程一个大的检索回答机制,都需要自己去翻,自己去找

你好,你要找的可能是fastgpt ,开源的,自己搭一个去丰富知识库就行了。
这个搭建简单,丰富知识库是个漫长的过程。我以前搭过,拿去当游戏群的问答机器人,后来懒得弄知识库我就放弃了。
简单点说,他有两种模式,一种是可以接入chatgpt,把向量数据库搜索到的关键内容传递给gpt,让gpt根据传递过去的内容来总结回答。
另外一种模式是纯本地数据库,不依赖第三方大模型,命中了就回答,没命中就返回没有查询到相关结果。

4 Likes

下载一个 gemma ,然后 fine-tune 一下

21 Likes

不用训练,只需要搭建一个知识数据库就可以。
现成的项目可以参考楼上的fastgpt,也可以自己通过langchain+chroma搭建一个基于向量数据库索引与LLM的知识问答程序

1 Like

只能内部使用的话如果涉及到严格机密,那就embedding操作和LLM都用离线开源的。
如果能接受使用openai的API去生成知识embedding的话建议先用API生成,好像是OPENAI的词向量生成要比开源效果要好很多。后期命中的概率也会非常高

大模型(基础模型),自己能搞吗?有那么多资源和钱吗?一般自己训练个专一用途的小模型还是可以,比如识别图片内容,识别音频,识别车牌等。你的要求一般知识库检索增强生成就可以。或者用微调(嵌入)或者提示工程训练基础模型为自定义模型就可以了。

你的小尾巴好好看 我可以偷走吗

随便拿 :grin:

21 Likes

你小尾巴尺寸问题我已经拿掉了

4 Likes

感谢~

感谢

感谢感谢

fastgpt+gpt3.5或者gpt4

我是做运维的,搭建了fastgpt,然后把看到的技术书籍喂给它,调用gpt3.5 embedding 以及gpt4 进行知识库问答。

5 Likes

mark 训练自己的大模型

1 Like

微调不行吗?