各位佬们,将文档划分成数据集,供大模型微调,有什么方法可以借鉴的吗

:raised_hands: 求助各位佬:
现在有一份30万字的文档,是一份医疗指南,想将其转换成数据集,用来进行大模型微调。
:pleading_face: 佬们有推荐的方法吗

6 个赞

我只会用知识库自动划分,用o1 mini生成qa

2 个赞

谢谢佬!我也试试

如果只有一份文档,可以看看是把他embadding做rag,这种比较容易,还是像前面佬友一样,先将其细分到最小单元:阐述每个概念的一句或多句话,接着通过NLP工具将其转为QA对,如果是带图片的则转为VQA对,接着人工校对

2 个赞

:bili_044: :bili_043:感谢佬的建议
1、目前先尝试一份文档,后续可能会多添加几份
2、文档不带图片
想使用qwen2.5 7b

还有如果同时做:微调+RAG。效果会好点吗

论文表明,rag+微调会效果更好,但是没实践过

3 个赞

好的,非常感谢!

没事儿 :grimacing:

大佬方便分享下数据集(如果不涉及版权之类的)吗?我需要一些中文文本来完成验证zipf’s law的作业,谢谢。

想问问大佬有具体什么步骤吗,我也想试试这样子,我目前只会调用cherrystudio的知识库,大数据量效果很差 :joy:

如果数据量不多可以试试rag,同时还有一些软件网页:anything、ragflow、dify

huggingface上应该有挺多

是的我用了ragflow,效果挺好的可以试试,微调模型的话感觉硬件成本貌似有点高

1 个赞

https://unsloth.ai/blog/dynamic-4bit
……

每个字分开认识放一起就不懂了

你之前是直接文档上传到cherrystudio的嵌入模型效果不好,现在用ragflow效果挺好,是这意思吗?我也是用cherrystudio嵌入模型做rag效果不好,还在研究怎么优化。

我的做法参考TextVQA论文

对,在ragflow中提问他起码知道我在问什么并且引用的内容也能显示出来

问一下佬,o1 mini 生成qa的提示词是啥?

不需要啊,dify自动的
我也不知道提示词是啥