2 个赞
pdf是图片版的吗
算是?我直接在cs的官方教程导出的pdf文件,想试试效果
embedding模型没有OCR功能吧……
pdf 文档向量化详细过程 - 技术栈
那如果我转换成word文件,可以用吗
图片版pdf转word=图片版的word,需要找ocr的,一般需要收费毕竟是在服务器上跑的,或者你本地ocr
借楼问有什么好用的embedding模型?
就用硅基流动免费的就行
1 个赞
你手动划一下pdf看看能不能划到文字,如果不能就说明是图片。这个知识库只能识别 PDF 里面的文字
2 个赞
扫描档的pdf是不行的。试试自己写个loader 调用ocr识别文字 lol
要识别pdf文字可以用ABBYY FineReader PDF,这个识别个人觉得最准
1 个赞