Yez
(Yez.ai)
1
之前测试Gemini2.0正式版的多模态能力,尝试了文档转录的demo
最近利用业余时间在demo的基础上做了一些代码和提示词优化,同时撸了一个简易的前端页面,自己测试了一些特殊的PDF文档(多栏/公式/表格等),准确度都还比较理想,同时添加了一个基础的双语对照翻译功能
实现思路大概是利用工具切分PDF,然后直接将文档丢给大模型进行初步处理,处理完成后,对返回数据基于正则等相关内容进行二次处理
由于用了gemini2.0模型,所以对用量基于授权码做了一下限制,每个授权码至多转录100页
有需要的佬欢迎试用,目前图片插入原文位置的坑还没填,但已经有实现思路,后续如果有时间会来填坑,同时会增加自定义大模型key
临时折腾的小玩意,希望大家多提意见和建议
站点地址:pdf2md.aitranspdf.com(纯公益,无推广性质,上传的文档数据2小时后过期)
希望佬友们善意使用,如果扛不住成本或者其它压力时,我不保证随时跑路 
32 个赞
Yez
(Yez.ai)
2
e2e2333869ce462ea34b2df3838e2424
65e5649b96c9472584f4ab2bd3f5cd4f
7461d35434d74d44917e45b562a32843
先放三个授权码,每个转录额度100页,可共用
1 个赞
cursor
(cursor)
3
感谢佬友分享。能OCR处理图片pdf吗,很多资料只有图片版
Yez
(Yez.ai)
7
哈哈,因为是业余随手撸的小工具,确实没有考虑移动端使用的问题
等我后面有空时做一下适配 
zzq
8
虽然是个好项目,但是想做大的话这么搞成本压不下去啊。
1 个赞
Yez
(Yez.ai)
9
目前在gemini2.0flash下测试来看,平均6000页PDF的提取成本在1刀左右,成本我个人感觉应该还能接受
Yez
(Yez.ai)
20
51b265e08b3c4e74be56b057f2090e76
260b0c11650b4a598f15c3a3d5e2c836
5a0a624351ec472b83a69cb4dbe5c1ba
前面放的三个授权key已经用完了,这里再放3个,后续有需要的佬友可以留言获取,我看到之后回复
大家轻点薅 