之前有佬友分享过一个小工具,能够以试读的方式下载部分文档。
然而,在一些付费文档或者仅能试读部分页面的文档中,这种方式无法解析成功。
比如下面这个文档,用市面上的解析工具都是不行的:
https://wenku.baidu.com/view/1a243b67b90d6c85ec3ac689
此外用上述佬友分享的小工具下载的字体和公式的格式可能会发生变化。
下面来介绍分享一下我自用的一种下载方式,即利用DocBox(稻壳阅读器)进行下载。
官网下载的稻壳阅读器最新版是能够免费阅读付费的百度文库和豆丁资源并且导出pdf的,但是最新版有个缺陷就是用虚拟打印机打印pdf的时候清晰度特别低。因此我们需要使用老版本软件来解除打印pdf分辨率的限制。
https://wwk.lanzouo.com/ioVMk22i411e
将软件下载下来,然后使用WinRAR不解压直接打开软件(防止其自动更新dll),然后搜索你要下载的文档的关键词。然后打印–选择虚拟打印机打印pdf即可。
对于有些页数较多的文档,可能无法直接打印。你需要首先拖动右侧页面滚动条,确保使其每一页都加载完毕,然后点击右上角的三个点–文件–另存为(可能需要微信登陆一下),保存为一个xdf文件(如下图)。
到这里还没结束,因为xdf是一种加密的文件格式,没法直接打开。我们还需要将其转换为pdf格式。将上一步生成的xdf文件再次拖动进这个阅读器中,此时由于文件已经是本地文件,因此点击左上角打印按钮的时候阅读器就允许我们进行打印了。
随后选择好相应的虚拟打印机,打印出pdf即可。用这个方法打印出来的pdf是高清的,不过美中不足的是只能以图像pdf的方式打印,其中的元素和文字是不能够直接编辑的。
想要将图像pdf转换成双层可编辑的pdf,你还需要通过Adobe Acrobat或者开源软件Umi-OCR等软件进行ocr识别,最终生成可复制文本内容的pdf。