最全的文档阅读产品评估

最近Kimi作了比较多的宣传推广,想聊一聊其核心功能:文档阅读,文档阅读目前存在两种主流的做法:

  1. RAG(检索增强生成):具体来说就是给定一个文档以及问题,会根据问题检索文档中相关的部分,然后把这部分内容(并非整个文档)放到prompt里面去给大模型来回复问题。
  2. 完整输入:直接将文档内容完整的放到语言模型输入中,这样不会面临检索过程中的信息丢失/不完整的问题,因此理论上来说效果要更好一点,但是依赖语言模型输入的长度(以及这种方式成本较高)。

对于第二种做法核心在于语言模型的上下文窗口可以装的下整个文档,首先我们可以看一下目前最先进的语言模型的上下文窗口长度:

GPT-4-Turbo(128k),Kimi(128K,最近发布了2M的内测),Claude-3(200K,支持1M的版本仅提供给特殊用户),Gemini-1.5-pro(1M,最长支持10M上下文大模型)

其他流行的开源模型一般上下文窗口比较长的在32K,距离商业模型之间存在一定差距。

然后我们关注不同文档文字数量:

  1. 小说

    传统文学作品:短篇小说:通常在1K至7K字之间。中篇小说:字数通常在7K至20K字之间。长篇小说:字数范围在20K至100K字之间。

    网络文学作品:大部分都在1M到10M之间。

  2. 论文

    简单的对CS/AI领域论文进行估计总字数在10K到50K之间。

结论是:目前比较强大的模型可以将小说(除了网络小说)、论文完整输入。

基于以上语言模型,有很多产品可以用来做文档阅读(主要关注单文档阅读):Kimi、Claude、ChatGPT(all-tools)、Bing、通义智文、ChatPDF、ChatPaper(专门关注论文阅读场景)、有道阅读助手等等

基于个人使用体验来说:我总结出来了每个产品的优势以及劣势:

模型 优势 劣势 技术路线 底层模型
Kimi 非常快、准确、方便(可以直接给链接)、可以pdf内容预览、更重要的是免费 某些链接后缀不是.pdf的文档无法解析(测试了openreview),pdf预览体验一般 完整输入 Kimi
Claude 语言模型强大,并且准确 不支持提供文档链接来阅读,免费版本提问有次数限制 完整输入 Claude-3
ChatGPT 语言模型强大、检索性能也不错、GPTs可以访问arxiv 速度较慢,有成本(plus会员),不支持预览 RAG GPT-4-Turbo
通义智文 多种模式可以选择,针对论文可以同时提供文字对应的图片,pdf预览方便,支持全文翻译 自带的prompt一般,并且pdf文档解析不精确,检索性能也一般 RAG Qwen-chat
ChatPDF 专注于PDF文档阅读,支持多种元数据识别 检索性能一般,免费版本限制每天2篇 RAG gpt-3.5-turbo
ChatPaper 针对论文阅读,针对arxiv论文阅读方便,针对论文内容的解析较好,自带的总结prompt不错,白嫖基本够用 检索性能一般 RAG, 提示工程 gpt-3.5-turbo
有道速读 支持全文翻译 尚未涵盖广泛的文档类别,功能有限,免费版本每天限制3篇文章 RAG, QAnything 未知

在我个人使用过程中,kimi几乎可以满足论文/小说阅读的所有要求,体验比其他模型都好。这也是国产AI在垂直领域的突破。

评论区各位也可以分享你们在相关场景的使用体验以及推荐。

10 个赞

kimi200万字资格还在排队ing

我也是,前几天看到kimi 开发者群的一个聊天截图,最近因为宣传,导致他们资源好像有点不够用

有些人说kimi是rag

不知道后续收费是什么情况

我感觉以kimi对于文档的召回质量,如果是RAG的话,那说明检索做了巨好的优化