用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML,从而让AI能够读网页链接

用cursor写了个网页内容提取工具,带api,从而让AI能够读网页链接继续讨论:

因为之前写的那个项目不能提取微信文章,但又不好说那个项目有没有别的适用场景,所以我另开了个仓库来写这个用来新的提取器的项目。我选择了使用 opendatalab/magic-html — opendatalab/magic-html (github.com)来作为提取的网页的主力,然后将jina作为备用之选,因为它可以提取到知乎的内容,所以知乎的内容是没有html格式的。

它将任何 URL 转换为 LLM 友好的输入,并使用 https://r.jina.ai/https://your.url 。免费提高您的代理和 RAG 系统的输出。

项目地址

这次也是可以一键部署到vercel的

:link: 在线演示

访问 https://magic-html-api.vercel.app 体验在线版本。

API请求示例,访问 https://magic-html-api.vercel.app/api/extract?url=https://mp.weixin.qq.com/s/kpYNMhk2Ut4uz2NoD_ydvw



  • 与AI结合实现AI读链接,模型是gemini-2.0-flash-exp

最后

  • 第一次做python部署到vercel的项目,给折磨了两天才部署上去。如果你喜欢这个项目,请不妨点个 Star​:star2:
  • 要是有佬友可以写个openwebui的函数调用就好了,昨天有佬友写了个nextchat的
  • 如果佬友们有项目的意见的话可以提一下,欢迎提交 IssuesPull requests
64 个赞

cursor自带web链接读取功能啊

7 个赞

酷毙了!

6 个赞

是为了给用api的ai可以读到网页链接做的,像下面这样

4 个赞

很好用 :tieba_087:

6 个赞

哦哦,可以的

5 个赞

先收藏了 :tieba_087:

2 个赞

支持一波,

2 个赞

:+1: :+1: :+1:

3 个赞

很棒点赞收藏一下 :star_struck:

3 个赞

不错不错,做大 做强

3 个赞

留个记号备用

1 个赞

纯ai实现的?cursor可以读取整个项目?

1 个赞

嗯,我没有写过一句代码

1 个赞

体验了下,确实不错:+1:

1 个赞

好东西,mark了

1 个赞

:+1:亲测好用~~同时,有个小疑问啊,类似这样的链接,为啥就读取不到,是因为有反爬虫吗?

代码看起来不多,等会看看。

太强了吧

1 个赞

公众号文章内容没有分段。