用cursor写了个网页内容提取工具，带api，从而让AI能够读网页链接

eggacheb · 2024 年12 月 29 日 10:01

更新了第二版项目，请见用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML，从而让AI能够读网页链接 - 开发调优 - LINUX DO

起因

因为之前用下面这个项目的时候，有使用限制，请求多了之后就会被认为是在DDoS攻击它的网址，而且提取的内容有点不太符合我的要求（无关元素有点多）。然后我就用cursor照着这个功能写了一个带api的，方便在别的项目里使用。

它将任何 URL 转换为 LLM 友好的输入，并使用 https://r.jina.ai/https://your.url 。免费提高您的代理和 RAG 系统的输出。

项目地址

因为喜欢白嫖各种容器平台，所以一般我写项目会写可以部署到vercel或者render的，所以这个项目可以一键部署到vercel。

在线演示

访问 https://web-content-extractor.vercel.app 体验在线版本。

API请求示例，访问 https://web-content-extractor.vercel.app/api/extract?url=https://www.bbc.co.uk/news/articles/c4gxqep4zk3o

使用体验

目前用下来看，大部分网页是可以正常提取的，除了天气预报的网页，以下是我接入给ai后的效果,模型是gemini-2.0-flash-exp

最后

要是有佬友可以帮忙优化一下提取页面的效果就更好了，如果你喜欢这个项目，请不妨点个 Star
如果佬友们有项目的意见的话可以提一下，欢迎提交 Issues 和 Pull requests。

fantasy · 2024 年12 月 29 日 10:04

来支持一下，感谢分享

wananns · 2024 年12 月 29 日 10:05

这也太酷了佬

Reno · 2024 年12 月 29 日 10:05

cool！

unique · 2024 年12 月 29 日 10:05

太酷啦~

handsome · 2024 年12 月 29 日 10:07

有点怪

unique · 2024 年12 月 29 日 10:12

我还在想有点怪是ai说的呢

eggacheb · 2024 年12 月 29 日 10:18

噢，想起来了示例网址是fork项目的小号，忘记更新了，正常应该是下面这样的，现在更新了

aipanda · 2024 年12 月 29 日 10:18

赞赞赞

snaily · 2024 年12 月 29 日 10:33

大佬太强了

misakamisaka20002 · 2024 年12 月 29 日 10:36

哇，面包大大的又一新作

cm123 · 2024 年12 月 29 日 10:43

用你网页测试下发现公众号的内容提取不了 jina 可以提取

Moors · 2024 年12 月 29 日 10:50

用起来不错

eggacheb · 2024 年12 月 29 日 10:58

我忘记试这个了，晚点改改

cohen8s · 2024 年12 月 29 日 11:12

poe快到期了，非常需要这个！

rtyu · 2024 年12 月 29 日 11:26

太强了大佬

lueluelue · 2024 年12 月 29 日 11:38

太强了！

ziling · 2024 年12 月 29 日 12:06

用ai糊了一下，可以在nextchat当搜索插件使用

{
  "openapi": "3.1.0",
  "info": {
    "title": "Web Content Extractor",
    "description": "Extract content from a given URL using the Web Content Extractor API.",
    "version": "v1.0.0"
  },
  "servers": [
    {
      "url": "https://web-content-extractor.vercel.app"
    }
  ],
  "paths": {
    "/api/extract": {
      "get": {
        "operationId": "ExtractWebContent",
        "description": "Extract content from a given URL.",
        "deprecated": false,
        "parameters": [
          {
            "name": "url",
            "in": "query",
            "required": true,
            "description": "The URL of the webpage from which to extract content.",
            "schema": {
              "type": "string"
            }
          }
        ],
        "responses": {
          "200": {
            "description": "Successful extraction of web content.",
            "content": {
              "application/json": {
                "schema": {
                  "type": "object",
                  "properties": {
                    "content": {
                      "type": "string",
                      "description": "The extracted content from the webpage."
                    }
                  }
                }
              }
            }
          },
          "400": {
            "description": "Bad request. The provided URL is invalid or missing."
          },
          "500": {
            "description": "Internal server error. The API encountered an issue while processing the request."
          }
        }
      }
    }
  },
  "components": {
    "schemas": {}
  }
}

logantao · 2024 年12 月 29 日 12:11

牛呀牛呀，感谢分享

syclove · 2024 年12 月 29 日 12:54

知乎好像提不了，个人使用，完全可以做到，只是并发低点

话题		回复	浏览量
用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML，从而让AI能够读网页链接开发调优人工智能 , 软件开发	63	1320	2025 年1 月 20 日
开发了一个新的 AI 客户端 - AI as Workspace 资源荟萃人工智能 , 推广	200	3687	2025 年2 月 3 日
【api check】完全重构全新版本 v2.1 + v1.5 开发调优 OpenAI , 人工智能	101	4311	2025 年1 月 26 日
Linuxdo增强插件：我活了，改名 LinuxDo Scripts 扩展 1.0.1 开发调优软件开发	372	5538	2025 年2 月 4 日
（已打包）ChatAnywhere 2，一个智能补全的 Word Copilot 开发调优 ChatGPT , OpenAI , 人工智能 , 软件开发	43	1172	2024 年12 月 23 日

用cursor写了个网页内容提取工具，带api，从而让AI能够读网页链接

起因

项目地址

在线演示

使用体验

最后

相关话题