(\ _ /)
( ・-・)
/っ Exa AI、Fal 带伙已经嫖过了,还有个不错的:Firecrawl
↓ 简单的说,同类的 ↓
模型 | 星级 | 描述 |
---|---|---|
WebPilot | ☆ | 免费版 8192 上限,超出截断 |
Jina-AI | ☆☆☆ | 能抓全,开源项目。但自己懒得维护。。 |
Firecrawl | ☆☆☆☆☆ | 专业级商用爬虫。超多可选参数。。 |
领取方式一样,在 🔥 免费薅 $50 绘图工厂ヽ有 Imagen 3ヾ【完全体】的 Flux Pro、Ideogram! Fal 和 Exa AI 隔壁。
然后到 Firecrawl 兑换。
消耗是 按次数 算的。能刷,但没必要,一个都够用到智械危机了。
↑ 能直接返回 Markdown 格式总而言之。
(\ _ /)
( ・-・)
/っ 然后以 firecrawl 为例,将其添加到 NextChat 作为插件用。
简单的说就是让 NextChat 去干 Curl 的活。
例如要读取 https://www.66law.cn/tiaoli/9.aspx
这个网站
曾经初次接触 WebPilot 也是以此为例,但是输出到第七十五条就固定截断了,后来才知道是 8192 上限的缘故。
NextChat 插件添加步骤
第①步:点左上「发现」→「Plugins」→ 新建
- 授权方式选 Bearer
- 位置选 Header
- Token 填你自己 Firecrawl 的 Key (其 他 同 类 接 口 一 样)
- 把使用代理的框框勾上。
第②步,也就是本贴为了这馅包的饺子 —— OpenAI Schema
要用 Firecrawl 直接把 ↓ 拷进去就行
openapi: 3.0.1
info:
title: Firecrawl
description: 通过 Firecrawl 读取 URL
version: 'v1.0'
servers:
- url: https://api.firecrawl.dev
paths:
/v1/scrape:
post:
operationId: fetchingURL
summary: 使用 Firecrawl 将网页处理成 JSON、Markdown
requestBody:
required: true
content:
application/json:
schema:
type: object
required:
- url
properties:
url:
type: string
additionalProperties: true # 允许额外的任意属性
responses:
"200":
description: OK
security:
- BearerAuth: []
components:
securitySchemes:
BearerAuth:
type: http
scheme: bearer
必要项解释:
openapi
: 规范版本info
: 基本信息(标题、描述、版本)servers
: 服务器 URLpaths
: 至少一个路径端点operationId
: 操作标识符(用于模型调用函数)security
和securitySchemes
: 如果 API 需要认证
隔壁 Exa AI 只需 必要项 就已经可以正常跑了,但 Firecrawl 的 /v1/scrape:
估计不太常见所以还需要特别声明 requestBody
。
第③步:在 System Prompt 构造请求体,也就是在示例页的 Curl 部分
可以指定处理成 Markdown 之类,但我不需要,就略过所有的 [可选] 项,只保留最基本的就行。然后用 Curl 调试一下,请求成功就可以直接把 JSON 请求体部分拷到 System Prompt 里了 ↓
将用户提供的 URL 置入 `url` ↙
'''json
{
"url": prompt,
"onlyMainContent": true,
"removeBase64Images": true,
"blockAds": true,
"proxy": "basic"
}
'''
(\ _ /)
( ・-・)
/っ 然后,然后就结束了,要用的时候记得点对话框上方最右的「插件」按钮先选中它就行。
更精简的 Exa AI
openapi: 3.0.1
info:
title: Exa-AI Search
description: 通过 Exa AI API 联网搜索的插件
version: 'v1.0'
servers:
- url: https://api.exa.ai
paths:
/search:
post:
operationId: exaQuery
summary: 使用 Exa AI 进行联网搜索
responses:
"200":
description: OK
security:
- BearerAuth: []
components:
securitySchemes:
BearerAuth:
type: http
scheme: bearer
System Prompt:
按用户要求将关键词置入 `query` ↙
'''json
{
"query": prompt,
"type": "keyword", // auto | neural | keyword
"*useAutoprompt": true, // Converts query to Exa-style query
"*startPublishedDate": "2000-01-01T00:00:00.000Z",
"*endPublishedDate": "2025-12-31T23:59:59.999Z", // Published Range.
"numResults": 20,
"contents": {
"text": {
"maxCharacters": 4096
},
"livecrawl": "always"
}
}
'''
* 无论使用什么语种搜索,都始终以中文回答。
* 如果搜索没有返回结果,请直接告知用户 "**未找到相关信息**",不要尝试重新搜索。
* 在最后返回本次查询使用的 prompt。
总而言之就是将你 Curl 调试的请求体直接扔 System Prompt 就完事了。
接入大模型的好处除了信息汇总外,最重要的是跨越了语种门槛。