用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML,从而让AI能够读网页链接

分段选输出markdown格式

飞书应该处理不了,毕竟我的和jina都处理不了这个

1 Like

已经选择markdown了
你试试看https://mp.weixin.qq.com/s/2kh73nGWBy6Fa-sRUhGfSQ

1 Like

感谢大佬分享

1 Like

纯文本提取出来的就是分段的,在api里\n就是分段符,是给ai看的


你这个有点大材小用了,用groq或者cerebras的那个免费llama3.3 70b就行,也很快,而且不要钱,默认支持json输出

1 Like

你不说,我还真不知道有这个

唔,试了一下,没有原始的可以提取到的网页内容

大佬这个可不可以理解为去广告清爽版的 Jina Reader? :xhs_003:

1 Like

可以,很实用了

1 Like

我说的是markdown格式没有分段,txt是分段了

1 Like

markdown确实没有分段,晚点看看

可以这样觉得

1 Like

有没有考虑添加一个可以接入 flaresolverr选项因为现在还是有挺多网站有反爬机制的

2 Likes

但是你可以抓取后提交让他处理吧:grin:

1 Like

我把提取不到的网站都交给jina去提取了,如果jina都提取不到,那大概率也提取不到

收藏一下

1 Like

对于像左侧有目录标签栏那种,多个层次,需要依次手动展开的网页有办法么

1 Like

好强 :100:

1 Like

是用纯英文提示ai还是中文提示?前端页面也是ai做的吗

1 Like