经济学人等报纸聚合的想法和实现思路

好的想法才有好的产品。受到下面的帖子启发 # 费阅读经济学人类网站的五种方法
对于一个喜欢研究的人来说 决定做一个聚合新闻的工具 ,由于技术佬的英文水平不好,市面上的AI翻译又很多,于是设想用AI来翻译文章 ,来阅读。

实现思路:
通过 bypass-paywalls-chrome-clean是可以阅读完整的付费内容的 研究了下

觉得也挺奇怪的,这个东西的原理是啥。等着抓包的时候,看到了一些猫腻。

  • 纽约时报


嘿嘿 原来UA是用的搜索引擎的UA
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

  • 彭博社

是返回了所有的内容,前端做了一些操作隐藏了。所谓防君子的反爬措施

  • 经济学人

这个bypass插件是不支持的,也建议使用网页缓存的方式观看
不过,网站对于访问频繁是直接会jin禁掉了IP的。试了下,正常情况下,多次访问也是有问题的。想到之前论坛发的很多站点可以反代过去的。于是用下面的开源项目试着反代下。访问速度立马提升了。但是访问频繁还是会被ban掉。

  • 路边社

这个不付费,但是反扒厉害。但是用反代效果棒棒哒

  • wsj

这个,目前没完整的分析出来内容是怎么搞到的,大概思路是前端的某个关键的请求,得到一个获取内容的access授权,然后就能得到全部内容。

  • 华盛顿邮报:

这个可以直接请求得到。

接下来就是翻译,使用好的prompt效果是非常不错的,我也不知道哪些是好用的,翻译过来能看懂,没有特别不通顺的地方就行,用论坛大家分享的prompt

还有一点,考虑到标题都是英文,能不能一边加载,一边翻译标题,自己根据标题的内容是不是感兴趣再点击阅读详细的内容。这个想法不错。翻译接口刚开始用的始皇的,后来发现,老是并发超限,于是改为用google的翻译。所以标题的翻译很生硬。

为了更加完美,可以增加人声阅读,text2voice,这些也有一大把免费的可以用,这样有声读物就可以了,美滋滋。

于是就有了下面的界面。


内容敏感,不发程序,不过思路说的很清楚了。主要还是要有好想法,好想法才有好玩的玩具

11 个赞

不错bd,好玩具

补充一下,通过C经济学人的免费试用也是可以免付费墙阅读的,我两个月前C了一个,到现在免费试用期过了,PC端还能无付费墙正常使用。另外经济学人、华尔街都有破解版APP

1 个赞

这是好东西,可惜缺少反扒工具的开发经验,手里也没有足够多的 ip 池。说起来一直想做一个类似的工具,不但可以爬出文档,还能做一些二次分析。

1 个赞

好想法,支持一下
很开心我的小提示能帮到你:sparkles:

1 个赞