好的想法才有好的产品。受到下面的帖子启发 # 费阅读经济学人类网站的五种方法
对于一个喜欢研究的人来说 决定做一个聚合新闻的工具 ,由于技术佬的英文水平不好,市面上的AI翻译又很多,于是设想用AI来翻译文章 ,来阅读。
实现思路:
通过 bypass-paywalls-chrome-clean是可以阅读完整的付费内容的 研究了下
觉得也挺奇怪的,这个东西的原理是啥。等着抓包的时候,看到了一些猫腻。
- 纽约时报:
嘿嘿 原来UA是用的搜索引擎的UA
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- 彭博社:
是返回了所有的内容,前端做了一些操作隐藏了。所谓防君子的反爬措施
- 经济学人:
这个bypass插件是不支持的,也建议使用网页缓存的方式观看
不过,网站对于访问频繁是直接会jin禁掉了IP的。试了下,正常情况下,多次访问也是有问题的。想到之前论坛发的很多站点可以反代过去的。于是用下面的开源项目试着反代下。访问速度立马提升了。但是访问频繁还是会被ban掉。
- 路边社:
这个不付费,但是反扒厉害。但是用反代效果棒棒哒
- wsj:
这个,目前没完整的分析出来内容是怎么搞到的,大概思路是前端的某个关键的请求,得到一个获取内容的access授权,然后就能得到全部内容。
- 华盛顿邮报:
这个可以直接请求得到。
接下来就是翻译,使用好的prompt效果是非常不错的,我也不知道哪些是好用的,翻译过来能看懂,没有特别不通顺的地方就行,用论坛大家分享的prompt
还有一点,考虑到标题都是英文,能不能一边加载,一边翻译标题,自己根据标题的内容是不是感兴趣再点击阅读详细的内容。这个想法不错。翻译接口刚开始用的始皇的,后来发现,老是并发超限,于是改为用google的翻译。所以标题的翻译很生硬。
为了更加完美,可以增加人声阅读,text2voice,这些也有一大把免费的可以用,这样有声读物就可以了,美滋滋。
于是就有了下面的界面。
内容敏感,不发程序,不过思路说的很清楚了。主要还是要有好想法,好想法才有好玩的玩具