受到这篇帖子的启发,尝试捏了个粗糙的微信聊天机器人,目前支持联网和读取url,其中联网功能的实现是受到这篇帖子的启发。感觉L站确实资源挺多的,包括采用的searxng也是佬友提供的方案。求个star喵!
说一下使用下来的一些感受,首先是“联网搜索”这个功能,经常有“今日新闻”这种问题,搜索引擎却只会返回那些个新闻网站,根本得不到有用的信息,我觉得这种可能需要使用一些大模型特化的搜索引擎?
另外读取URL,出于自己的需求,我为arxiv论文专门写了pdf的读取,目前的问题是pdf里大模型可读的只有文字,但是其中还有很多图表之类的大模型不能接收的信息,但是又不得不把pdf完整地下下来解析,而且解析完后其实还是有挺多不需要的信息的。我不太确定那些读pdf插件是否有专门对这个进行优化,如果有又是怎么优化的。
我整个过程始终是使用deepseek的(需要使用具有function calling
的模型),感觉体验已经很好了,因为微信机器人这个使用场景很少有对模型能力有像gpt-4o那种强度的需求,而且好像它的内容审查好像没有以前使用的时候那么严格了。