如何用Python爬取可视化界面中的json中的内容【已传附件】

网盘

微云:https://share.weiyun.com/9LEYF5XQ
奶牛:https://cowtransfer.com/s/31ed10e3c9e045 输入传输口令 9z916h

附件38M,太大,只能上传网盘

  • 我是把AI聊天内容导出了.htm文件
  • 想提取聊天记录里面所有包含json代码块的内容(聊天页面,包含多个json代码块)
  • 问了AI一圈,给我提取的都是审查元素中json的数据
  • 输出json.txt
  • 可能我提示词错误,或者能请教佬们,应该怎么喂提示词
3 Likes

发文件啊 :melting_face:

稍等佬友,按错了,一下创建主题了

Title json打错啦:joy:

我刚才帮佬友改了下,然后可能佬友edit时候没注意用了旧的缓存又回去了x

1 Like

哈哈哈哈,感谢佬友提醒

1 Like

image
诶嘿

1 Like

大帅哥,请谅解我这代码小白,改了 :joy:

C3.7T:
extract.txt (2.3 KB)
需要自己改下文件名x
编辑:看起来好像不太对,我这边本地没python环境也没法调(
我试试js能不能写


好的佬,我这边是拒绝访问,期待佬的js

测试的结果.txt (50.9 KB)
浏览器直接用的网页,改后缀为html.txt (2.6 KB)
浏览器复制会比较卡,耐心等待即可
测试的结果就是直接网页里面按下载结果就可以了
目前这个我测试结果是不错的

BTW,参数不应该带尖括号什么的(
那玩意是用来表示参数是否可选的
(以及那个脚本有依赖

1 Like

佬,html.txt能拔下来,如果聊天内容特别多的话,会不会卡的时间还要常。浏览器写个控制台脚本能提取出来吗

给佬友个参考的提示词吧(
其实还是主要是用佬友的信息,可能这种需求还是看模型

我是把 AI 聊天内容导出了.htm 文件
想提取聊天记录里面所有包含 json 代码块的内容(聊天页面,包含多个 json 代码块)
问了 AI 一圈,给我提取的都是审查元素中 json 的数据
输出 json.txt
json代码块格式如下:
<code class="language-json" ...(other attrs)>data</code>
中文回答,中文注释

此时他弄了个用不了的,自己猜到我没有python多写了个js版本,但输出会有无用信息

js版本会出现span等无关标签。

然后就好了(

1 Like

理论上可以写一个油猴脚本来提取的。卡的时间主要是复制粘贴的处理时间
我让他改成油猴脚本看看

1 Like

那我明天问问AI,控制台脚本吧

佬友,实现了,直接粘贴控制台就行

// 查找所有JSON代码块
const codeBlocks = document.querySelectorAll('code.language-json');
let result = '';
for (let i = 0; i < codeBlocks.length; i++) {
    // 获取纯文本内容
    result += `/* JSON块 #${i+1} */\n${codeBlocks[i].textContent}\n\n`;
}
// 将结果复制到剪贴板
copy(result);
console.log(`已复制 ${codeBlocks.length} 个JSON代码块到剪贴板`);

C3.7T还是强啊

1 Like

牛逼卡拉斯,控制台瞬间搞定

佬友,3.7T,T是新模型吗?我是Sonnet

T是thinking啊
Claude 3.7 sonnet thinking


带思维链的c3.7s


you里面,只有这俩 :joy: