最近在做一个爬虫项目,想从1000字左右的正文提取出 地址 电话 信息摘要 还有各种个性化定制内容,没太多头绪,求这方面项目或者想法
直接prompt 让他以JSON格式输出去对应的字段就行吧
大模型有很大概率不会回复json格式,prompt是限制不住的,我试过很多模型都有这个问题
各种平台都有 json 模式呀,做得好的还可以指定 schema (OpenAI / Google)。
你要本地跑就更多方法了,一堆采样限制器,别说 json 了,正则表达式都行
限制不住应该是promt写的不行,我们业务生产环境已经用72B的模型在做抽取了