V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  RaftingPoint  ›  全部回复第 1 页 / 共 1 页
回复总数  12
谢谢大家的建议, 昨天分析了下,导致转换失败的原因大致有几个:
1. 输出的 json 里有注释语句之类的废话,里面的内容可能会导致歧义
2. value 是列表时,里面的符号也会产生歧义,比如 冒号逗号分号 的中英混用,
3. 还有转义符的问题

整理了下大家的一些解决方案:
1. 明确 json 格式的情况,可以用 function call , 这是最严谨稳定的方式,但是如果爬的内容不确定,灵活度就不够;
2. 用可以声明 response_format 的模型,贴中提到的有 openai 系列,Gemini 1.5 flash/pro,c4ai-command-r 模型系列。
3. langchain 等第三方工具
4. 重试与 finetune

我为了方便尝试了第三个方法,设置了 3 次重试,并且在对话中记录上一次成功的最长 json 串,在重试时加入 prompt 中作为参考 finetune ,这样下来一万条数据出错次数降低到了 3 条。这是我的解决方案,仅供参考
@varxo 我也加了,返回的 json 字符串是放在 markdown 格式里的,不知道是否和编码有关系
@matrix1010 谢谢!我看了下我的文本并不复杂,按理模型转成 json 难度应该不大,prompt 的关系估计比较小,或许我换个模型试试
@maocat 谢谢,我也看到这个,打算试一下
@NoobNoob030 格式不太固定,每一条抓取的键值对可能有不同程度的嵌套关系,好像不太适合这种方式
@shentt715 是直接工作签过去吗
确实,面向就业读研。之前很想去德国,但德国毕业难度大,读下来可能代价比较大
@hanzijinjin 好牛,全栈云架构肯定好找很多。我是 AI 专业,半路出家做的 C++开发,感觉都是半桶水
@WildDonkey 也不年轻啦,得抓紧推进了。问下老哥您申请什么方向
@WildDonkey 老哥好牛!祝福顺利。我打算今年把语言搞定和把申请材料定下来,先动身再说
@hanzijinjin 为什么这么说呀?请教老哥你是什么技术栈的?
@horizon 是的,算是最好的方式,但目前也都在收紧
@hanzijinjin 确实需要经济支撑,也需要攒攒钱
@shentt715 想看看欧陆国家的机会,似乎还没那么卷
@standchan 想知道远程的机会多吗,会不会很不稳定
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1107 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 19:25 · PVG 03:25 · LAX 11:25 · JFK 14:25
Developed with CodeLauncher
♥ Do have faith in what you're doing.