V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CNYoki
V2EX  ›  机器学习

LLMs 文本标签(分类)任务怎么做比较好?

  •  
  •   CNYoki · 11 天前 · 548 次点击
    现在大概有三组共 100 多个标签,用来对多段文本进行分类,是应该设置三个 prompt 分三次进行生成,还是用一个长 prompt ?

    另外现在通用型 LLMs 好像对标签工作都不太完美,经常出现标出其他不在字典的标签,或是标签过多之后分类效果不佳。

    有没有朋友在做相关工作有经验的,可以分享下方法嘛
    5 条回复    2025-01-06 20:42:36 +08:00
    mumbler
        1
    mumbler  
       11 天前   ❤️ 1
    标签分类是大模型的老本行,你只要把标签整理好,让它在标签库里选择,正确率比人高

    模型用 gemini-exp-1206 ,目前最强大的模型,200 万 token 上下文,一次完成不会有问题
    june4
        2
    june4  
       11 天前
    让模型随便自由标,比如标出 1000 个不在字典的标签,然后你把这些多出来的标签设置一个映射到你的 100 个标签,这个映射是一次性的,可以手工完成或 ai 也行。
    CNYoki
        3
    CNYoki  
    OP
       11 天前
    @mumbler #1 我现在用的是 Qwen2.5 110B ,文本太多用商用收费模型成本太高了。现在 Prompt 用列表给出了所有标签,但发现效果不是太好(比如说不在给定字典里的标签)。您说的标签整理好,是有什么格式会好一些?
    CNYoki
        4
    CNYoki  
    OP
       11 天前
    @june4 #2 最开始也是用的这个方法,但是现在数据量太大了(上百万段文本),发现不在标签字典的结果就太多了
    mumbler
        5
    mumbler  
       11 天前
    @CNYoki #3 格式当然 json 最好,模型用 gemini-exp-1206 ,完全免费的,200 万上下文,比 gpt4o 还强,所有数据一次处理,用什么 qwen 啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2705 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:11 · PVG 13:11 · LAX 21:11 · JFK 00:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.