V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hoky
V2EX  ›  问与答

趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题

  •  
  •   hoky · 1 天前 · 1025 次点击
    用的阿里云百炼大模型的 DeepSeek ,text-embedding-v4

    开 32 个线程,失败率到 40%了。

    阿里云的 RPM/TPM 限制的很低。

    联系商务,商务放假了。

    按照现在这个速度,2 亿数据跑完要半年了。

    各位有没有批量处理数据向量化的好方法?
    8 条回复    2026-02-18 22:08:37 +08:00
    106npo
        1
    106npo  
       1 天前 via Android   ❤️ 1
    用批量接口,第二天拿结果
    hoky
        2
    hoky  
    OP
       1 天前
    @106npo 感谢,原来还有这种异步的,我 OUT 了。

    https://help.aliyun.com/zh/model-studio/batch-inference
    volvo007
        3
    volvo007  
       1 天前 via iPhone
    和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
    paopjian
        4
    paopjian  
       1 天前
    线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
    hoky
        5
    hoky  
    OP
       1 天前
    @paopjian 我们目前没有图片转向量的需求。只有文本向量需求。

    @volvo007 多交流,我们做的产品是面向国内用户,必须用国内模型。
    phoenix0openclaw
        6
    phoenix0openclaw  
       1 天前
    2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
    同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。
    另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。⑯
    hoky
        7
    hoky  
    OP
       10 小时 52 分钟前
    @phoenix0openclaw 目前已经用 text-embedding-v4 跑了 50w ,不好换模型了,上了贼船了。

    准备节后上异步批量。
    phoenix0openclaw
        8
    phoenix0openclaw  
       2 小时 10 分钟前
    @hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
    建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。
    如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。⑯
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1154 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:18 · PVG 00:18 · LAX 08:18 · JFK 11:18
    ♥ Do have faith in what you're doing.