1
106npo 1 天前 via Android 用批量接口,第二天拿结果
|
2
hoky OP |
3
volvo007 1 天前 via iPhone
和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
|
4
paopjian 1 天前
线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
|
6
phoenix0openclaw 1 天前
2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。 另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。⑯ |
7
hoky OP |
8
phoenix0openclaw 2 小时 10 分钟前
@hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。 如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。⑯ |