Huggingface 在线体验: https://huggingface.co/OysterQAQ/ACGVoc2vec
github 主仓库地址( tensorflow 的 savemodel 格式可以在 release 中下载): https://github.com/OysterQAQ/ACG2vec
模型结构为sentence-transformers,使用distiluse-base-multilingual-cased-v2预训练权重,以 5e-5 的学习率在动漫相关语句对数据集下进行微调,损失函数为 MultipleNegativesRankingLoss 。
模型输入文本,输出 512 维的特征向量,可以用于标签推荐,文本搜索等直接下游任务,也可以作为文本特征抽取器来组合进解决其他任务的模型。
数据集主要包括:
Bangumi
pixiv
AnimeList
维基百科
moegirl
动画中文名+小标题-对应内容
在进行爬取,清洗,处理后得到 510w 对文本对(还在持续增加),batchzise=80 训练了 20 个 epoch ,使 st 的权重能够适应该问题空间,生成融合了领域知识的文本特征向量(体现为有关的文本距离更加接近,例如作品与登场人物,或者来自同一作品的登场人物)。
效果预览(分数为文本特征向量之间的距离):
1
LawlietZ 2022-11-18 23:58:13 +08:00
大佬咋去搞深度学习去了 读研了 ?
|
2
cnnblike 2022-11-19 08:02:30 +08:00 via Android
这是不是能和 novelai 的模型搞 gan 啊?
|
4
OysterQAQ OP @cnnblike 感觉不行吧,但是应该用这个来监督能把 novelai 的 img2img 那部分的图片编码器,不过后续我会发布二次元适应的图片特征抽取工具
|
5
ersic 2022-11-20 09:33:45 +08:00 via Android
抖音的“突破次元壁垒”训练的挺好的
|