V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kyrre
V2EX  ›  程序员

有没有好用的打标签库?能带有点自然语言处理的最好

  •  
  •   kyrre · 2016-04-19 06:18:37 +08:00 · 3168 次点击
    这是一个创建于 3140 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做个图书分类的系统,需要对每本书根据书名分类,打标签。 有啥好用的库可以推荐吗?

    19 条回复    2016-04-19 10:22:05 +08:00
    binux
        1
    binux  
       2016-04-19 06:27:04 +08:00
    作为人类,你做得到「对每本书根据书名分类,打标签」吗?
    kyrre
        2
    kyrre  
    OP
       2016-04-19 06:34:02 +08:00
    @binux 在自己的知识范围内基本上都可以吧。再说这个系统肯定也是逐步完善的。
    我找了个朴素贝叶斯算法的库,不怎么好用,不能一次得出多个分类/标签。
    binux
        3
    binux  
       2016-04-19 07:41:31 +08:00
    @kyrre 那我问你一本书,《大教堂与集市》是什么类别的?
    murmur
        4
    murmur  
       2016-04-19 07:58:11 +08:00   ❤️ 1
    根据书名分类?我认为做不到,因为信息是在太少了,分词都分不出来,何况还有标题党
    比如轮回的拉格朗日 讲什么的 数学?
    BGLL
        5
    BGLL  
       2016-04-19 08:15:09 +08:00
    只能根据书名扒豆瓣和亚马逊,
    kyrre
        6
    kyrre  
    OP
       2016-04-19 08:19:07 +08:00
    我觉得这个虽说做不到 100%准确,大致准确就可以了。而且我一开始是针对计算机类书籍,所以应该难度不大。
    比如《 Spring MVC Cookbook 》我只要能认出 Spring 就 ok ,能分类出 web 就超出期望了。
    大部分计算机书应该只属于 1 到 2 类,所以只要能给一本书打上 2 个标签就已经完全可用了。
    kyrre
        7
    kyrre  
    OP
       2016-04-19 08:20:17 +08:00
    @binux 这本书我准备打上 其他 这个标签。 233333
    gamexg
        8
    gamexg  
       2016-04-19 08:22:51 +08:00   ❤️ 1
    leemail
        9
    leemail  
       2016-04-19 08:49:07 +08:00
    isbn 有了还需要自己分类吗?
    knightdf
        10
    knightdf  
       2016-04-19 08:50:41 +08:00   ❤️ 1
    NLP 处理标题?。。。。 LZ 也是想多了,起码得加上书的介绍内容吧,一个标题。。
    takashiki
        11
    takashiki  
       2016-04-19 09:00:47 +08:00   ❤️ 2
    禅与摩托车维修艺术
    kyrre
        12
    kyrre  
    OP
       2016-04-19 09:03:14 +08:00
    @gamexg 这个确实是一个好思路,但用爬虫来搞有点搞大了,不过没准豆瓣有 api 。
    @murmur, @knightdf 其实就是一个自己玩的项目,所以起点低也无所谓啦。
    youxiachai
        13
    youxiachai  
       2016-04-19 09:07:55 +08:00
    咦?做图书系统..不对接国际标准吗?....
    pimin
        14
    pimin  
       2016-04-19 09:10:45 +08:00 via Android
    感觉楼主在试图解决一个问题最不重要的部分。
    给一本书贴标签,把书拿过来,看一眼,从分类里选一个标签撕下来,贴上。
    我很难想象:把这本书对应的标签打印出来,拿着标签去找书,找到了贴上,回来的时候已经打了 100 张标签了。

    我想说的是,这个问题最大的瓶颈在于粘贴和取放书。
    判断一本书的分类对人类来说,就是撕标签的同时就处理了
    shiny
        15
    shiny  
       2016-04-19 09:12:20 +08:00
    最理想的办法是爬图书数据库,能覆盖 20%的热门图书效果就不错了
    kyrre
        16
    kyrre  
    OP
       2016-04-19 09:34:48 +08:00
    哈哈,好吧,可能一开始没说清楚,我不处理实体书,只处理电子书,而且第一步是处理计算机技术类电子书。
    所以没有 @pimin 担心的问题。
    Use case :
    当扫描到一个 pdf 时,得到它的书名,自动猜出它最有可能属于的分类, 1 到 2 个,然后打上标签,完事。
    knightdf
        17
    knightdf  
       2016-04-19 09:46:28 +08:00
    @kyrre 只处理书名然后打标签的话,与 NLP 也没什么关系,只是个分类的问题
    dphdjy
        18
    dphdjy  
       2016-04-19 10:00:12 +08:00 via Android
    乌克兰拖拉机简史。。。
    kyrre
        19
    kyrre  
    OP
       2016-04-19 10:22:05 +08:00
    @dphdjy 别闹,我只处理英文
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1013 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:39 · PVG 03:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.