V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
llhh
V2EX  ›  问与答

手里有 1 亿多关键词,怎么做分类呢?

  •  
  •   llhh · 2014-10-24 15:06:39 +08:00 · 3099 次点击
    这是一个创建于 3684 天前的主题,其中的信息可能已经有所发展或是发生改变。
    既想分成行业大类,也想分小类。

    目前只能分词,找词根,简单分类。

    或者用word2vec做简单的聚类,但因为语料不够,结果不太好,并且这个聚类应该是小类。

    这一亿词是关键词+百度搜索量的格式。

    谢谢各位!
    24 条回复    2014-12-31 15:09:51 +08:00
    xiaojj
        1
    xiaojj  
       2014-10-24 15:12:24 +08:00
    楼主能分享一下吗
    llhh
        2
    llhh  
    OP
       2014-10-24 15:18:49 +08:00
    @xiaojj 最起码说下思路嘛,上来直接要数据不好吧,起码有个搞基的过程。。。
    happywowwow
        3
    happywowwow  
       2014-10-24 15:20:18 +08:00
    按拼音字母分。 做个词典。
    哈哈哈
    llhh
        4
    llhh  
    OP
       2014-10-24 15:24:04 +08:00
    @happywowwow 哈哈哈
    twor2
        5
    twor2  
       2014-10-24 15:25:03 +08:00
    @llhh 见1L名字和你的回复 笑尿了
    nonozone
        6
    nonozone  
       2014-10-24 15:27:22 +08:00
    笑昏...
    lihuoqingfly
        7
    lihuoqingfly  
       2014-10-24 15:29:12 +08:00
    在一起 生一堆
    llhh
        8
    llhh  
    OP
       2014-10-24 15:32:17 +08:00
    @twor2
    @nonozone
    @lihuoqingfly
    同学们,看黑板,出出主意吧。
    运营狗才疏学浅实在是有心无力了。
    em70
        9
    em70  
       2014-10-24 15:40:00 +08:00
    单纯关键词要分类,又没有语料库支持,怎么可能.

    先拿各个行业的文章做语料库,然后用关键词去碰撞吧,根据碰撞结果再归类
    llhh
        10
    llhh  
    OP
       2014-10-24 15:46:06 +08:00
    @em70 语料好难找
    xunyu
        11
    xunyu  
       2014-10-24 15:49:23 +08:00
    关键词只能分字典吧,分类要语聊足够
    CrowQu
        12
    CrowQu  
       2014-10-24 15:57:40 +08:00
    1亿行业相关的关键词?
    可以尝试寻找关键词相关的企业资料,然后再归类。
    首先肯定要找到关键词之间的线索。
    pubby
        13
    pubby  
       2014-10-24 16:04:43 +08:00
    @llhh 额,去百度搜一亿次就有十亿份语料了
    wangfengmadking
        14
    wangfengmadking  
       2014-10-24 16:10:37 +08:00
    用每一个词条作为搜索关键字,用baidu,google,bing等搜出前10条(后者50)结果作为关联的预料,后面就条条大路通罗马了
    llhh
        15
    llhh  
    OP
       2014-10-24 16:17:02 +08:00
    @pubby
    @wangfengmadking
    看来也只能这样了。
    一想起来抓搜索引擎我就吓尿了,不是个小工程啊。
    可以先提取词根试试。
    em70
        16
    em70  
       2014-10-24 16:25:46 +08:00
    @llhh 语料不难啊,百度文库就很多嘛,而且都分类好的,能花钱买论文库更好
    xiaojj
        17
    xiaojj  
       2014-10-24 22:49:39 +08:00 via Android
    @llhh 乔大哥我错了
    llhh
        18
    llhh  
    OP
       2014-11-06 19:24:14 +08:00
    @xiaojj
    @happywowwow
    @twor2
    @lihuoqingfly
    @em70
    @xunyu
    @CrowQu
    @pubby
    @wangfengmadking
    @em70
    100G百科语料。
    链接: http://pan.baidu.com/s/1sjQAavj 密码: 1uj1
    大家在关键词相关性、推荐标签、网站架构方面有哪些资料推荐呢?
    xunyu
        19
    xunyu  
       2014-11-07 09:51:19 +08:00   ❤️ 1
    相关性去年出了个word2vec,最简单就是tf-idf,标签的话没有办法,手动打吧
    @llhh
    llhh
        20
    llhh  
    OP
       2014-11-07 10:01:59 +08:00
    @xunyu 已经搞wordvec了。
    pubby
        21
    pubby  
       2014-12-30 10:30:51 +08:00
    @llhh 楼主这1亿关键词+搜索量 数据还在吗?能给一份不 :D
    llhh
        22
    llhh  
    OP
       2014-12-30 18:36:15 +08:00   ❤️ 1
    @pubby 还在。你说给我就给,那岂不是很没面子。
    有没有资源可以交换?
    pubby
        23
    pubby  
       2014-12-30 19:15:59 +08:00
    @llhh 可以扣扣: 17零30三5 聊,不知道有啥能让你看上的 :D
    llhh
        24
    llhh  
    OP
       2014-12-31 15:09:51 +08:00
    @pubby 开玩笑的……如果对你有用可以分享……加你了,没回应。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5676 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.