V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fendouai_com
V2EX  ›  机器学习

自然语言处理工具:中文 word2vec 开源项目,教程,数据集

  •  
  •   fendouai_com · 2017-10-01 15:13:16 +08:00 · 2359 次点击
    这是一个创建于 2610 天前的主题,其中的信息可能已经有所发展或是发生改变。

    中文 word2vec

    开源项目

    Chinese word vectors

    This project uses Word2vec and GloVe tools to train word vectors for Chinese using data from wikipedia dump.

    https://github.com/candlewill/Chinsese_word_vectors

    wordvectors

    Pre-trained word vectors of 30+ languages

    https://github.com/Kyubyong/wordvectors

    chinese-word2vec

    word2vec/glove/swivel binary file on chinese corpus

    https://github.com/to-shimo/chinese-word2vec

    教程

    维基百科语料中的词语相似度探索

    http://www.52nlp.cn/tag/gensim

    利用 word2vec 对关键词进行聚类

    http://blog.csdn.net/zhaoxinfan/article/details/11069485

    Training Word2Vec Model on English Wikipedia by Gensim

    http://textminingonline.com/training-word2vec-model-on-english-wikipedia-by-gensim

    数据集

    wiki

    https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

    sogou

    http://www.sogou.com/labs/resource/list_news.php

    更多机器学习资源,教程: http://www.tensorflownews.com/

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2663 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:43 · PVG 13:43 · LAX 21:43 · JFK 00:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.