Home
Sign Up
Sign In
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member
Sign In
V2EX
›
问与答
求推荐好的文学资料,用来搞词库,要求可以下载纯文本的
ratazzi
·
Sep 1, 2012
· 3639 views
This topic created in 4999 days ago, the information mentioned may be changed or developed.
昨天转了搜狗的部分细胞词库,发现输入依然不是很流畅,主要不是特别常用的,今天想到找些好点的文字资料然后利用中文分词取词计算词频,最后加上拼音就成了比较好的词库了,现在主要没有好的资料。
目前分词库用的 pymmseg,如果又更好地话也推荐个吧,限 python 用的。
词库
资料
词频
9 replies
•
1970-01-01 08:00:00 +08:00
1
Brutal
Sep 1, 2012
http://www.sogou.com/labs/resources.html
2
ratazzi
OP
Sep 2, 2012
@
Brutal
这个好,多谢了
3
hbc
Sep 2, 2012
能不能去 weibo 这样的地方去爬一些下来然后做词库?
4
ratazzi
OP
Sep 2, 2012
@
hbc
爬的话太慢,没有足够的带宽,机器性能也不行
5
hbc
Sep 2, 2012
@
ratazzi
可以扔在 SAE 之类的地方,但是怎么拿回来是个问题(定期取回就好了吧?
6
ratazzi
OP
Sep 2, 2012
@
hbc
目前不考虑抓取
7
hbc
Sep 2, 2012
@
ratazzi
ok :)
8
eric_q
Sep 2, 2012
词库大了也卡吧
9
ratazzi
OP
Sep 2, 2012
@
eric_q
打算处理大量文本后取前面频率高的部分
About
·
Help
·
Advertise
·
Blog
·
API
·
FAQ
·
Solana
·
2904 Online
Highest 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms ·
UTC 15:30
·
PVG 23:30
·
LAX 08:30
·
JFK 11:30
♥ Do have faith in what you're doing.
❯