python 英文单词统计有什么好的库吗?谢谢
1
holajamc 2018-09-11 10:38:11 +08:00
from collections import Counter 这个可以嘛?
|
2
PythonAnswer 2018-09-11 10:41:02 +08:00 via iPhone
一把梭上 nltk
|
3
Aether 2018-09-11 11:25:32 +08:00 1
1、请先查一下“如何提出好的问题”。
2、什么叫做“英文单词统计”和“好”?在这里的定义到底是啥? |
4
zwithz1998 2018-09-11 11:35:32 +08:00
@Aether ?为啥我觉得问题没毛病?你是杠精吧
|
5
shm7 2018-09-11 11:49:06 +08:00 via iPhone
|
6
UN2758 2018-09-11 11:52:11 +08:00
google:如何正确提问
|
7
SimbaPeng 2018-09-11 12:14:25 +08:00 4
大批杠精来袭,他们先会以“智者”的姿态教你如何提问,然后再化身成“语文老师”挑你的语句毛病。为了显得自己有多么与众不同,一个“好”字都可以让他们玩出花, 一个个装模作样的样子真令人作呕。
|
10
EchoUtopia 2018-09-11 12:29:22 +08:00 via Android
|
11
mimzy 2018-09-11 12:29:51 +08:00 via Android
NLTK
|
12
Procumbens 2018-09-11 12:31:41 +08:00 via iPad
Python 自带的 Counter,nltk 库的 FreqDist 都可以
|
14
Comphuse 2018-09-11 12:48:28 +08:00
我写的 freeq: https://github.com/Enaunimes/freeq
|
15
Les1ie 2018-09-11 13:19:27 +08:00
这个是 NLP 了,如果只是简单的统计词频,使用词袋的方式, `Counter` `defaultdict(int)`两个都是比较简单并且高效的,其他的方法也挺多,比如 TF-IDF 之类
PS: NLP 学不会,我已跑路 |
16
ywgx 2018-09-11 13:28:16 +08:00 via Android
这个不需要什么库,单词挨个录入 redis 自增计数即可
估计也就 30 行代码的样子 妥妥的 |
17
jagger2048 2018-09-11 13:34:43 +08:00
NLTK 分词+统计词频都有现成的方法可以搞定
|
18
bbbai 2018-09-11 13:44:25 +08:00
楼上的给出的解决方法大部分都可行,但是如果仅仅是统计,并且不像投入过多精力#16 楼是个一个好办法(属于一个达成目标又不需要学习未涉猎知识的方法)。其他的分词统计什么的可能会在你很晕的时候绕晕你。当然 我推荐你去看下统计词频,其实你的需求很容易实现。ps:因为你提问的描述 我默认你了解的不多了哈,猜测错误当我没说。
|
20
zhzer 2018-09-11 13:58:51 +08:00
Counter 不就完事了?
|
21
holajamc 2018-09-11 16:26:18 +08:00
|
22
Aether 2018-09-20 12:50:23 +08:00 via iPhone
虽然你有不必要的情绪,但我觉得这不属于问题的范畴。如果你翻看过我的发帖,你会发现我之所以回复你是因为我之前做过一些相关的工作,觉得也许对你可能有所帮助。至于有些人觉得我有什么姿态,我只能说是相如心。
我看了下回复,大概意思没有任何回复者至少和我一样,曾经真的动手解决过类似的实际问题。 如果你只需要简单粗糙,那么按照空格分拆就足够好,数组就可以满足你的需要。 如果你需要清洗,问题就变多。英文里有些单词的变化形态是跟着句型走的。所以你需要先做句子拆分,然后根据上下文做词性还原。有了词性,你才能把单词还原到正确的原始形态,才能得出足够精确的统计。 关于词性还原所需要的库我记得有专门的,大约是 2-3 个可选,各有优劣。自然语言库很强大但也有不足之处,其中也包括比较繁琐的部分。此外还有大小写、专有名词等问题,都需要一一解决。 并没有直接回答你的问题,但还是希望对你有所帮助。 |
25
wizardforcel 2018-09-27 23:01:21 +08:00 via Android
|