Python 英文单词统计有什么好的库吗？

描述下：
抓取大量英文内容，需要统计出现的单词数量，以及按数量排行
好的库：
意思说 python 肯定好很多可以实现的办法，当然我也 Google 过，但是能力有限，不确定是否还有更好的库。

PS：
我的理解，这个不是写论文，没有太在意的具体的词汇解释吧。感谢回答我的人。

我是机械、电子行业，希望大神们可以原谅下某些术语的阐述。

Python

单词

英文

统计

25 条回复 • 2018-09-27 23:01:21 +08:00

holajamc

2018-09-11 10:38:11 +08:00

from collections import Counter 这个可以嘛？

PythonAnswer

2018-09-11 10:41:02 +08:00 via iPhone

一把梭上 nltk

Aether

2018-09-11 11:25:32 +08:00

1、请先查一下“如何提出好的问题”。
2、什么叫做“英文单词统计”和“好”？在这里的定义到底是啥？

zwithz1998

2018-09-11 11:35:32 +08:00

@Aether ？为啥我觉得问题没毛病？你是杠精吧

shm7

2018-09-11 11:49:06 +08:00 via iPhone

@zwithz1998 “好”的确可以有很多 metrics 可以选择，机器学习、统计里面多到数不清。

单词统计，如果是普通英文文章的话，。。。如果不是的话，也许还要加点描述。

UN2758

2018-09-11 11:52:11 +08:00

google：如何正确提问

SimbaPeng

2018-09-11 12:14:25 +08:00

大批杠精来袭，他们先会以“智者”的姿态教你如何提问，然后再化身成“语文老师”挑你的语句毛病。为了显得自己有多么与众不同，一个“好”字都可以让他们玩出花，一个个装模作样的样子真令人作呕。

lixuda

2018-09-11 12:24:53 +08:00

@SimbaPeng 感谢支持

lixuda

2018-09-11 12:25:23 +08:00

@shm7 普通英文文章

EchoUtopia

2018-09-11 12:29:22 +08:00 via Android

https://github.com/EchoUtopia/my-python-practices/blob/master/trie.js

mimzy

2018-09-11 12:29:51 +08:00 via Android

NLTK

Procumbens

2018-09-11 12:31:41 +08:00 via iPad

Python 自带的 Counter，nltk 库的 FreqDist 都可以

binxin

2018-09-11 12:32:58 +08:00

@holajamc 我之前实验，好像用 defaultdict(int) 居然比 Counter 快，不知道为啥。

Comphuse

2018-09-11 12:48:28 +08:00

我写的 freeq: https://github.com/Enaunimes/freeq

Les1ie

2018-09-11 13:19:27 +08:00

这个是 NLP 了，如果只是简单的统计词频，使用词袋的方式， `Counter` `defaultdict(int)`两个都是比较简单并且高效的，其他的方法也挺多，比如 TF-IDF 之类

PS: NLP 学不会，我已跑路

ywgx

2018-09-11 13:28:16 +08:00 via Android

这个不需要什么库，单词挨个录入 redis 自增计数即可
估计也就 30 行代码的样子妥妥的

jagger2048

2018-09-11 13:34:43 +08:00

NLTK 分词+统计词频都有现成的方法可以搞定

bbbai

2018-09-11 13:44:25 +08:00

楼上的给出的解决方法大部分都可行，但是如果仅仅是统计，并且不像投入过多精力#16 楼是个一个好办法(属于一个达成目标又不需要学习未涉猎知识的方法)。其他的分词统计什么的可能会在你很晕的时候绕晕你。当然我推荐你去看下统计词频，其实你的需求很容易实现。ps：因为你提问的描述我默认你了解的不多了哈，猜测错误当我没说。

lixuda

2018-09-11 13:55:21 +08:00

@bbbai 感谢，的确了解不多，大家推荐使用 NLTK，已经用上了，目前效果还可以

zhzer

2018-09-11 13:58:51 +08:00

Counter 不就完事了？

holajamc

2018-09-11 16:26:18 +08:00

@binxin 这个栗子足够说明啦 ~ 转送门-> https://stackoverflow.com/questions/19883015/python-collections-counter-vs-defaultdictint

Aether

2018-09-20 12:50:23 +08:00 via iPhone

虽然你有不必要的情绪，但我觉得这不属于问题的范畴。如果你翻看过我的发帖，你会发现我之所以回复你是因为我之前做过一些相关的工作，觉得也许对你可能有所帮助。至于有些人觉得我有什么姿态，我只能说是相如心。

我看了下回复，大概意思没有任何回复者至少和我一样，曾经真的动手解决过类似的实际问题。

如果你只需要简单粗糙，那么按照空格分拆就足够好，数组就可以满足你的需要。

如果你需要清洗，问题就变多。英文里有些单词的变化形态是跟着句型走的。所以你需要先做句子拆分，然后根据上下文做词性还原。有了词性，你才能把单词还原到正确的原始形态，才能得出足够精确的统计。

关于词性还原所需要的库我记得有专门的，大约是 2-3 个可选，各有优劣。自然语言库很强大但也有不足之处，其中也包括比较繁琐的部分。此外还有大小写、专有名词等问题，都需要一一解决。

并没有直接回答你的问题，但还是希望对你有所帮助。

lixuda

2018-09-20 13:03:10 +08:00

@Aether 谢谢你的回答。情绪不会有，求问，当然是提问者的原因，所以我增加了描述。

Aether

2018-09-20 13:17:48 +08:00

@lixuda 我搞错了发帖人和楼下回复人了。道个歉（捂脸.gif ……）

wizardforcel

2018-09-27 23:01:21 +08:00 via Android

https://usyiyi.github.io/nlp-py-2e-zh/