如何获取一个句子的拼音 - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4668 days ago, the information mentioned may be changed or developed.

情况是这样的：

这里有一个大小约0.5个G的一个纯文本文件。
该纯文本文件每一行保存的都是一句话，并且该文件中无重复的话。一句话内部只有简体汉字，无标点符号、无空格、无英文、无繁体字等等

现在我需要为这个文件里面每一句话弄一行拼音，并且将拼音存入另外一个文件中，行号一一对应，请问我该怎么做？

拼音是全拼，且无声调，无空格，需要考虑多音字。

比如：zheyihangdiquebuxing（这一行的确不行）

10 replies • 1970-01-01 08:00:00 +08:00

1

levon

Aug 23, 2013

http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
这有一个，是.net的类库

汉字有很多多音字，要完全准确感觉挺难

2

qdvictory

Aug 23, 2013

通常都是扒一码表，然后跑一下

https://gist.github.com/qdvictory/6315510

3

qdvictory

Aug 23, 2013

汗，我理解错了，sorry－－

4

qdcanyun

Aug 23, 2013

https://github.com/flyerhzm/chinese_pinyin/blob/master/data/Mandarin.dat

5

leiz

Aug 23, 2013

python有中文文字转拼音的库，不过效率不清楚

6

200

Aug 23, 2013

要做准确的话就要分词不然多音字会有问题

7

felix021

Aug 23, 2013

顶@200 。汉字转拼音的数据和代码很多，但是搞不定多音字，前面的那些回答都没啥用。要解决多音字，必须从语义层面入手。分词是一个比较好的方法，但是最终的实现还是需要一个"词语->拼音"的数据库，这个貌似不太好找。

8

wuxqing

Aug 23, 2013

@felix021 对，关键是“词语->拼音”的数据库

9

kittenll

Aug 23, 2013

1

利用自然语言统计模型处理，可以很好的处理多音字的问题。比如HMM（隐马尔土科夫模型）。如果计算资源足够的话，可以使用n>2，不然使用n=2就可以了。

10

YUCOAT

OP

Aug 23, 2013

@kittenll 你提出的想法是最有用的。

About · Help · Advertise · Blog · API · FAQ · Solana · 918 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 61ms · UTC 21:15 · PVG 05:15 · LAX 14:15 · JFK 17:15
♥ Do have faith in what you're doing.