• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YUCOAT
V2EX  ›  程序员

如何获取一个句子的拼音

  •  
  •   YUCOAT · Aug 23, 2013 · 5004 views
    This topic created in 4668 days ago, the information mentioned may be changed or developed.
    情况是这样的:

    这里有一个大小约0.5个G的一个纯文本文件。
    该纯文本文件每一行保存的都是一句话,并且该文件中无重复的话。一句话内部只有简体汉字,无标点符号、无空格、无英文、无繁体字等等


    现在我需要为这个文件里面每一句话弄一行拼音,并且将拼音存入另外一个文件中,行号一一对应,请问我该怎么做?

    拼音是全拼,且无声调,无空格,需要考虑多音字。

    比如:zheyihangdiquebuxing(这一行的确不行)
    10 replies    1970-01-01 08:00:00 +08:00
    levon
        1
    levon  
       Aug 23, 2013
    http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
    这有一个,是.net的类库

    汉字有很多多音字,要完全准确感觉挺难
    qdvictory
        2
    qdvictory  
       Aug 23, 2013
    通常都是扒一码表,然后跑一下

    https://gist.github.com/qdvictory/6315510
    qdvictory
        3
    qdvictory  
       Aug 23, 2013
    汗,我理解错了,sorry- -
    leiz
        5
    leiz  
       Aug 23, 2013
    python有中文文字转拼音的库,不过效率不清楚
    200
        6
    200  
       Aug 23, 2013
    要做准确的话 就要分词 不然多音字会有问题
    felix021
        7
    felix021  
       Aug 23, 2013
    顶@200 。汉字转拼音的数据和代码很多,但是搞不定多音字,前面的那些回答都没啥用。要解决多音字,必须从语义层面入手。分词是一个比较好的方法,但是最终的实现还是需要一个"词语->拼音"的数据库,这个貌似不太好找。
    wuxqing
        8
    wuxqing  
       Aug 23, 2013
    @felix021 对,关键是“词语->拼音”的数据库
    kittenll
        9
    kittenll  
       Aug 23, 2013   ❤️ 1
    利用自然语言统计模型处理,可以很好的处理多音字的问题。比如HMM(隐马尔土科夫模型)。如果计算资源足够的话,可以使用n>2,不然使用n=2就可以了。
    YUCOAT
        10
    YUCOAT  
    OP
       Aug 23, 2013
    @kittenll 你提出的想法是最有用的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   918 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 21:15 · PVG 05:15 · LAX 14:15 · JFK 17:15
    ♥ Do have faith in what you're doing.