5bb864e1fc775087
V2EX  ›  问与答

有没有语音转拼音的工具或 API 接口

  •  
  •   5bb864e1fc775087 · Jan 27, 2022 · 3113 views
    This topic created in 1568 days ago, the information mentioned may be changed or developed.
    与平常的语音识别,语音转文字不同, 我需要语音识别转出对应发音的拼音和声调

    看了腾讯云, 百度云, 阿里云基本只提供语音转文字的接口, 没法满足需求

    大伙有没有这方面的工具, 接口或者思路


    PS 有人会说"语音转文字, 文字再转拼音", 用这种方式的话, 比如我在音频里读的是"管东", 语音识别结果会修正并返回"广东", 再转拼音就成了 guang dong, 但我实际的发音是 guan dong
    8 replies    2022-01-27 15:17:26 +08:00
    sanebow
        1
    sanebow  
       Jan 27, 2022 via iPhone
    以我对语音识别的粗浅了解,第一步就是先把声音转换为声学模型或者说某种声学表示(非拼音),然后第二步才是根据语言模型去转换成文字。所以看最终需求,估计转拼音不一定是楼主真正需要的
    5bb864e1fc775087
        2
    5bb864e1fc775087  
    OP
       Jan 27, 2022
    这方面我也是没了解过。我要做的是给一句话, 用户读出来, 然后比对发音是否准确, 而不是比对语音识别后的文字是否相同(被修正后的文字)
    sanebow
        3
    sanebow  
       Jan 27, 2022 via iPhone   ❤️ 1
    @5bb864e1fc775087 哦就是很多语言教学软件都在做的那种。建议看一下一些开源中文语音识别项目中间步骤是不是有输出拼音或者某种音标。现成的 API 不知道存不存在
    jr55475f112iz2tu
        4
    jr55475f112iz2tu  
       Jan 27, 2022
    这种需求太少见了,看起来只能自己重新训练模型
    sanebow
        5
    sanebow  
       Jan 27, 2022 via iPhone
    @5bb864e1fc775087
    @sanebow 随便找了个 https://github.com/nl8590687/ASRT_SpeechRecognition 声音模型好像是直接输出汉语拼音的
    5bb864e1fc775087
        6
    5bb864e1fc775087  
    OP
       Jan 27, 2022
    @sanebow #5 这个 GitHub 项目刚才我也看了,确实是先语音转拼音,再拼音转文字。我去入门学习下看看能不能改成我要的程序
    colatea
        7
    colatea  
       Jan 27, 2022   ❤️ 1
    以前做过,自己训练的,只要有打了标签的数据,并且在限定范围内的话,很容易实现,开源的项目很多,但都需要改点内容
    lllllIIIlll
        8
    lllllIIIlll  
       Jan 27, 2022   ❤️ 1
    可以参考一下 Kaldi 的解码器。 编译 HCLG 时去掉字典( L ),G 语言模型,只用 HC 就可以直接输出拼音(音素)。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5458 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 69ms · UTC 05:52 · PVG 13:52 · LAX 22:52 · JFK 01:52
    ♥ Do have faith in what you're doing.