[需求]
输入:一篇文本,一段与该文本对应的音频
输出:文本中的每一个句子的开始与结束在音频中所对应的时间点
[已知信息]
1. 最笨的方法:人肉对照文本和音频,把每个时间点手动记下来。
2. 存在貌似具有一定精度的自动对齐工具(但只支持英文): http://fave.ling.upenn.edu/usingFAAValign.html
[提问]
1. 是否有现成的工具可帮助提高上述“笨方法”的效率?譬如:背景播放该音频,在听到每个句子的开始和结束时按某个键“打点”;可回听之前打过的点并修改之;最后输出每个“点”所对应的时间。
2. 是否存在支持除英语外其他语种的自动对齐工具?粗略搜了下日语和德语的,暂未找到。
//bow