我在思考这个问题早。 什么线索做现代的算法(特别是那些语音转换为文本)用于确定哪些同音字,据说(如到,也还是两个?)
他们使用上下文线索? 句子的结构? 也许还有每个字平常发音的方式略有差别(例如,我通常持有两邻声长于到 )。 前两种的结合似乎是最合理的。
我在思考这个问题早。 什么线索做现代的算法(特别是那些语音转换为文本)用于确定哪些同音字,据说(如到,也还是两个?)
他们使用上下文线索? 句子的结构? 也许还有每个字平常发音的方式略有差别(例如,我通常持有两邻声长于到 )。 前两种的结合似乎是最合理的。
他们使用上下文线索?
是的,ASR系统使用跨词的上下文。 例如,如果前一个词是“走出去”的下一个单词可能是“”不“二”。 ASR系统占概率和选择最佳可能的解码变种。
句子的结构?
是的,ASR系统使用更先进的语言模型以及预测给出的背景下可能的话。
也许还有每个字平常发音的方式略有差别(例如,我通常持有两邻声长于到)。
那个也是。 其实“太”和“”是完全不同的发音。 “至”通常减少到shwa。
如果你有兴趣在语音识别算法,它可以有意识阅读ASR书或检查网络课程。 详情请参阅
https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/