任務型電話機器人的斷句機制分析,電話機器人與純文本機器人最大的不同是需要經(jīng)過語音端點檢測(VAD),即是對輸入的音頻流進行分析,確定客戶說話的起點和終止點的處理過程。一旦檢測到客戶開始說話,語音開始流向語音識別引擎(ASR),直到檢測到客戶說話結束。這種方式能夠使得識別引擎在客戶說話的同時開始進行識別處理,做到最大限度的即時處理。同時,在實際應用中至少會有以下5個方面的問題存在:
過于敏感的VAD的容易產生誤警,將非語音信號傳輸給ASR,導致較多的識別失敗。
過于保守的VAD的容易延遲觸發(fā),在語句的開頭漏掉一些有用的數(shù)據(jù),如“不是”變成了“是”。
提前錯誤斷句會造成搶話,在語句的結尾漏掉一些有用的數(shù)據(jù)。
延遲斷句會造成響應慢,容易使得一些干擾音進入到識別語句中,導致文本數(shù)據(jù)存在噪聲。
語音信號的不完整性很可能會使識別率降低,如某個字的一部分音頻片段丟失,易造成該字識別錯誤,進而影響語言模型(LM)的馬爾科夫鏈。