Google改良語音過濾模型,提升裝置上語音辨識效果

iThome 2020/11/13 10:11(11天前)

Google發表了裝置上輕量級語音過濾模型,可用於背景音吵雜,或是多人環境的語音處理應用,使得即便在沒有網際網路連接,也能讓用戶在極為吵鬧的地方,存取語音助理功能。

透過語音輔助技術,可以讓用戶利用聲音命令,與裝置進行互動,而這仰賴精確的語音辨識,才能讓語音助理服務特定用戶,Google提到,在許多實際的情境中,語音辨識的輸入音訊,通常含有重疊的語音,而這對許多語音辨識演算法來說,是一個巨大的挑戰。因此在2018年的時候,Google發展出了VoiceFilter系統,讓使用者可以註冊自己的聲音,使得語音助理能夠提供個人化的服務。

不過,雖然VoiceFilter方法能夠精確地區分目標使用者的聲音,而且比過去的方法,提供更好的失真比(SDR),但缺點在於該模型太大,在裝置上執行,受到了CPU、記憶體的限制,同時也需要考量電量消耗以及延遲的問題,因此現在Google對VoiceFilter作出改進,發展出輕量版的VoiceFilter-Lite,以便將模型放到裝置上執行。

Google精心設計了VoiceFilter-Lite,使其能適應裝置上的應用,VoiceFilter-Lite能夠即時過濾掉非目標說話者的聲音,並在Google使用TensorFlow Lite函式庫,對神經網路進行量化後,模型的大小僅為2.2 MB,很適合整合進大多數裝置上應用程式。

VoiceFilter-Lite是一個隨插即用的模型,當用戶沒有註冊聲音,應用程式可以簡單地跳過VoiceFilter-Lite,直接進行後續的處理,而這也代表,開發者可以分開訓練和更新,語音辨識模型還有VoiceFilter-Lite模型,大幅降低部署過程的複雜度。

無論是在安靜的場景,或是吵雜的場景,VoiceFilter-Lite都能夠良好地處理單一說話者的語音,而在語音重疊的情境,VoiceFilter-Lite能夠改善單字錯誤率25.1%,而在像是家中智慧音響的使用場景,其回音與多人聲重疊的環境,使得語音辨識更具挑戰,而VoiceFilter-Lite也能改善單詞錯誤率達14.7%。

FB留言

即時科技
媒體

降雨:

氣溫: