作者:曾保彰 / 臺灣大學計算機及資訊網路中心資訊網路組技正
臺灣大學是一個綜合型的大學,並非特殊教育學校,對於聽覺障礙的學生,很難針對所有活動服務提供手語或語音轉文字的服務,迄今只有針對畢業典禮、校慶等大型活動委外提供「同步聽打」服務。目前坊間也有很多語音識別的產品,如國語聽寫機、行動聽寫王等,都是用來解決聽覺障礙學生的語音識別服務。
本文並非探討語音識別技術的文章,而是利用既有的雲端服務,來提供聽覺障礙學生語音識別服務,而這些雲端服務基本上已收集好大量的語音或語言資料庫,當這些資料庫的數量夠大或完備,再加雲端上強大的即時運算能力,可大幅提升語音識別的準確率,並提供快速即時的語音識別服務。
語音識別的過程
本文所採用的例子是使用微軟的Azure Bing Speech API [1],其系統架構圖如圖一,其流程如下:
一、 首先由Audio input device如麥克風將語音送到Client application。
二、 Client application(目前是採用WINDOW的主機)將即時音訊串流傳送到Bing Speech API。
三、 Bing Speech API(目前在微軟的Azure雲端)再將語音轉換文字,傳送到Client application。
四、 Client application再即時作成動態網頁送到WEB。
五、 WEB即時呈現”語音轉換文字”結果給有需要的學生閱讀。
圖一:系統架構圖
語音識別在教學的應用
從上一節我們可以得知人工智慧在語音識別的服務流程,此時聽障學生只要有麥克風接到Client application及連上網路即可改善學習環境,而人工智慧在語音識別服務上的最大特色就是學習能力,透過前後語意的辨別,可以大幅改善識別的正確性。
測試結果
目前課堂上實際測試總共1142個字,結果有1030個字正確,正確率約百分之九十;若透過不斷「學習」從語音中辨識學校相關的特定字或詞,有機會提高到百分之九十五;另外輸入音質的清晰度及咬字音訊的正確度也會影響辨識的正確率。避免被環境聲音的干擾及分辨出主講人的聲音,也是人工智慧在語音識別技術中研究重點,將來正確率達到百分百是指日可待。
結論
人工智慧慢慢會在我們的生活中有更多的應用,如無人車、機器人、深度學習等等。本文只是一個教學上的小小應用,除了提供學生一個更好的學習環境,也藉由本文激發更多的人工智慧應用。
參考文獻
[1] Bing 語音 API, Microsoft
https://azure.microsoft.com/zh-tw/services/cognitive-services/speech/