語音識別尚難稱“交互” 智能家居將享商業(yè)化紅利

2015-11-04 南方都市報2380

核心提示：繼馬云年初在德國刷臉支付淘寶后，上周招商銀行也推出刷臉ATM取款。相比于人臉識別、指紋識別等生物特征在金融領域大放異彩，語音識別則不溫不

繼馬云年初在德國刷臉支付淘寶后，上周招商銀行也推出刷臉ATM取款。相比于人臉識別、指紋識別等生物特征在金融領域大放異彩，語音識別則不溫不火地滲透到人們的生活細節(jié)中。10月初，科大訊飛發(fā)布客家話版本，這是其第14種地方方言;上周，出門問問則獲得Google的C輪融資，這也是Google2010年退出中國后第一筆投資。

從語言學角度說，自然語言包括詞法、語法、語義、語用四個階段。目前語音識別從詞法、語法的理解，逐步進入多種表達方式的語義階段。如果說人臉識別讓安全進入生物階段，那么語音識別則讓人工智能進入感官時代。真正學會主動思考的機器人時代似乎也不遙遠了。

從“聽得到”到“聽得懂”

語音識別，用人類比喻就是先用耳朵(前端模塊)聽進去，然后通過大腦(識別系統(tǒng))理解，然后再通過嘴巴(后端解碼)表達出來。耳朵與嘴巴需要的是靈敏度，而大腦則需要不斷訓練學習。

關于前端，漢王科技常務副總裁徐冬堅告訴記者：“這部分難度主要在于算法，因為目前的語音樣本主要來自于移動設備，都是非標準的、自然場景的。”一般情況需要信號處理與特征處理，前者去除環(huán)境噪音，后者則對某些特定語言進行標注，從而使語言成為機器能理解的“信號”。

標注之后就進入了識別系統(tǒng)，一套語音系統(tǒng)包括聲學模型與語言模型。語言模型一般采用N-G ram模型，就是統(tǒng)計每個詞前面的單詞出現的概率;聲學模型主要有深度網絡與遞進網絡兩種，微信、科大訊飛、出門問問都采用前者，和人腦類似，模型中的神經元獲得標注后，對比已有的標注數據，通過不斷反饋錯誤，使得每個神經元重新學習。

但出門問問CTO雷欣告訴記者，深度學習網絡需要人工標準，“語音分析數據人工標注只需要聽懂普通話就行，但對于語義分析的一些特定任務，要求語言學研究生以上級別，這導致其數據標注獲取十分昂貴。”

大量數據的訓練也是語音識別的門檻之一，像科大訊飛對一套語言系統(tǒng)訓練至少需要2萬小時及過百萬詞匯量，沒有足夠的樣本量也無法讓其理解語言與文字之間的內在關系，而云數據就在這里面發(fā)揮了作用。“以前的識別只能是在PC或嵌入式的設備上運行，現在通過云端來提供服務是識別技術發(fā)展的必然趨勢。”徐冬堅表示，漢王向語音開發(fā)者開放API接口，而也是這些云平臺的數據讓語音識別變得不那么“高大上”。

同時，一套語言系統(tǒng)更多的學習還在于投入應用之后。這也能有效解決方言數據不足問題，比如說科大訊飛10月份剛上線客家話版本，但實際上客家話方言差異很大，目前只是以梅州為主音，在未來需要用戶反饋去優(yōu)化。

“目前微軟人工智能機器人小冰上線一年多，一開始的訓練數據來自必應的搜索大數據，而現在小冰已經實現了自我成長，超過50%的數據量來自于后期用戶的反饋。”微軟小冰負責人李笛告訴記者，“同時，小冰還具有情感計算的能力，可以通過用戶的客觀檔案、重要時間節(jié)點以及行為習慣三方面進行采集，去理解每個用戶的不同。”

說比聽容易。如果“大腦”能夠理解，解碼便成了最容易的事。像小冰還聽不懂粵語，但可以根據用戶的定位和行為習慣表達粵語等方言俚語。根據不同場景，比如作為輸入法的科大訊飛注重口語翻譯文字，而出門問問的智能手表ticwatch則是將用戶搜索內容通過發(fā)音字典“說”出來。

商業(yè)化前景

一個語音系統(tǒng)經過大量工程師、語言學家的訓練推向市場，就要考慮商業(yè)化問題。“雖然語音不像人臉、指紋一樣具有唯一性，可作為金融領域等的身份辨別功能，但語言的輸入與交互更加自然”，雷欣如是表示。

目前，語音識別面向消費者的應用場景主要包括翻譯文字、垂直搜索、定向推送，不同互聯(lián)網公司根據其需求疊加不同服務。比如說在翻譯文字上，搜索引擎谷歌、百度更注重網頁翻譯，阿里巴巴注重商品信息，而科大訊飛則偏重口語;而定向推送及垂直搜索主要是根據用戶的上下文關聯(lián)，推送更多生活服務，比如出門問問的可穿戴設備ticwatch。

“一個通用的語音識別引擎(常見的輸入法)在識別某種特定領域(如垂直類生活服務搜索時)，效果不會很好，這需要特定聲音模型與語音模型的訓練。”雷欣舉例說，“比如‘幫我找一下附近的酒店，3星級以上，帶WIFI，今晚入住，明天退房’，這需要理解用戶核心需求找酒店以及其他關鍵信息。”

在長時間訓練下，語音識別系統(tǒng)可以從理解語法到理解語義，應用于更多垂直行業(yè)領域———教育、車聯(lián)網、智能家居是多家語音平臺提到的最主要的垂直應用領域。比如科大訊飛介入普通話考試以及汽車互聯(lián)網服務等領域;而漢王則結合其OCR識別(手寫與文字識別)，來表達公式、圖像等教育內容。

比如車聯(lián)網，“語音可以實現盲操作，不會分散司機注意力，比起圖像更適用于高速駕駛狀態(tài)”，達晨創(chuàng)投南區(qū)TMT投資總經理程仁田告訴記者，但實現車聯(lián)網的前提是硬件上要先有聯(lián)網功能。

“人臉可以作為身份辨別，但語言卻是人工智能的感官系統(tǒng)。”微軟(亞洲)互聯(lián)網工程院院長王永東告訴記者，“人工智能助理小娜屬于有用的工具階段，這也是目前語音識別最廣泛的應用領域，而小冰希望通過情感學習成為‘可信任’的朋友。你可以發(fā)現現在的語言輸入基本是命令式的，而不是真正的交互式。”

“如果它能取得用戶信任，理解用戶的喜好，它的商業(yè)價值就更明顯，比如說電商推薦。”王永東說，目前小冰肯定不考慮商業(yè)化問題。“誰喜歡一個沒多熟，還天天‘安利’的朋友啊!”

紅利交互識別語音

點贊 0舉報收藏 0評論 0

更多>同類新聞

推薦圖文

中經評論：用好市場機	適應綠色經濟發(fā)展新趨
工業(yè)綠色轉型：推動經	提升系統(tǒng)韌性推動能源

推薦新聞

點擊排行

• 全國電力市場統(tǒng)一“度量衡” 改革紅利加速釋放	• 綠電紅利如何真正鼓起農民錢袋子？
• 一視同仁破壁壘民營企業(yè)共享核電等領域發(fā)展紅	• 改革紅利陸續(xù)釋放，現貨市場建設將進一步提速
• 中融新大持續(xù)收獲環(huán)保紅利	• 環(huán)保產業(yè)并購助推危廢處置行業(yè)迎來發(fā)展紅利期
• 用改革紅利激發(fā)經濟活力！聆聽曹志安詳解南方電	• 政院發(fā)386億元紅利節(jié)能省水馬桶、洗衣機補助卻
• 電力市場化改革到達關鍵節(jié)點改革紅利來自何方	• 環(huán)保限產變“紅利” 鋼廠拼命生產粗鋼產量屢創(chuàng)