驅動中國 2017年5月19日消息  隨著人工智能的迅速崛起,新一輪核心技術變革已經躍然眼前。語音技術作為最核心的入口,成為科技巨頭們爭相攻下的堡壘。亞馬遜,蘋果、微軟、谷歌、百度等多家科技巨頭也紛紛進軍語音助手市場,該領域的競爭日趨激烈。

QQ圖片20170519163533

2016年是聊天機器人接管硅谷的一年,但語音技術能否從根本上撬動人與機器交互的龐大根基卻尚難定論。當激進的瞭望者們描述:物聯網爆發之際,語音技術何等不可思議,將徹底顛覆傳統復雜的手動操作模式等等,而一些冷靜的現實派卻認為:這些機器人并不怎么會聊天。

科技巨頭們的“語音”交互戰

為了能夠在這個即將到來的生態系統中搶占制高地,各大科技巨頭越來越重視語音技術發展。蘋果Siri依托于iPhone,亞馬遜Alex依托于Echo設備,在搜索和語言領域占據技術優勢的谷歌卻在硬件發展上晚了一拍,最為消費者所熟知的還是Google Home設備上的語音服務,而微軟則眼光獨到,其人工智能旨在幫助人們做到更好,而不是與人競爭。

Facebook近日宣布啟動新的平臺ParlAI,加大語音識別研發力度,使計算機能與人進行有意義的對話。而微軟與谷歌則展開了一場實力角逐。

QQ圖片20170519163614

在技術上,微軟有與谷歌TensorFlow相匹敵的人工智能開源開發工具CNTK,以及提供全部人工智能技術的Azure云。在業務上,微軟現在有三款聊天機器人,主打情感計算的小冰、主打商務助理的小娜,還有在垂直領域的深度應用智能客服。在神經網絡翻譯領域,Microsoft Translator已經可以與Google Translate相匹敵。

百度則順利度過了和語音技術的“七年之癢”, 從最初的基于云端識別的互聯網應用到如今成功將 HPC 技術移植到深度學習平臺,百度在語音技術方面的提升相當可觀。

QQ圖片20170519163557

此外,智能手機的語音技術也逐漸走向產品化,像老羅發布新機堅果Pro,搭載“閃念膠囊”功能,采用訊飛輸入法語音識別技術,一分鐘400字,抓住你的靈感一現。閃念膠囊其實就是一個語音技術,包括傳聞已久的蘋果 Siri 音響也有幾分延續語音產品化熱度的可能。

吳恩達表示,“至少在中國,我們會在接下來幾年時間普及語音識別應用,讓人機溝通成為一件非常自然的事。你會很快習慣與機器流暢交流的時光,而忘記以前是如何與機器交互的。”

各大科技巨頭已經紛紛搶灘智能語音市場,而人工智能的進步與發展也讓語音技術的識別突飛猛進。不過,從語音技術之爭到“語音技術+硬件”的較量,能夠看出只有能走進廣大消費者的語音技術才有可能真正打響第一槍。

語音技術發展痛點:深度算法+噪音識別+語義理解

回歸到現實人類與機器的語音交互場景,從第一批興起的智能手機語音技術到聊天機器人,更多時候是用戶適應它們的習性,而不是反過來適應用戶的習性。

聊天機器人的回復“牛頭不對馬尾”是常有的事,受到環境影響發揮失常;受到噪音干擾發揮失常;深度算法的復雜性限制實際應用等都是亟待解決的問題。

比如“雞尾酒會效應”人類可以在諸多人的講話中屏蔽掉次重點,捕捉最想聽到的信息。而機器人面對嘈雜的語音技術怎么分出個主次搜索到有用信息?從目前市場上的聊天機器人來看,在噪音處理環節并沒有很理想。

對于復雜的語音環境來講,本身就很難達到普適性的要求。語言作為人類的天賦能否被人工智能所真正理解和學習,這將是語音交互中最難攻克的問題之一。而對于極度復雜“語義理解”和“語音識別”來說則很有可能掉入“雞和蛋”的怪圈。

“認知方面的突破,現在還不知道猴年馬月。”語音領域的權威專家黃學東坦言。

語音技術是在向移動客戶端叫板嗎?

剝開種種限制性條件,語音技術將要馳騁何方?假如深度算法難題、噪音處理問題、語音理解問題被一一攻克,那么語音技術將要接誰的盤?

PC時代我們更多使用文字,而移動時代,隨著語音技術的發展,我們將更少使用鍵盤(實體和虛擬),更多地使用語音與機器自然交互。隨著語音技術的不斷成熟,承載大批量APP的移動客戶端則有可能走向消亡。

QQ圖片20170519163631

比如:打車軟件、叫外賣、網上購物、播放音頻視頻文件……只需要你語音指示,后臺便可以執行所有命令!就像可以幫你打電話的Siri,未來或許你只需要一個很小巧的隨身裝置,就像“借東西的阿莉埃蒂小人”一樣,可以與你并肩作戰,聽得懂你的話,成為你耳朵、眼鏡、四肢的延伸與萬物互聯。

這不是科幻片或者動漫里的專屬場景,在數據資源、計算資源和算法技術的合力推動下,這一切都將可能成為現實。正如語音識別領域的技術大咖黃學東所言: “語音交互的發展是一個自然的過程,這是因為語音交互是一個無需觸碰設備即可完成的體驗,它可以讓人擺脫設備的枷鎖。”

從黃學東的論點中語音概念再一次被升華,也就是語音技術發展的終極意義:從根本上改變人們與機器交互的方式。

筆者來看,語音技術之于移動客戶端,正如智能觸屏之于物理鍵盤,只要發展夠成熟,取代也只是時間問題。而目前我們更像是站在這個劃時代的轉折點上,一次徹底的跨越來源于更替技術的徹底醇熟,目前來看火候未到。