犀動智能:從旅宿情境揚帆,專精軟體端 AIoT 整合的語音新創

在研發台灣中文語音識別的科技廠商中,創辦人沈書緯具有 Google 背景的「Aiello」絕對是相當顯眼的存在。
e4k890eshh7b2y6ofzwmabpomgytmd 1
Aiello創辦人-沈書緯

*文章出處:INSIDE人物專訪

核稿編輯:INSIDE-Mia

與圖像識別、資料探勘並列,語音識別可說是目前機器學習商業應用的顯學之一,在台灣致力中文語音識別的人也不少,最出名的就像 PTT 創世神杜奕瑾創辦的 Taiwan AI Labs 就有發展自己的通用型模型並推出「雅婷逐字稿」APP,又或是威盛電子還有推出 OLAMI 語音、語意的 API 供第三方使用。

但在這麼多研發台灣中文語音識別的科技廠商中,創辦人沈書緯具有 Google 背景的「Aiello」絕對是相當顯眼的存在。從商業模式來看,他們創業第一步不選擇投入泛用型中文語音模型,而是把旅宿當第一個進攻的垂直領域,為旅宿業智慧音箱設計專用的「小美犀 AI 智能語音助理」,是以軟體為本,但又具豐富 AIoT 整合經驗的 AI 新創公司。

作為 AIoT 專題的一部分,INSIDE 與 Aiello 創辦人沈書緯 Vic 進行了一次深入訪談來了解他們打造中文自然語言理解 NLU、自然語言處理 NLP 的經驗,以下使用 Q&A 方式進行:

Q:Vic 當初為什麼要選語音 NLU、NLP 當作創業題目?您的 Google 經驗又怎麼幫助你創業?

A:從個人角度來說,我高中開始就想創業了,也是為了創業才去 Google 這間全球數一數二的科技公司。我在 Google 時負責的就是 Google Home、Google Assistant 的 NLU,那時只要是要用到 Google Assistant 的軟硬體,基本上我都會接觸到。

就是這段工作經驗讓我察覺 NLU、NLP 逐漸開始出現技術突破點,有創業的可能性。當然,那時候在 Google 內部升遷也很有機會,但我更想自己創業,從頭到尾建立一間自己想要的公司、做自己想做的產品。

我可以分享一下:在機器學習普及化之前,對 NLU、NLP 大量研究心血的是語文科學家,而不是軟體工程師。但到了機器學習開始普及化,甚至到 Alexa 開始流行時,NLU、NLP 已經大量導入機器學習。不過反過來說,機器學習在 NLU、NLP 還是有很多待開拓空間的。如果說機器學習導入影像識別有 90 分水準的話,NLU 大概只有 5、60 分。

補充:NLU 是理解,NLP 是執行,NLU 幫你把意圖、名詞猜出來,但知道你想要什麼後,還要交給 NLP 幫你把行動執行。

Q:那中文 NLU、NLP 跟英文相比,開發起來目前最大的難關、限制在哪呢?

A:好,我分享第一個難關在於中文跟英文的模型本質差異。如果鎖定垂直領域,看場景、習慣性的話,我認為英文的 NLU、NLP 已經有 70、80 分的水準。

但是,NLU 的技術本身是從英文所原生發展的,像是語料、模型都是從英文來的,甚至全世界英文的數位資料量也遠遠比其他語言還多。這讓 NLU、NLP 的中文開發者都適用「遷移式訓練」,除非你是非常大或是有特殊目地的公司,不然不可能從零開始重練一套中文專用的語言模型,大多都是直接拿 GPT-3 或其他開源模型重新訓練。

延伸上一點,中文、英文這兩種語言本體的差異對訓練模型來說就會很明顯,中文本身特性是連結詞與贅詞特別多,而且中文是用「字拼成詞」,不像英文由一個詞一個詞個別所組成。我舉個例子:「我在野生動物園玩」這句話,在中文是在野生動物園裡面遊玩,但只要訓練一不小心,電腦就會把「在野」這個詞特別拿出來翻,兩者可是天差地遠。

當然,上訴問題不是不能解決的,但會大大提升模型訓練的困難度。關於這點,如果是把 NLU  運用在一個垂直領域、特定情境,自然準確度就能提升。

Q:那 Aiello 在訓練中文 NLU 模型時有何自家的特別技術?

A:這有三點可以分享,第一點是模型,我們的確也不是重頭訓練一個新的中文 NLU、NLP,而是找開放模型。但第二點我們一開始就想鎖定一個垂直領域做 NLU,我會把它稱為從「科學」到「商用化」的過程。怎麼說呢?一個垂直領域一定有很多專業術語、也會有特定的情境,舉個例子,我今天做一個披薩店的客服 NLU,那使用者就不會問美股的情報或天氣如何,而是專心訂一個披薩;那我自然就不用去處理問美或天氣的資料。

第三是 NLU 做到 100 分,不代表 NLP 做到 100 分!我舉例假設是在飯店裡講「我要開燈」好了,這句話很單純,NLU 判別這種單純的語意準確力很高,但 NLP 的處理細節很差,它沒辦法找到對應的 API 去開飯店的燈,那也無效,不是完整的服務。

所以我們的 Know-How 很大一部分在於針對行業專用語意、情境建立產業知識圖譜,用架構資料告訴 NLP 需要做什麼,只要節點出現越多、該詞彙出現越多次,那  NLP 就會越清楚知道要什麼。

Q:那 Aiello 是怎麼透過 IoT 軟硬優化提升自動語音識別品質的?

A:Aiello 的服務核心是 NLP 平台與可以對應不同產業的 API,現在除了旅宿以外,也有金融業的 API 了,而能大幅優化 B to B 場景。

再舉個例子,如果有買 Google Home 的朋友應該可以理解,Google Home 的「智慧家庭」是「是 DIY Smart Home」什麼意思呢?就是使用者要享受便利的智慧家電之前,還要自己花一點時間去跟每台智慧家電連結,你要語音操作前,還要知道你的燈泡、冷氣、冰箱、電視跟掃地機器人叫什麼名字。

但你走進一間飯店房間時,總不會知道這盞檯燈、那盞落地燈叫什麼名字吧!我們的 NLP 平台就是在這裡下了巧思,讓使用者可以依照自己想要的情境、亮度、舒適度去語音操控。

根據統計,我們的使用者 90% 沒用過智慧音箱,所以沒辦法用 Google Home 那種邏輯提供智能服務。另外我們要把 NLP 平台適用在智慧音箱,在 IoT 整合也做過不少調整。像只要牽涉到聲學,就一定要處理回音消除(Acoustic Echo Cancelling,AEC)的問題。音箱有幾個麥克風?哪裡收音比較不清楚?然後到底要用多少 CPU 資源分配給 AEC?或是要用哪些喚醒詞、哪些詞又要特別注意不要跟喚醒詞搞混?

又或是智慧音箱跟雲端連線要消耗多少封包跟運算資源?要不要 device 內對資料壓縮?這些我們都有特別用心調整,而且我們還特別對飯店有做訂製化系統,每間飯店房間用的燈、裝置一定有細微差異,但我們的系統可以讓不管是 A 音箱、B 音箱,只要換 IP、MAC 跟房間對應好,那能讓不同音箱馬上使用了。

Aiello 的飯店後台管理系統。

Q:那為什麼要特別會選「旅宿」這個情境當一開始的創業方向?

A:又要回到 NLU 的話題了(笑)。很多人都想像 NLU 是拿來取代遙控器或 App 的,但從商業成本來看,這是不太對的,像電視遙控器對消費者來說是一件三塊美金就可以做很好的事,而且你用語音取代電視遙控,還會剝奪一直轉台的樂趣,實在不值得花兩億去開發解決這種事情(笑)。

但旅宿這種垂直領域就很不一樣了,一方面系統一旦開發完成,它能很快地被飯店採用、迅速複製,而且能確實幫飯店精簡人力與提升,是個很有 end to end 價值的市場。

Q:能聊聊最近接受一輪 2 億元投資的狀況嗎?

A:先聊聊也有參與這輪的基石創投好了,我們跟基石在這一輪之前就已經合作過了,他們很理解目前網路語音 chatbot 的侷限,所以看好 NLP 可以在電商跟其他領域的發展。ColoplNext 他們則觀察在亞洲認真在做 NLU、NLP 的公司其實不多,但 NLU、NLP 的當地化又非常重要,他們很看好亞洲 NLU、NLP  的商務應用,想看誰會成為未來亞洲語音應用的市場先驅。

預約Demo

若你對我們的解決方案有興趣,請與我們聯繫,讓我們來為你介紹Aiello的技術與產品。