*文章出處:數位時代 2023 年 2月 7 日
作者: 陳君毅
ChatGPT引發的大量關注,正式點燃了AI領域的「軍備競賽」。Google執行長桑德爾.皮蔡(Sundar Pichai)7日對外發表了對話式AI服務「Bard」,宣布未來幾周內就會開放大眾使用這項技術。
皮蔡指出,「Bard將透過我們大型語言模型的能力、智慧與創造力,整合全球浩瀚的知識廣度。」並提到,這個基於LaMDA打造的AI對話服務,能夠深入淺出地向用戶解釋從天文發現到球員表現等廣泛的知識範疇。
對於AI掌控世界,人類總是有很多想像,《駭客任務》、《銀翼殺手》、《西方極樂園》、《黑鏡》系列都是代表作,但誰知道引起波瀾的,會是一款聊天機器人。《數位時代》用圖解,帶讀者看懂現下最紅的聊天機器人ChatGPT,究竟ChatGPT是怎麼煉成的?
AI研究實驗室OpenAI靠著ChatGPT──基於自然語言生成模型GPT-3.5──製作的聊天機器人,透過超人性化的回覆、幾乎萬事皆可問並提供極高正確率的答案,席捲了全球媒體報導、社群動態的注意力,短短5天就吸引超過百萬人註冊。引用麻省理工學院媒體實驗室研究科學家凱特.達林(Kate Darling)的說法:「連同Google、Facebook和其他公司在開發的大型語言模型,這類生成式AI正在徹底改變遊戲規則。」
那在ChatGPT背後的關鍵技術GPT-3.5厲害在哪,它又能做到什麼?研究NLP(自然語言處理)的教授、以NLP為創業題目的創業家,又對新時代有什麼看法?
GPT-3.5(OpenAI尚未公布GPT3.5的數據,目前已知為GPT-3的升級版)是ChatGPT的基礎,它是基於Google於2017年發布的自然語言處理模型Transformer所創立。用最淺白的說明, Transformer的特色,是透過數學找尋規則,一改過去AI訓練需要大量人力「標籤」的流程,只要餵入大量未標籤文本資料即可訓練,省下了大量的人力與資源 。在2021年史丹佛大學發表的一篇論文中,研究人員將Transformer模型稱為「基礎模型」,他們認為其推動了AI的典範移轉。
GPT-3把Transformer運用到新高度的原因之一,是其擁有1,750億個參數,證明了「大就是好」。這個數字有多大?Google推出基於Transformer的語言模型BERT擁有的參數量是3.4億、另一個知名的語言模型ELMo的參數量則為0.94億,雖然跟處理能力、發表時間有所關聯,但也能知道GPT-3的龐大。
ChatGPT則是基於GPT-3的進化版GPT-3.5,其運作流程是:輸入大量的文本資料,包含維基百科、文章、論文、書籍後,開始進行「文字接龍」,去猜測句子中的下一個字(以英文的話則是字彙)應該是什麼。
舉例來說:「皮卡丘是什麼顏色?」這個題目有正確答案,應該要接上「黃色」。如果模型回答錯誤,扮演「老師」的研究人員會輸入正確答案,教導它回覆標準的回答。隨後模型開始學習研究人員的行為模式,不斷循環加強。
超大量的參數、人為的細部調整,讓ChatGPT幾乎能夠回答各式各樣的問題,包含寫詩、寫論文、寫電子郵件、總結文章,只要有關文字的語言生成,幾乎都難不倒它。 背後更深層的意義是,這次第一次AI達到「全民皆可用」的程度,OpenAI不只是推出一個新的語言模型,更像是推出了一個「產品」,也才能在社群上掀起強力的旋風。
主要研究領域包含機器學習、語意理解的台灣大學電機系教授李宏毅從學界的角度觀察,OpenAI的GPT-3、ChatGPT帶來的是「概念上的創新」,「過去我們認為語言模型要經過特殊的微調,才能符合各種不同的應用。」像是要應用在翻譯的語言模型、應用在寫文章的語言模型、應用在寫信的語言模型,需要不同的微調才能運作。舉例來說,Google旗下的聊天機器人LaMDA,為了更好的完成對話任務,導入了情感分析、對話狀態管理等應用與調整。
「GPT-3本來就很強,只是不知道人類要什麼,透過人類老師的引導學習,不再經過特別的微調,就可以做到翻譯、寫文章、寫程式等各種應用, 就像是一個基本功很強的人,把各種武功招式看過一次就會用。 」李宏毅說。
也因為ChatGPT的表現,讓許多人開始討論起各種不同的應用與商機,從業者的角度可以更清楚地理解其機會與挑戰所在。
推出可以回覆旅客疑難雜症的智慧音箱小美犀、以NLP為技術核心的「犀動智能」,在最近的距離觀察GPT-3與ChatGPT。因犀動智能在一年多前就取得GPT-3語言模型授權,也研究過ChatGPT的兄弟模型InstructGPT,「對於ChatGPT的成果,我們不會到非常驚訝,但還是對於它的人性化回覆感到滿驚豔,是過去沒有看過的品質。我們在2019年創業的時候,就預測未來5年NLP會成長得很快,沒想到轉折點就在這禮拜(訪問於ChatGPT問世之初)。」犀動智能共同創辦人暨執行長沈書緯說。
在商業層面上,應用GPT-3模型做客服、問答、助理功能的公司大有人在,但也不是萬能解方,犀動智能的共同創辦人暨技術長馬世英說:「 國外有很多採用GPT-3技術的公司,目前我們看到大多是複合式地利用多個模型。 」因為每一次輸入文字到GPT-3、再輸出成果都需要成本,以OpenAI目前對所有用戶公布,最強的語言模型Davinci來說,0.02美元可以處理750個字(英文字彙),在不確定使用者數量、無法限制使用者輸入的字數時,累積下來的成本難以計算。
以犀動智能為例,旗下小美犀每月處理的詢問次數遠超百萬量級,全採用最高級的語言模型費用就相當可觀,馬世英說:
「所以必須學習面對不同的任務,在不同的語言模型中切換,對企業的技能要求會更高。」
再舉例來說,許多人會直覺聯想到ChatGPT會為聊天機器人客服帶來劇變,但如果只是簡單的Q&A問題,像是「銀行幾點開門」、「最大提款上限是多少」,就不一定需要用到成本高昂的GPT系列。
除了應用語言模型本身,還有另外一個商機存在,那就是如何催眠、暗示(prompt)ChatGPT,得到想要的成果。
什麼是催眠?
雖然ChatGPT已經可以回覆大多數的問題,但當要用來做特定產業的客服,就需要做些事前準備,像是輸入:接下來回覆問題時,都以xx銀行的營業守則為主
這都是很粗淺的例子,現在已經可以看到一些複雜的玩法,像是有人將ChatGPT催眠成文字冒險遊戲、在其中導入作業系統等,只要給予適度地暗示,ChatGPT可以做到非常多超乎想像的事情。就像先前所述,GPT-3基本功很強,仰賴師父怎麼把潛能引導出來。
「我相信未來用來『催眠』GPT-3的文字是有商機存在的,連學界都會誕生一堆催眠大師,因為只要改幾個詞彙,可能每個人催眠的結果都不一樣,像是你怎麼把GPT-3催眠成一個電話客服或是其他服務,甚至是專門用來催眠ChatGPT的語言模型也會存在。」李宏毅說。
當然不論是靈活地在語言模型中切換,或是學會催眠的技巧之外,從更宏觀的層面來說,加速語言模型運算能力的硬體設計,或用更少的資料量達成相同的成效,甚至是全新的語言模型也都存在機會與可能性,李宏毅說:
「我們還離語言模型的終點還有很長一段距離,原因很簡單,人類遠遠不需要這麼多資料量,就可以做的比ChatGPT更好。突破的方式就是我們對今天的模型,還能怎麼樣更進一步的了解,AI還是一個黑盒子,未來會有很多研究人員像是腦科學家一樣去解剖AI。」
只是就像是沈書緯所提到的,ChatGPT帶來的轉折點比想像中還要快,下一次轉折也許就不遠之後,「我真正期待的是GPT-4,它會帶來『核彈級』的影響,這點絕對毫無疑問。」AI、超大型的語言模型的確將要改變我們的生活方式,在弄清未來、面對未知時,人類永遠需要更多的對話──互相對話或是學會與ChatGPT對話都是。
如果您想更深入地了解酒店的對話式 AI 解決方案,請聯繫我們,我們將在 2 個工作日內回覆您。