神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:人類的學習方式是,先學習理解基礎知識和概念,然后在實踐中達到融會貫通。而機器的學習方式是強化學習,通過獎勵系統來識別對錯,從而在訓練中尋找到正確的模式。但這種學習方式的弊端在于缺乏靈活性,稍微改變一下場景,機器就失能了,因為它并沒有“理解”。那么,如果先拿基礎知識來對模型進行預訓練會發生什么?實驗證明,在這種情況下,機器會表現得更好。本文章來自編譯,希望對您有所啟發。
Jeffrey Fisher for Quanta Magazine
想象一下,你的鄰居打電話來請求幫忙:能給我們的寵物兔子喂點胡蘿卜片嗎?你可能會想,這很簡單。你可以想象到他們廚房的樣子,即使你從未去過那里:冰箱里放著胡蘿卜,抽屜里放著各種刀具。這是抽象的知識,你不知道鄰居的胡蘿卜和刀到底是什么樣子的,但你心里會有一個大致的概念。
人工智能程序無法做到這一點。在你看來很容易的任務,對目前的算法來說是一項巨大的工程。
一個經過人工智能訓練的機器人,可以在一個熟悉的廚房里找到一把特定的刀和胡蘿卜,但在另一個廚房里,它將缺乏成功的抽象技能。華盛頓大學計算機科學專業的研究生維克多·鐘(Victor Zhong)說,“它們不能對新環境進行泛化。機器之所以失敗,是因為要學習的東西實在太多,要探索的空間也太大。”
問題是,這些機器人沒有一個用來構建的概念基礎。他們不知道刀或胡蘿卜到底是什么,更不知道如何打開抽屜,選擇一個胡蘿卜并將其切成片。這種局限性在一定程度上是由于,許多高級人工智能系統都是通過一種名為“強化學習”的方法進行訓練的,這種方法本質上是通過試錯進行自我教育。經過強化學習訓練的人工智能,可以在他們被訓練的環境中很好地執行自身接受過訓練的工作。但是如果改變工作或環境,這些系統往往會失效。
為了克服這一限制,計算機科學家已經開始教機器人一些重要的概念。這就像在使用新軟件之前閱讀手冊一樣:你可以在沒有它的情況下嘗試探索,但有了它你會學得更快。普林斯頓大學的計算機科學家卡瑟·納史木汗(Karthik Narasimhan)說:“人類通過實踐和閱讀的結合來學習。我們希望機器也能做到這一點。”
鐘和其他人的新研究表明,以這種方式啟動學習模型可以在模擬環境中提高學習效率。這不僅能讓算法學習得更快,還能引導它們掌握原本從未學過的技能。研究人員希望這些智能體成為多面手,能夠學習從國際象棋、到購物、再到清潔的任何事情。隨著展示用例變得越來越實用,科學家們認為這種方法甚至可能改變人類與機器人互動的方式。
“這是一個相當大的突破,”谷歌的機器人研究科學家布萊恩·伊切特(Brian Ichter)說,“在一年半的時間里,它取得了難以想象的進步。”
1. 稀少的獎勵
乍一看,機器學習已經取得了顯著的成功。大多數模型通常使用強化學習,在這種學習方式中,算法通過獲得獎勵來學習。它們一開始是完全無知的,但能通過試錯獲得知識。強化學習可以讓人工智能輕松掌握簡單的游戲。
以電子游戲《貪吃蛇》(Snake)為例,玩家在游戲中控制一條蛇,蛇在吃數字蘋果之后會變長。你想讓蛇吃到最多的蘋果,同時呆在邊界內,避免撞到自己越來越笨重的身體。這種明確的對錯結果會給機器帶來積極的反饋,所以足夠多的嘗試可以讓它從“菜鳥”變成“高手”。
但假設規則改變了,玩家需要在更大的網格或三維空間中操作,那么雖然人類玩家可以快速適應,但機器不能,因為有兩個關鍵的弱點。首先,更大的空間意味著蛇需要更長的時間才能找到蘋果,當獎勵變得稀少時,學習速度會呈指數級下降。其次,新的維度提供了全新的體驗,強化學習很難推廣到新的挑戰。
穿著藍色襯衫的維克多·鐘(Victor Zhong)。維克多·鐘通過先為機器灌輸基本信息,來幫助機器學習概括理解其知識。圖片來源:Matt Hagen
鐘說,我們不需要屈服于這些障礙。“如果我們想讓人工智能學會下棋,為什么需要從頭開始訓練一個模型呢?”這種方法效率低下。人工智能漫無目的地四處游蕩,直到它偶然發現一個好的情況,比如將軍。鐘說,需要仔細的人為設計,讓智能體知道一個好的情況意味著什么。
在一定程度上,這是因為機器在理解人類語言和破譯圖像方面遇到了困難。對于一個機器人來說,要完成基于視覺的任務,比如尋找和切胡蘿卜,它必須知道胡蘿卜是什么,物體的圖像必須是“基于”對該物體是什么的基本理解。直到最近,還沒有什么好的方法可以做到這一點,但是語言和圖像處理速度和規模的迅速增長,使得這成為可能。
新的自然語言處理模型使機器能夠從本質上學習單詞和句子背后的含義,將它們與世界上的事物聯系起來,而不僅僅是像數字字典那樣存儲一個簡單(和有限)的含義。
計算機視覺也經歷了類似的數字爆炸。大約在 2009 年,ImageNet 作為用于計算機視覺研究的注釋圖像數據庫首次亮相。今天,它擁有超過 1400 萬張物體和地點的圖像。像 OpenAI 的 DALL-E 這樣的程序,盡管沒有確切的對比可以借鑒,卻能根據命令生成新的圖像,看起來像是人工制作的。
加州理工學院(California Institute of Technology)和英偉達公司(Nvidia)的計算機科學家阿尼瑪·阿南德庫馬爾(Anima Anandkumar)表示,這表明機器現在只有獲得足夠的在線數據,才能真正了解世界。這表明他們可以像人類一樣從概念中學習,并將其用于生成新的東西。她說:“我們現在正處在一個偉大的時刻。因為一旦有了生成的能力,我們可以做的事情就更多了。”
2. 游戲系統
像鐘這樣的研究人員認為,機器不必再在完全不知情的情況下進行探索了。有了復雜的語言模型,研究人員可以增加一個預訓練步驟,讓程序在嘗試和錯誤之前從在線信息中學習。
為了測試這一想法,鐘和他的同事們在五種不同的類似游戲的環境中,將預訓練與傳統的強化學習進行了比較。每個模擬環境都對機器提出了獨特的挑戰。其中一個要求機器操作三維廚房中的物品,另一個則要求機器通過閱讀文本,來掌握打擊怪物的精確行動順序。但最復雜的環境是一個真實的游戲,即有 35 年歷史的 NetHack,其目標是在一個復雜的地下城中找到一個護身符。
對于簡單的設置,自動預訓練意味著簡單地建立重要的概念:這是胡蘿卜,那是怪物。在 NetHack 中,機器通過觀看人類玩家的游戲過程,使用人類玩家上傳到互聯網上的游戲指南進行訓練。這些游戲過程甚至不需要那么好,機器只需要建立對人類行為的直覺。機器并不是要成為專家,而只需成為一名普通選手。它會通過觀察來建立直覺:人類在特定場景下會做什么?機器將決定哪些行動是成功的,制定自己的胡蘿卜和大棒。
“通過預訓練,關于如何將語言描述與世界上正在發生的事情聯系起來,我們形成了良好的先驗,”鐘說。智能體從一開始就能發揮得更好,并在隨后的強化學習中學習得更快。
結果,經過預訓練的智能體的表現,確實優于經過傳統訓練的智能體。“經過預訓練的機器在這五種環境中都獲得了全面的勝利,”鐘說。較簡單的環境只顯示出輕微的優勢,但在 NetHack 復雜的地下城中,機器的學習速度快了許多倍,達到了傳統方法無法達到的技能水平。
身穿紅裙的阿尼瑪·阿南德庫馬爾(Anima Anandkumar)。阿南德庫馬爾說:“這種學習方式與標準的強化學習相比是一個巨大的飛躍。”圖片來源:Monica Almeida for Quanta Magazine
阿南德庫馬爾的團隊還對機器進行預培訓,讓它們更快地學習,在全球最暢銷的視頻游戲《我的世界》(Minecraft)上取得了重大進展?!段业氖澜纭繁环Q為“沙盒”游戲,這意味著它為玩家提供了一個幾乎無限的空間,讓他們在其中互動并創造新的世界。為成千上萬的任務單獨編程獎勵功能是徒勞的,學不會這個游戲,所以該團隊的模型(“MineDojo”)通過觀看帶字幕的游戲視頻,來構建對游戲的理解,而無需規范良好的行為。
3. 超越游戲
游戲是展示“預訓練模型可行”的好方法,但它們仍然是簡化的世界。訓練機器人應對現實世界的難度要大得多,因為現實世界的可能性幾乎無窮無盡。“我們提出了一個問題:有沒有介于兩者之間的東西?”納史木汗說。所以他決定嘗試讓機器在網上購物。
他的團隊創建了 WebShop。“它基本上就像一個購物管家,” 納史木汗說。用戶可以這樣說:“給我買一雙 100 美元以下的白色耐克鞋,我希望評論說這雙鞋對幼兒來說非常舒適。”接下來,程序就會找到并購買這雙鞋。
就像鐘和阿南庫瑪爾的游戲一樣,WebShop 通過圖像和文本訓練來培養機器的直覺,只不過這次的訓練內容是來自亞馬遜的頁面。“隨著時間的推移,它會學會理解語言,并將其映射到需要在網站上采取的行動中。”
乍一看,購物管家似乎并沒有那么超前。不過,雖然先進的聊天機器人可以幫你找到心儀的運動鞋,但像下訂單這樣的互動則需要完全不同的技能。盡管你床邊的 Alexa 或 Google Home 音箱可以下訂單,但它們依賴于執行預定任務的專有軟件。WebShop 則以人類的方式瀏覽網頁:通過閱讀、輸入和點擊。
納史木汗說:“這是向通用智能邁出的一步。”
卡瑟·納史木汗(Karthik Narasimhan)說:“人類通過實踐和閱讀的結合來學習。我們希望機器也能做到這一點。” 圖片來源:David Kelly Crow/普林斯頓大學
當然,讓機器人與現實世界互動有其自身的挑戰性。以瓶子為例,你可以通過它的外觀認出它,你知道它是用來儲存液體的,你知道如何用手操作它。但真正的機器能把文字和圖像變成復雜的運動智能嗎?
卡瑟·納史木汗與普林斯頓大學的機器人專家安如達·瑪捷達(Anirudha Majumdar)合作,想找到答案。他們教機械臂操作以前從未見過的工具,并使用取自成功語言模型的描述性語言對其進行預訓練。根據去年6月發布在預印本服務器 arxiv.org 上的結果,與通過傳統探索學習的程序相比,該程序幾乎在所有工具和動作上都學得更快,表現也更好。
工程師們在谷歌的機器人實驗室建立了一個更加復雜的命令庫,同樣植根于情景構建預訓練。“你需要考慮的可能性非常多,”谷歌機器人團隊的研究科學家卡羅爾·豪斯曼(Karol Hausman)說,“所以我們要求語言模型為我們分解它。”
該團隊使用了一個移動助手機器人,它有一個 7 關節的手臂。研究人員使用語言技能對其進行訓練。對于任何給定的命令,比如“幫我清理溢出的飲料”,該程序會使用語言模型從 700 個訓練過的動作庫中提出動作建議,比如“抓起”紙巾、“撿起”瓶子,或“扔掉”瓶子。豪斯曼說,機器會承認自己的局限性,比如“我實際上沒有能力將其清理干凈,但我可以給你拿一塊海綿。”該團隊最近報告了這個名為 SayCan 項目的結果。
賦予機器人語言模型的另一個好處是,它能輕易理解同義詞和其他語言。一個人說“扭轉”,而另一個人說“旋轉”,機器人都能聽懂。谷歌的研究科學家夏飛說:“我們嘗試過的最瘋狂的事情是,它還能理解表情符號。”
4. 機器人正在學習進化
SayCan 可能是迄今為止最先進的基于語言學習的機器人展示。而且語言和圖像模型也正在不斷改進,創造出更好、更復雜的預訓練技術。
但夏謹慎地克制著自己的興奮。“有人半開玩笑地說,我們達到了‘機器人 GPT’時刻,”他說。他指的是能夠理解大量人類命令的開創性語言模型,“實際上我們還沒到那一步,還有很多東西有待探索。”
例如,這些模型可能會提供錯誤的答案或采取錯誤的行動,研究人員正試圖了解這些問題。而且,盡管人類的身體直覺建立在童年玩玩具的基礎上,但機器人仍然需要與現實世界的互動來發展這種直覺。
盡管如此,進展還是很快。越來越多的研究人員相信,更智能的機器人將是最終結果。納史木汗追溯了機器的進化過程,“我們先有鍵盤和鼠標,然后是觸摸屏,”他說,下一步是接地氣的語言。你將與自己的電腦進行對話,問它某些問題的答案,或者讓它幫你做一些事情。他說:“讓機器人助理擁有超強能力的夢想還沒有實現。但我認為這很快就會發生。”