人工智能(AI)有今天的蓬勃發(fā)展,要追溯到人工神經(jīng)網(wǎng)絡(luò)的誕生。
人工神經(jīng)網(wǎng)絡(luò)誕生于20世紀(jì)40年代,當(dāng)時主要作為鑒別器(分類)、生成器來使用,但遇到了很大的困難。直到2014年,這個問題才在一定程度上得到解決。特別是2017年Transformer被提出來后,生成式人工智能就像打開了閘門,發(fā)展迅猛。
關(guān)于大模型和生成式人工智能,我有三方面思考。
第一,如何從大模型走向通用人工智能?這條路應(yīng)該怎么走,會走到什么地方?
第二,大模型發(fā)展下去,會對產(chǎn)業(yè)和人類職業(yè)產(chǎn)生什么影響?
第三,人工智能產(chǎn)業(yè)未來將走向何方?
人工智能向通用人工智能邁進(jìn)一步
為什么要下大力氣發(fā)展生成式人工智能?理查德•費(fèi)曼有一句名言:“如果我們不能創(chuàng)造它,就不可能理解它。”我們認(rèn)為通過生成式人工智能,有機(jī)會打開理解(智能)世界的大門。
如何理解生成式模型?我們可以從生成式模型的特征來分析,其具有“三大一缺點(diǎn)”。“三大”是指強(qiáng)大的生成能力、強(qiáng)大的遷移或推廣能力、強(qiáng)大的交互能力,“一缺點(diǎn)”是指“幻覺”。
具體來說,強(qiáng)大的生成能力是指語言模型能夠在開放領(lǐng)域生成多樣化、連貫且類似人類的文本。這種能力超出了人們的預(yù)期,被認(rèn)為是模型達(dá)到一定規(guī)模后出現(xiàn)的“涌現(xiàn)”現(xiàn)象。
強(qiáng)大的遷移能力是指模型能夠在給定少量樣本的情況下,將知識遷移到不同領(lǐng)域,完成新的任務(wù)。這種能力也需要在模型達(dá)到一定規(guī)模后才會出現(xiàn)。
強(qiáng)大的交互能力是指模型能夠與人類進(jìn)行自然語言對話,這在過去是難以實(shí)現(xiàn)的。但現(xiàn)在,這種對話不受領(lǐng)域限制,使得人機(jī)交互更加流暢。
“幻覺”是大模型的一個主要缺點(diǎn),指模型可能會生成看似合理但實(shí)際上并不真實(shí)或無意義的輸出。
那么,通過預(yù)訓(xùn)練、推理和對齊三個步驟得到的ChatGPT,是怎么做到具有強(qiáng)大的生成能力和遷移能力的?主要有三個原因。
第一,它使用了巨大的人工神經(jīng)網(wǎng)絡(luò)。這個神經(jīng)網(wǎng)絡(luò)大到什么程度?有四個維度。首先,它的層數(shù)很多(或很深),有96層;其次,它的輸入寬度很廣,GPT-3的寬度達(dá)到了2048個tokens(標(biāo)記),GPT-4 Turbo達(dá)到12.8萬個tokens并支持同時輸入300多頁的文本;再次,參數(shù)規(guī)模巨大,GPT-3.5有1750億個參數(shù);最后,所需算力巨大。
第二,它擁有巨大的訓(xùn)練文本。據(jù)報道,OpenAI訓(xùn)練GPT-3文本量有45TB,谷歌則達(dá)到50TB。
第三,自監(jiān)督學(xué)習(xí)。“下一個標(biāo)記預(yù)測”(Next token prediction)機(jī)制可以讓模型從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。
靠這三項(xiàng)技術(shù),ChatGPT擁有了三大能力。實(shí)際上,OpenAI利用大模型和人工智能對齊構(gòu)造了一個連續(xù)向量的語義空間,這造就了ChatGPT的強(qiáng)大生成能力。它的這種工作流程,改變了傳統(tǒng)的自然語言處理方式,使機(jī)器能像人類一樣“思考”。
ChatGPT邁出的這一步,取得了兩個重大突破。一個是能夠生成人類水平的文本,“會說人話”;另一個是實(shí)現(xiàn)了人機(jī)自然語言流暢對話,且對話不受領(lǐng)域限制。我認(rèn)為這兩大突破很重要,推動人工智能技術(shù)向著通用人工智能邁進(jìn)了一步。
構(gòu)造與數(shù)字世界交互的智能體
以前的人工智能都受限于三個“特定”:只能在特定的領(lǐng)域內(nèi)工作、受限于特定算法、完成特定的預(yù)設(shè)任務(wù)。這三個“特定”使其受限于某一應(yīng)用領(lǐng)域。
生成式模型完全改變了這種情況。它使用通用的轉(zhuǎn)換器模型,在開放領(lǐng)域內(nèi)生成和完成多種任務(wù),且不受領(lǐng)域限制。這表明人工智能正在向第三代人工智能發(fā)展,也證明了行為主義道路是可行的。
我們目前正在進(jìn)行的第二步工作,是在GPT-4基礎(chǔ)上構(gòu)造一個智能體,使其能夠與數(shù)字世界交互。
為此必須實(shí)現(xiàn)兩件事。一是要使它能夠接受多模態(tài),把感知部分加進(jìn)去,變成多模態(tài)生成。通過多模態(tài)的生成,可以解決感知問題,形成“感知—思考—行動—環(huán)境—感知”的閉環(huán)。
OpenAI研發(fā)的CLIP模型實(shí)現(xiàn)了圖像和文本的對比學(xué)習(xí)。大模型解決了文本的語義處理問題,如果把圖像和文本關(guān)聯(lián)起來,機(jī)器也能處理圖像內(nèi)容。CLIP模型已經(jīng)展示了非常好的效果,無論是在圖像分割還是識別上,都實(shí)現(xiàn)了重大突破。
過去機(jī)器只能對圖像進(jìn)行分類,很難實(shí)現(xiàn)真正的感知。大模型把圖像和文本關(guān)聯(lián)后,這一問題得到很好地解決,現(xiàn)在機(jī)器可以真正識別物體。
二是要增加交互能力。大模型可以與環(huán)境尤其是數(shù)字環(huán)境進(jìn)行交互。通過結(jié)合這兩點(diǎn),我們可以實(shí)現(xiàn)構(gòu)建智能體的目標(biāo)。也就是說,機(jī)器可以與外部工具和環(huán)境結(jié)合,發(fā)揮問題求解能力。它不僅可以回答問題,還可以幫助解決問題,解釋和執(zhí)行復(fù)雜指令,制訂計劃來達(dá)成預(yù)定目標(biāo)。
與數(shù)字環(huán)境結(jié)合后,機(jī)器還可以通過反饋學(xué)習(xí),判斷自己的行動正確或錯誤——這是ChatGPT等第一代模型無法做到的。我們期望GPT-4可以達(dá)到這個目標(biāo),類似ReAct和CogVLM也在朝這個方向發(fā)展,不僅可以推理,還可以采取行動。
僅具備推理能力或行動能力都無法完全解決問題,必須是推理和行動能力的結(jié)合。對于較復(fù)雜的推理問題,GPT-4可以很好地處理。比如,讓GPT-4計算一個腦筋急轉(zhuǎn)彎題目:小李有10只碗,為開派對向小張借5只、向小趙借5只,派對后小李把碗還給他們,那么小李還剩多少碗?GPT-4起初誤解為0只,后來推理出還剩10只。這類復(fù)雜推理只有GPT-4能完成。針對復(fù)雜問題求解,如雞兔同籠題,它也能很好解決。
不過,目前GPT-4最多只能與數(shù)字世界交互,我們最終必須使其能與物理世界交互。要與世界溝通和采取行動,需要一個關(guān)鍵環(huán)節(jié)——機(jī)器人。因此,“具身智能”(Embodied AI)的出現(xiàn)很關(guān)鍵,它可以構(gòu)建一個完整的智能體:既有感知能力,又有像人類一樣的思考和行動能力。如果能實(shí)現(xiàn)這一步,其結(jié)果將是難以想象的。因此,現(xiàn)在就必須將機(jī)器人技術(shù)納入進(jìn)來。
因此,埃隆•馬斯克做了人形機(jī)器人。我認(rèn)為,機(jī)器人不一定要做成人形,因?yàn)楹芏嗟胤街皇鞘褂昧耸只蚰_的功能,不必把硬件搞得非常復(fù)雜。所以我主張,只要有一定的硬件作為基礎(chǔ),就能進(jìn)行進(jìn)一步的“強(qiáng)化學(xué)習(xí)”研究。強(qiáng)化學(xué)習(xí)是今后人工智能的方向,如果強(qiáng)化學(xué)習(xí)再進(jìn)步,我們就有機(jī)會將智能機(jī)器做到從外部驅(qū)動走向內(nèi)部驅(qū)動——這就非常接近人類智能了。
人工智能難以替代人類
人工智能繼續(xù)發(fā)展下去,會給人類社會帶來什么影響?
《高盛全球投資研究》中有一張圖,展示了人工智能發(fā)展帶來的各種變化以及對各行業(yè)的影響。其中一點(diǎn)可以看出,人工智能發(fā)展下去,一定會推動經(jīng)濟(jì)的發(fā)展。
高盛的分析顯示,人工智能每年可帶來1.3%的全球經(jīng)濟(jì)增長,發(fā)達(dá)國家可能達(dá)到1.5%,中國大約0.9%。這組數(shù)字或許不夠準(zhǔn)確,但人工智能促進(jìn)經(jīng)濟(jì)發(fā)展的趨勢是確定的。因此,中國要發(fā)展經(jīng)濟(jì),就必須推動人工智能技術(shù)發(fā)展。
那么,人工智能究竟會對我們的產(chǎn)業(yè)、各個行業(yè)產(chǎn)生什么影響?
有人擔(dān)心人工智能會代替人類工作。但高盛的這份報告通過對各行各業(yè)的分析,得出的結(jié)論是,人工智能對大多數(shù)行業(yè)有利。因?yàn)榇蟛糠止ぷ鲗⑹侨藱C(jī)互補(bǔ)或協(xié)同,結(jié)果是工作質(zhì)量和效率的提升。
為什么大模型難以完全替代人類?因?yàn)楫?dāng)前人工智能模型存在天花板。
現(xiàn)在的大模型所有工作都要依靠外部提示,并不能主動作為。而且它在外部的提示下,僅能用概率預(yù)測的辦法完成任務(wù)。人類則完全相反,所有工作基本上都是在內(nèi)部意圖的驅(qū)動控制下(或意識的控制下)完成的。
從這點(diǎn)不同可以發(fā)現(xiàn)大模型的三個天花板。第一,質(zhì)量不可控,大模型的質(zhì)量無法人為控制,輸出質(zhì)量不穩(wěn)定;第二,生成結(jié)果可能正確,但也存在錯誤,因而不可信;第三,不夠“魯棒”,輸出很依賴輸入提示詞,相同的內(nèi)容在不同提示詞下可能會產(chǎn)生不同解,給出不同回答。
我認(rèn)為,當(dāng)前大模型存在的三大問題是根本性的缺陷,隨著模型規(guī)模的增加也難以解決。
2007年圖靈獎得主Joseph Sifakis也有類似的觀點(diǎn)。他認(rèn)為智能化有三個層次,目前來講,智能機(jī)器大多數(shù)情況下只能作為輔助;接下來第二步是走向自動化,把部分監(jiān)控任務(wù)交給機(jī)器;最后是實(shí)現(xiàn)自主化,把所有控制、監(jiān)控都交給機(jī)器。他認(rèn)為自主化很難,最主要的原因就是剛才談到的機(jī)器“不可信”。
總體而言,人工智能研究最主要的方向,就是把機(jī)器作為人類最好的助手。當(dāng)然,可能會有相當(dāng)一部分工作被它代替,但并不是所有領(lǐng)域都是如此。
大模型為通用人工智能創(chuàng)造可能
早在2015年,我們就提出發(fā)展第三代人工智能的思想,其中最主要有三點(diǎn)。第一,必須建立具有可解釋性與魯棒性(穩(wěn)健)的人工智能理論與方法;第二,發(fā)展安全、可控、可信、可靠和可擴(kuò)展的人工智能技術(shù);第三,推動人工智能的創(chuàng)新應(yīng)用與產(chǎn)業(yè)化。綜合來看,這與上述我們的分析和結(jié)論比較相似。
迄今為止,具有可解釋性與魯棒性(穩(wěn)。┑娜斯ぶ悄芾碚撆c方法還沒有完全建立起來,這也是人工智能發(fā)展緩慢和曲折的原因,F(xiàn)在,大模型技術(shù)的發(fā)展讓我們有了建立這一理論和方法的可能。另外,在人工智能創(chuàng)新應(yīng)用和產(chǎn)業(yè)化方面,我們特別強(qiáng)調(diào)人類知識這一要素的作用。
人工智能發(fā)展可以分為三個階段。第一代人工智能試圖通過建立語義符號系統(tǒng)來模擬人類思考,包括推理、決策、診斷、設(shè)計、規(guī)劃和創(chuàng)作等能力。這體現(xiàn)了符號主義和行為主義的主張,即構(gòu)建一個語言和符號的理想空間,在這個空間內(nèi)模擬人類思考。但是這種模型存在一個重大缺陷,即“符號接地”問題。系統(tǒng)都是人為定義的,若無法與物理世界聯(lián)系,自然就與外部環(huán)境脫節(jié)。
第二代人工智能試圖通過構(gòu)建特征向量的連續(xù)空間來實(shí)現(xiàn)感知,可以利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。但其最大問題是與認(rèn)知層面脫節(jié),僅能對物體進(jìn)行區(qū)分,無法真正理解和認(rèn)知。
為克服第一代和第二代人工智能的局限,我們在第三代人工智能中提出構(gòu)建“準(zhǔn)語義向量連續(xù)空間”,也就是大模型構(gòu)建的空間。打通了這幾種空間,才可能建立一個真正的智能體,實(shí)現(xiàn)思考、感知和行動的統(tǒng)一。大模型的出現(xiàn)使這一目標(biāo)看起來可能實(shí)現(xiàn),但仍有很多問題有待解決,需要做大量工作。
總之,大模型為實(shí)現(xiàn)真正的通用人工智能提供了可能性,但距離最終目標(biāo)還有一定差距。
最后,就人工智能的發(fā)展,我再談一些思考。
盡管人工智能目前正處于穩(wěn)步發(fā)展甚至可以說是快速發(fā)展階段,對各行各業(yè)產(chǎn)生著巨大影響,但也要認(rèn)清,我們還面臨許多不確定性——人工智能的發(fā)展往往是不可預(yù)測和不可控的。例如,目前對某些現(xiàn)象的解釋仍停留在“涌現(xiàn)”這一概念上,這實(shí)際上意味著我們尚未完全理解其背后的機(jī)制。
我認(rèn)為,中小型企業(yè)要打開視野,將人工智能科學(xué)研究、技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展緊密結(jié)合。智譜AI在這方面做得相當(dāng)出色。產(chǎn)學(xué)研結(jié)合的模式有助于產(chǎn)業(yè)的健康發(fā)展,特別是在中國。
現(xiàn)在是抓住機(jī)遇發(fā)展人工智能產(chǎn)業(yè)的關(guān)鍵時期。過去,人工智能產(chǎn)業(yè)受到特定領(lǐng)域和任務(wù)的限制,難以實(shí)現(xiàn)大規(guī)模發(fā)展,F(xiàn)在,我們有機(jī)會開發(fā)通用的硬件和軟件。總的來說,通向通用人工智能的道路是很艱難的,但無論如何,大模型指出了一條寬廣的道路。■
(作者系中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長,記者趙廣立根據(jù)其在智譜AI 2024年度技術(shù)開放日上的演講整理)
《科學(xué)新聞》 (科學(xué)新聞2024年4月刊 封面)