當(dāng)前,ChatGPT類工具引爆全球人工智能熱潮,如何未雨綢繆應(yīng)對生成式人工智能帶來的多重挑戰(zhàn)?近日,在復(fù)旦大學(xué)建校118周年相輝校慶系列學(xué)術(shù)活動中,復(fù)旦大學(xué)國家智能評價與治理實驗基地副主任、大數(shù)據(jù)研究院教授趙星,浙江大學(xué)公共管理學(xué)院研究員蔣卓人攜手帶來一場貫穿生成式人工智能前世、今生和未來的思考盛宴。
【資料圖】
?
相輝校慶系列學(xué)術(shù)活動。復(fù)旦大學(xué)供圖
生成式人工智能的前世今生
“這項技術(shù)并非憑空出現(xiàn),而是有著悠久的歷史淵源。”蔣卓人強(qiáng)調(diào),在生成式人工智能90多年的發(fā)展歷程中,不乏人類智慧閃耀的時刻。
1932年,法國工程師Georges Artsrouni創(chuàng)造了“機(jī)器大腦”(mechanical brain)裝置。它通過查詢多功能詞典完成翻譯,輸入、輸出都是一條紙帶。雖然和今天的機(jī)器翻譯不同,但它完全符合人們對生成式人工智能的定義,即人類輸入一段內(nèi)容,機(jī)器產(chǎn)生一段新的內(nèi)容。
在20世紀(jì)中,麻省理工學(xué)院兩位教授創(chuàng)造了最早的生成式人工智能之一,引入了貝葉斯網(wǎng)絡(luò)因果分析概念并展示了如何利用卷積神經(jīng)網(wǎng)絡(luò)來識別圖像……
2006年,華裔計算機(jī)科學(xué)家李飛飛著手構(gòu)建數(shù)據(jù)庫ImageNet。該數(shù)據(jù)庫中有超過1400萬張手工標(biāo)注的圖片,包含超過2萬個類別。“正是有了這樣一個龐大數(shù)據(jù)庫的支撐,深度學(xué)習(xí)才能得以興起?!笔Y卓人說。
?
報告現(xiàn)場。復(fù)旦大學(xué)供圖
ChatGPT何以成為明星產(chǎn)品?
1750億參數(shù)量,3000億訓(xùn)練單詞數(shù),這是ChatGPT的數(shù)據(jù)。2022年ChatGPT發(fā)布后,短短兩個月內(nèi)吸引了超1億用戶,成為有史以來用戶增長最快的應(yīng)用。
蔣卓人認(rèn)為,要理解ChatGPT,就要理解它的關(guān)鍵技術(shù):大模型基礎(chǔ)訓(xùn)練、指令微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)。
“大模型的全稱是大型語言模型?!笔Y卓人說,“它是一種概率模型,能告訴你一個詞出現(xiàn)的概率是多少。一個好的語言模型,能精準(zhǔn)地預(yù)測下一個詞是什么?!?/p>
隨著語言模型的發(fā)展,它具備了良好的語言理解能力,為讓其與人類建立對話,研究者提出指令微調(diào),通過引入思維鏈以及代碼生成提升大模型的推理能力。
“這種能力對于大模型來說至關(guān)重要,使其可以在開放領(lǐng)域有很好的表現(xiàn)?!笔Y卓人說。
至此,大模型初步具備了回答指令的可能,但回答質(zhì)量卻參差不齊。為了讓大模型持續(xù)性地輸出高質(zhì)量回答,研究者又為此設(shè)計了一套基于人類反饋的強(qiáng)化學(xué)習(xí)方法,即通過大模型的微調(diào)、獎勵函數(shù)的訓(xùn)練、以及大規(guī)模強(qiáng)化學(xué)習(xí)的優(yōu)化來確保高質(zhì)量回答的生成。
“OpenAI就是使用這種方法,大幅度降低了數(shù)據(jù)集構(gòu)建成本?!笔Y卓人說。
新智能帶來新挑戰(zhàn)
面對生成式人工智能帶來的挑戰(zhàn),趙星從資源、技術(shù)、應(yīng)用與社會倫理四個維度進(jìn)行解讀。
從資源維度來看,生成式人工智能需要高質(zhì)量的數(shù)據(jù),而中文世界的數(shù)據(jù)質(zhì)量弱于英文。趙星認(rèn)為,即使有很強(qiáng)大的翻譯能力,類ChatGPT工具的中文處理效果也顯著弱于英文,核心原因之一是投喂的中文數(shù)據(jù)質(zhì)量較差。另外,硬件技術(shù)也是支撐我國人工智能產(chǎn)業(yè)高速發(fā)展的關(guān)鍵要素。
“科技界曾將人工智能的應(yīng)用比作煉金術(shù)?!壁w星打趣道,“人們將數(shù)據(jù)一股腦往模型里面扔,至于能否煉出有價值的東西,煉出的是什么,卻沒有明確的預(yù)期。”
很明顯,在技術(shù)層面上生成式人工智能存在內(nèi)生不確定性。
“當(dāng)我們準(zhǔn)備向全社會投放一種通用性工具,卻不能明確它的科學(xué)原理是什么,就一定會有內(nèi)生性風(fēng)險。人工智能最核心的風(fēng)險在于其結(jié)果的不可承受性。我們很少在治理問題上處于如此無力的狀態(tài)?!壁w星說。
在應(yīng)用層面上,生成式人工智能產(chǎn)業(yè)發(fā)展的確定性與風(fēng)險治理的不確定性將長期存在。而在社會方面,生成式人工智能不僅深陷知識產(chǎn)權(quán)與信息泄漏問題,或也將塑造真正的信息繭房。
“當(dāng)生成式人工智能24小時都伴你身邊,會潛移默化地讓你認(rèn)為一切都是你自己的決定。”趙星警示,“我們面對的,是一個會在短時間內(nèi)崛起,或?qū)⒁饑?yán)重后果且后果未知的事物?!?/p>
內(nèi)生安全治理:讓危機(jī)“已知”
面對生成式人工智能這個新對手,趙星認(rèn)為不能沿用傳統(tǒng)治理“被動回應(yīng)外在威脅”的方法。相反,他的團(tuán)隊正在著眼于借助復(fù)旦大學(xué)大數(shù)據(jù)研究院院長鄔江興院士提出的“內(nèi)生安全理論”,構(gòu)建生成式人工智能治理的新模型。
“能否在未知的風(fēng)險爆發(fā)前找到抵抗它的辦法?這是生成式人工智能內(nèi)生安全治理要解決的問題?!壁w星說,“我們需要在人工智能風(fēng)險來臨前,給人類社會點亮一個新的技能樹:應(yīng)對人工智能非傳統(tǒng)安全問題的能力?!?/p>
生成式人工智能的治理模型涵蓋了三個層面。最外層是法律的監(jiān)督與規(guī)約,中間層是管理層的敏捷治理,尤為強(qiáng)調(diào)的最內(nèi)層是教育。在法律和政府治理之前,高等院校應(yīng)和所有的教育機(jī)構(gòu)一起,完成針對全人類的社會性融合人工智能的教育和訓(xùn)練。
內(nèi)生安全治理模型的原理,是基于群體智能將個體“未知的未知”轉(zhuǎn)化為群體“已知的未知”,從而進(jìn)一步將其轉(zhuǎn)化為“已知的已知”。
“當(dāng)我們知道可能的風(fēng)險是什么、產(chǎn)生在何處,生成式人工智能治理便有機(jī)會轉(zhuǎn)化為常規(guī)性安全問題,我們就能嘗試尋求到治理閉環(huán)的實現(xiàn)。”趙星說,“然而這仍需要理論、實踐上長期的探索?!?/p>
趙星團(tuán)隊也開始探索生成式人工智能在科學(xué)評價中的應(yīng)用,創(chuàng)新構(gòu)建了“客觀數(shù)據(jù)、智能算法、專家評議”三者和諧共生的“數(shù)智人”評價與治理新范式。近期團(tuán)隊也在開展利用類ChatGPT工具進(jìn)行智能評價系統(tǒng)構(gòu)建的探索實驗。
“初步結(jié)果顯示,雖然現(xiàn)階段的生成式人工智能遠(yuǎn)沒到能勝任學(xué)術(shù)評價這樣的嚴(yán)肅評價工作的程度。”趙星表示,“但生成式人工智能表現(xiàn)出的‘跨學(xué)科’評價能力和‘涌現(xiàn)’推斷預(yù)測潛力值得高度關(guān)注?!?/p>