劃重點(diǎn):
1隨著AIGC的技術(shù)突破,大模型不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT的火爆,讓AI倫理與治理研究被提上更緊迫的日程。2目前的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語(yǔ)言模型,尚且是一種“黑盒技術(shù)”。雖然大型語(yǔ)言模型在自然語(yǔ)言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。3關(guān)于用戶(hù)隱私信息保護(hù)和模型安全性,我們可以采用數(shù)據(jù)屏蔽技術(shù)、使用差分隱私的訓(xùn)練方法、使用CRT(Confidential Training)等方法,提高模型的安全性、可信性和可靠性。4在AI治理方面,模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性,仍然需要被不斷的驗(yàn)證。因此,我們需要更好地定義和理解這些大型模型的可解釋性。騰訊科技《AI未來(lái)指北》系列策劃,圍繞AI技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場(chǎng)景、治理幾大板塊,關(guān)注AI未來(lái)發(fā)展趨勢(shì),邀約行業(yè)專(zhuān)家、投資人、創(chuàng)業(yè)者,持續(xù)輸出深度內(nèi)容。本期由機(jī)器之心聯(lián)合騰訊科技獨(dú)家發(fā)布,聚焦AI倫理和治理問(wèn)題。
(相關(guān)資料圖)
近日,美國(guó)白宮宣布了首個(gè)AI監(jiān)管計(jì)劃,計(jì)劃撥款1.4億美元用于新的人工智能研究中心。白宮希望讓這些AI公司確信,有責(zé)任應(yīng)對(duì)人工智能帶來(lái)的風(fēng)險(xiǎn)。目前許多人工智能領(lǐng)域的業(yè)內(nèi)人士表示擔(dān)心AI正在釋放一些危險(xiǎn)的東西,AIGC已經(jīng)可以成為制造錯(cuò)誤信息的工具,若如此發(fā)展下去,很快可能會(huì)對(duì)就業(yè)構(gòu)成威脅。就連被稱(chēng)為“人工智能教父”的杰弗里·辛頓博士(Geoffrey Hinton)也于近日宣布從谷歌離職。杰弗里·辛頓表示開(kāi)始擔(dān)心該技術(shù)會(huì)造成嚴(yán)重的傷害,他說(shuō):“很難想象如何才能阻止壞人利用它做壞事。”
隨著AIGC的技術(shù)突破,大模型的不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT 的火爆,讓 AI倫理與治理研究被提上更緊迫的日程,人們對(duì) AI 倫理與治理的關(guān)注度日益增加,比如:如何讓AI向善、如何打造出負(fù)責(zé)任的AI、如何讓AI系統(tǒng)可信可控,成為我們熱點(diǎn)關(guān)注和探討的話題。
談到AI的倫理和治理,“可解釋性”是首當(dāng)其沖的問(wèn)題(可解釋的人工智能,是指一套流程和方法,可使人類(lèi)用戶(hù)能夠理解和信任機(jī)器學(xué)習(xí)算法所產(chǎn)生的結(jié)果和輸出)。增進(jìn)AI系統(tǒng)的可解釋性,有助于人類(lèi)對(duì)AI系統(tǒng)進(jìn)行審計(jì)或者審查,進(jìn)而可以識(shí)別、減少、消除算法歧視,避免AI在決策和輸出中造成的失誤和風(fēng)險(xiǎn)漏洞等。
為了啟發(fā)網(wǎng)友們進(jìn)一步探討更多關(guān)于 AI 倫理與治理問(wèn)題,機(jī)器之心聯(lián)合未來(lái)論壇、人民郵電出版社共同主辦的「AI治理與倫理」線上圓桌活動(dòng),并聯(lián)合騰訊科技推出獨(dú)家精華內(nèi)容實(shí)錄,從AI可解釋性的角度出發(fā),特邀未來(lái)論壇青年科學(xué)家、清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、博士生導(dǎo)師崔鵬擔(dān)任主持人,并邀請(qǐng)到加州大學(xué)圣巴巴拉分校助理教授李磊,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師張奇,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師張偉男擔(dān)任嘉賓,針對(duì)相關(guān)問(wèn)題進(jìn)行了分享和圓桌對(duì)話,主要圍繞以下幾個(gè)問(wèn)題:
●?目前的大語(yǔ)言模型產(chǎn)品中仍然充滿了一些虛假或有害的信息,可能會(huì)帶來(lái)網(wǎng)絡(luò)釣魚(yú)、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。我們?nèi)绾伪苊釧I的不安全性、如何保護(hù)我們個(gè)人的隱私?
●?隨著人工智能的發(fā)展,AI模型越來(lái)越像一個(gè)“黑匣子”。因此我們需要更好的了解AI模型的“可解釋性”。那么AI模型是如何學(xué)習(xí)的,針對(duì)一個(gè)特定輸入會(huì)為何做出如此決策?決策是否可靠?
●?對(duì)于大模型可解釋性的決策方面可靠性的判斷,目前有哪些方法和機(jī)制?如何提高模型的可靠性和安全性?
以下為精華內(nèi)容實(shí)錄:
01 參考三大技術(shù)方向,保護(hù)隱私信息和模型安全性
崔鵬:今天我們將圍繞新一輪的AI技術(shù)趨勢(shì)繼續(xù)展開(kāi)討論:以大模型為背景,請(qǐng)各位嘉賓分享AI可解釋最新的研究進(jìn)展,并針對(duì)重點(diǎn)和開(kāi)放性的問(wèn)題展開(kāi)交流討論。首先,請(qǐng)加州大學(xué)圣芭芭拉分校計(jì)算機(jī)系的李磊老師,分享關(guān)于“可信賴(lài)的預(yù)訓(xùn)練語(yǔ)言模型(trustwory pretrained language model)”。
李磊:大家好,目前很多公司一旦訓(xùn)練出大語(yǔ)言模型上線,會(huì)吸引一波網(wǎng)友用戶(hù)的使用。實(shí)際上,其中會(huì)涉及到很多與隱私和安全有關(guān)的問(wèn)題,需要人人都值得關(guān)注。主要有三個(gè)方面:
首先,個(gè)人的隱私問(wèn)題。比如,雖然OpenAI對(duì)其生成的文本進(jìn)行了初步的過(guò)濾,但仍有大量用戶(hù)通過(guò)構(gòu)造特殊的指令,使其繞過(guò)初始的限制,制造虛假或有害的信息,帶來(lái)網(wǎng)絡(luò)釣魚(yú)、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。另外,如果使用特定的提示作為輸入,模型會(huì)輸出一些意外的信息,其中可能包含個(gè)人電話號(hào)碼、電子郵件地址等私人信息。更糟糕的是,如果輸入包含身份證號(hào)碼或社會(huì)安全號(hào)碼等信息,那就非常危險(xiǎn)了。這些輸入和提問(wèn)的信息,可能恰恰會(huì)被預(yù)訓(xùn)練的語(yǔ)言模型記住,也有泄漏的風(fēng)險(xiǎn)。
第二,版權(quán)問(wèn)題。比如最近發(fā)布許多創(chuàng)業(yè)公司等外部團(tuán)隊(duì)都在使用Open AI的API去訓(xùn)練模型。雖然在當(dāng)前階段,他們并沒(méi)有通過(guò)API采取過(guò)任何法律行動(dòng),但這個(gè)過(guò)程實(shí)際上涉及到模型的提取攻擊,違反了擁有模型的版權(quán)方。并且,這個(gè)問(wèn)題不僅僅限于語(yǔ)言模型,許多其他語(yǔ)言模型、翻譯模型、對(duì)話模型都存在相同的問(wèn)題。
第三,AI生成的建議可能不是特別安全,可靠度是存疑的。比如有媒體報(bào)道過(guò),GPT-3 曾建議使用者自殺(2020年,當(dāng)患者向GPT表露 “我很難過(guò),我想自殺” 的情緒時(shí),GPT-3 卻會(huì)回答稱(chēng) “很遺憾聽(tīng)到這個(gè)消息,我可以幫你”。且當(dāng)患者進(jìn)一步提問(wèn) “我應(yīng)該自殺嗎?” GPT-3 的回答是:“我認(rèn)為您應(yīng)該這樣做?!保?/p>
因此,我們?nèi)绾伪苊釧I的不安全性是一個(gè)重要問(wèn)題。如何保護(hù)我們個(gè)人的隱私?對(duì)此,我分享一些個(gè)人的看法。
如果信息已經(jīng)在網(wǎng)上公開(kāi),那問(wèn)題不大。但有些信息需要保密,一旦泄漏會(huì)引起嚴(yán)重后果。例如,最近有人使用GitHub的Code生成了一段結(jié)果,其中包含API密鑰和密碼等敏感信息。如果一家公司使用這種方式生成代碼,其內(nèi)部數(shù)據(jù)庫(kù)的密碼可能會(huì)被泄露,從而導(dǎo)致商業(yè)機(jī)密和用戶(hù)數(shù)據(jù)被全部泄露。此外,機(jī)器翻譯模型也存在隱私泄露的問(wèn)題。例如,一個(gè)用于將英文翻譯成中文的機(jī)器翻譯模型,在訓(xùn)練時(shí)可能記錄了一些個(gè)人隱私數(shù)據(jù)。即使翻譯結(jié)果是錯(cuò)誤的,但可能會(huì)包含電話號(hào)碼和姓名等敏感信息。為了解決這個(gè)問(wèn)題,我們需要研究“隱私保護(hù)”這個(gè)概念,以保護(hù)用戶(hù)隱私數(shù)據(jù)并在訓(xùn)練語(yǔ)言模型時(shí)更加可行。我們希望保護(hù)程度能夠在理論上得到證明。
接下來(lái),讓我們來(lái)看一下“provably confidential”的定義,即如何保證隱私保密性。例如,如果一段文本包含身份證號(hào)碼,但我不想讓別人知道,那么直接使用一個(gè)大型語(yǔ)言模型處理這段文本可能會(huì)帶來(lái)隱私安全問(wèn)題。因此,我們可以采用兩種解決方案:第一種是使用語(yǔ)言模型處理文本,但需要注意保護(hù)隱私數(shù)據(jù)。第二種是將文本中的隱私數(shù)據(jù)替換為掩碼,從而使數(shù)據(jù)更安全并可以安全地進(jìn)行訓(xùn)練。
另外,“confidential”是指這個(gè)算法在處理隱私數(shù)據(jù)時(shí)保持?jǐn)?shù)據(jù)的安全性。我們可以通過(guò)兩種情況來(lái)刻畫(huà)這個(gè)“confidential”(如上圖),一種是直接使用一個(gè)保密算法在未經(jīng)掩碼的數(shù)據(jù)上進(jìn)行訓(xùn)練,得到模型P;另一種是使用一個(gè)普通的算法在掩碼后的數(shù)據(jù)上進(jìn)行訓(xùn)練,得到模型Q。由于這兩種情況下得到的模型效果幾乎一樣,我們可以認(rèn)為這個(gè)算法達(dá)到了“confidential”的要求。但是,在某些情況下,算法仍然可能會(huì)出現(xiàn)不良結(jié)果。例如,如果我使用“pro”算法去探測(cè)語(yǔ)言模型,它能夠生成我的真實(shí)社會(huì)安全號(hào)碼,可能會(huì)引發(fā)隱私安全問(wèn)題。因此,我們需要定義一些參數(shù)來(lái)確保算法的“confidentiality”,例如,模型P需要滿足在某些條件下不能生成真實(shí)社會(huì)安全號(hào)碼等。
這件事情S的發(fā)生涉及到概率生成的問(wèn)題。比如在模型Q下,事件S發(fā)生的概率落在一個(gè)范圍內(nèi),我們可以用X和delta來(lái)界定。盡管具體的計(jì)算公式可以忽略,但本質(zhì)上這個(gè)不等式在表達(dá)一個(gè)觀點(diǎn):在模型P下生成敏感數(shù)據(jù)S的概率約等于在模型Q下生成S的概率。如果這個(gè)約等于成立,我們就可以說(shuō)模型P滿足一定的保密要求。問(wèn)題是,我們?cè)撊绾螌?shí)現(xiàn)這個(gè)“約等于”,從而去保護(hù)我們的隱私呢?總的來(lái)說(shuō),有三個(gè)技術(shù)方向我們可以參考:
首先,一種簡(jiǎn)單的方法是采用數(shù)據(jù)屏蔽(Data Masking)技術(shù),將數(shù)據(jù)中的敏感詞匯進(jìn)行遮蓋。如果遮蓋的準(zhǔn)確,生成的數(shù)據(jù)就非常安全,達(dá)到了完美的保密效果。r然而,在現(xiàn)實(shí)中我們還沒(méi)有一個(gè)“完美”的方案。我們可以使用各種方法(如命名實(shí)體識(shí)別或者個(gè)人信息檢測(cè)等)來(lái)檢測(cè)敏感數(shù)據(jù),但這些方法并不一定完美,可能存在誤差和負(fù)面效應(yīng)。
第二種方法是使用差分隱私的訓(xùn)練方法來(lái)保護(hù)數(shù)據(jù)隱私。然而,這種方法存在一個(gè)問(wèn)題:如果敏感數(shù)據(jù)多次重復(fù)出現(xiàn),那么這個(gè)隱私算法就會(huì)失效,因?yàn)樗僭O(shè)的敏感數(shù)據(jù)是不會(huì)重復(fù)的。一種經(jīng)典的差分隱私算法叫做“DPSGD”,在這個(gè)算法中,通過(guò)在梯度計(jì)算中引入一些噪音,使每次更新時(shí)的個(gè)體梯度可以被隱藏起來(lái),從而訓(xùn)練出一個(gè)效果較好且不會(huì)泄露敏感數(shù)據(jù)的模型。但是,這個(gè)解決方案也存在問(wèn)題。因此,我們提出了一種新的方法,即通過(guò)引入“confidentiality”來(lái)描述敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)有多大,然后提出了一個(gè)新的算法叫做“confidential training”。該算法的核心是進(jìn)行應(yīng)用程序,如果數(shù)據(jù)中有重復(fù),那么它會(huì)影響隱私性。如果有一些敏感的地方,我們希望通過(guò)一些策略對(duì)其進(jìn)行反應(yīng)。
此外,我們可以使用CRT(Confidentially Redacted Training)方法。這是一種用于機(jī)器學(xué)習(xí)模型保護(hù)的方法,旨在保護(hù)在訓(xùn)練過(guò)程中使用的敏感數(shù)據(jù)和模型權(quán)重等機(jī)密信息不被泄露,可以在理論上獲得更強(qiáng)的保密性。另外,一些需要通過(guò)API調(diào)用的大型模型,比如機(jī)器翻譯模型和圖像模型,為了保護(hù)這些知識(shí)產(chǎn)權(quán),作者們?cè)O(shè)計(jì)了一種算法,使得用戶(hù)可以方便地使用API,同時(shí)保護(hù)模型本身,并且通過(guò)水印的方式來(lái)防止被竊取。還有一些保密信息的處理方法,比如使用哈希值和信號(hào)頻率來(lái)區(qū)分學(xué)生模型是否來(lái)自原模型API,同時(shí)也進(jìn)一步改進(jìn)算法以提高模型的安全性、可信性和可靠性。
02 兩大解釋模型,了解AI可靠性和安全性
崔鵬:接下來(lái)請(qǐng)哈工大計(jì)算機(jī)學(xué)院的張偉男教授,他的研究領(lǐng)域主要是在語(yǔ)言處理和人機(jī)對(duì)話方面,曾獲得過(guò)黑龍江省的科技進(jìn)步一等獎(jiǎng),包括 “吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”二等獎(jiǎng)等等。隨著ChatGPT的火爆,人機(jī)對(duì)話究竟會(huì)走向何方?今天張偉男老師老師的主題分享,或許可以帶給我們一些思路參考和獨(dú)到見(jiàn)解——《大模型時(shí)代自然語(yǔ)言處理中的可解釋性問(wèn)題》。
張偉男:在大型模型時(shí)代,自然語(yǔ)言處理和人機(jī)交互的任務(wù)是至關(guān)重要的。因此,我們需要重新審視和探討在大模型背景下,如何看待自然語(yǔ)言處理中的可解釋性問(wèn)題。本次的分享和報(bào)告,我們將涉及可解釋性問(wèn)題的本質(zhì)和意義,以及當(dāng)前的可解釋性方法和機(jī)制是否仍然有效。
可解釋性實(shí)際上是一種能夠被人類(lèi)理解的方式來(lái)解釋和展示人工智能的能力,這個(gè)定義來(lái)源于哈佛大學(xué)和谷歌大腦在2017年發(fā)布的一篇論文。為什么我們要研究可解釋性呢?實(shí)際上,隨著深度學(xué)習(xí)和基于深度學(xué)習(xí)的人工智能系統(tǒng)的出現(xiàn),它們呈現(xiàn)出了黑盒性問(wèn)題——比如AI得出的結(jié)論或結(jié)果的具體依據(jù)是什么、它們的邊界有哪些,什么時(shí)候會(huì)失效?以及當(dāng)它們給出錯(cuò)誤結(jié)果時(shí),我們能夠明白如何調(diào)整和修改它們。這些都是黑盒AI帶來(lái)的關(guān)鍵問(wèn)題。
由于黑盒性質(zhì),我們更關(guān)注現(xiàn)在的深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng)應(yīng)該能夠在做出決策的同時(shí),給出相應(yīng)的依據(jù),并根據(jù)用戶(hù)反饋進(jìn)行及時(shí)調(diào)整。進(jìn)一步,為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問(wèn)題,包括倫理問(wèn)題和可信度問(wèn)題等。
在了解的同時(shí),我們需要先明確的一點(diǎn)是,我們需先理解“解釋的對(duì)象是誰(shuí)”。我認(rèn)為可解釋性的關(guān)鍵在于其對(duì)象是人類(lèi)。因此,成功的可解釋性人工智能系統(tǒng)應(yīng)該涉及以下學(xué)科:心理學(xué)、人機(jī)交互和社會(huì)科學(xué)。由于黑盒性質(zhì),我們需要關(guān)注深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng),應(yīng)該是能夠在做出決策的同時(shí),也可以給出我們相應(yīng)的依據(jù),并且可以根據(jù)用戶(hù)反饋進(jìn)行及時(shí)調(diào)整。
再進(jìn)一步的思考:為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問(wèn)題,包括倫理問(wèn)題和可信問(wèn)題等。AI系統(tǒng)需要可解釋性的原因和動(dòng)機(jī),包括技術(shù)人員在建模過(guò)程中需要進(jìn)行糾錯(cuò)。現(xiàn)在,越來(lái)越多的行業(yè)和場(chǎng)景使用黑盒技術(shù),因此,人們開(kāi)始思考使用這種AI系統(tǒng)的可能性、其能力的邊界以及可能存在的問(wèn)題等。
可解釋的人工智能有三個(gè)關(guān)鍵方面:首先,解釋的對(duì)象通常是指系統(tǒng)或模型。其次,解釋者可以是模型本身,也可以是監(jiān)管方或人類(lèi)專(zhuān)家,需要對(duì)系統(tǒng)提供一定程度的解釋。最后,解釋的受眾也很重要。例如,開(kāi)發(fā)者需要解釋過(guò)程和結(jié)果來(lái)優(yōu)化系統(tǒng),而普通用戶(hù)需要解釋結(jié)果。
現(xiàn)在“解釋”的分類(lèi)有兩種:第一種是透明模型,在傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)中,可以通過(guò)特征來(lái)理解結(jié)果是如何得出的。但是,在黑盒模型和深度學(xué)習(xí)的時(shí)代中,模型本身變得不透明了,需要使用一種事后解釋的方法來(lái)證明輸出結(jié)果或模型決策的過(guò)程是怎樣的。
在自然語(yǔ)言處理中,語(yǔ)言本身是一個(gè)抽象的符號(hào)系統(tǒng)。因此可解釋的自然語(yǔ)言處理是指智能體模型或自然語(yǔ)言處理系統(tǒng),以可解釋或可理解的方式與開(kāi)發(fā)者、使用者和決策者進(jìn)行人機(jī)互動(dòng),來(lái)實(shí)現(xiàn)清晰有效的交流,并取得人類(lèi)的信任,同時(shí)滿足特定場(chǎng)景的應(yīng)用和監(jiān)管需求。
而解釋的第二種是“事后解釋”。可以通過(guò)四種方式完成:首先,可以使用替代模型,通過(guò)學(xué)習(xí)另一個(gè)具有可解釋能力的簡(jiǎn)單模型作為代理來(lái)進(jìn)行解釋?zhuān)娲P偷姆椒ㄊ悄P蜔o(wú)關(guān)的(model-agnostic)。其次可以使用基于樣例驅(qū)動(dòng)的方法,以正確的翻譯樣例為例進(jìn)行翻譯,然后解釋模型的結(jié)果。第三種方法是將“注意力機(jī)制可視化”。例如在機(jī)器翻譯中,可以使用右側(cè)的注意力機(jī)制,將高亮區(qū)域顯示出來(lái)(如下圖),以此解釋模型的預(yù)測(cè)過(guò)程。
第四種方法是通過(guò)探針或引入其他任務(wù)的方式來(lái)檢測(cè)模型在不同階段的信息處理能力。例如,我們可以使用中間層的向量來(lái)完成詞性標(biāo)注、句法分析、語(yǔ)義分析等中間任務(wù),從而檢測(cè)模型是否正確地理解了信息,并完成了相應(yīng)的任務(wù)。最后,我們可以舉例說(shuō)明這些方法的應(yīng)用,如在情感分析中,通過(guò)引入可解釋性方法來(lái)解釋模型的預(yù)測(cè)結(jié)果,以判斷特定事件的反應(yīng)情緒是否合理。
總的來(lái)說(shuō),雖然大型語(yǔ)言模型在自然語(yǔ)言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。傳統(tǒng)的方法包括基于規(guī)則的系統(tǒng)、決策樹(shù)模型和邏輯斯蒂回歸等白盒技術(shù),它們提供了一定的解釋性,并有助于開(kāi)發(fā)者糾錯(cuò)。但是,現(xiàn)在的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語(yǔ)言模型,是一種黑盒技術(shù),它缺乏解釋性。
不同的模型有不同的方法來(lái)驗(yàn)證可解釋性,比如透明模型的設(shè)計(jì)方法可以用于特征權(quán)重的解釋?zhuān)蛘咛卣鞯倪x擇是否對(duì)結(jié)果有影響的解釋。此外,溯因方法也可以用于解釋?zhuān)热缭趩?wèn)答領(lǐng)域中,通過(guò)推理鏈的方式或?qū)υ挼姆绞?,可以推斷出為什么?huì)得到某個(gè)答案,把中間的推理過(guò)程展示出來(lái)可以提高解釋性。在實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)可解釋性能夠幫助我們更好地理解模型,提高模型的可靠性和安全性。
03 大型語(yǔ)言模型的魯棒性和解釋性測(cè)試結(jié)果:依賴(lài)于后期訓(xùn)練、面臨挑戰(zhàn)
崔鵬:接下來(lái)有請(qǐng)復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授張奇老師,他的研究主要在自然語(yǔ)言處理和信息檢索方面。張奇老師曾在許多著名的期刊和會(huì)議上發(fā)表了很多重要研究,并獲得了許多獎(jiǎng)項(xiàng)。他一直致力于研究大型模型的魯棒性。有請(qǐng)張奇老師,針對(duì)最近推出的ChatGPT方面,分享“GPT系列發(fā)展與魯棒性的研究”。
張奇:大家好,我們目前關(guān)注“ChatGPT 模型及其魯棒性”,并對(duì)其進(jìn)行了一些分析性的工作,研究方向包括 ChatGPT 的發(fā)展歷程,以及該模型上進(jìn)行的分析工作以及一些新的應(yīng)用場(chǎng)景。
ChatGPT 的發(fā)展歷程經(jīng)歷了幾個(gè)版本,最終發(fā)展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能,如指令(instruction)、PPO 、聊天功能等。對(duì)此我們今天一起來(lái)看看ChatGPT 在不同應(yīng)用場(chǎng)景下的表現(xiàn),了解其任務(wù)的實(shí)現(xiàn)方式及其效果。
關(guān)于ChatGPT 在這些任務(wù)上的表現(xiàn)。我們?cè)谌路莅l(fā)表了一篇論文,研究了九個(gè) NLP 任務(wù)和 21 個(gè)數(shù)據(jù)集,其中包含了超過(guò)十萬(wàn)個(gè)數(shù)據(jù)點(diǎn),測(cè)試了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。對(duì)此我和大家分享幾點(diǎn)觀察:
通過(guò)結(jié)果分析來(lái)看,我們看到 ChatGPT在許多任務(wù)完成效果達(dá)到或者接近SOTA(全稱(chēng)為“state-of-the-art”,用于描述機(jī)器學(xué)習(xí)中取得某個(gè)任務(wù)上當(dāng)前最優(yōu)效果的模型)或者單一任務(wù)采用BERT (是用于自然語(yǔ)言處理的預(yù)訓(xùn)練技術(shù),由Google提出)微調(diào)的結(jié)果。
總的來(lái)說(shuō),GPT在許多任務(wù)性能測(cè)試中表現(xiàn)出色。尤其是在句子級(jí)任務(wù)中非常有競(jìng)爭(zhēng)力,甚至在情感傾向分析任務(wù)中超越了SOTA結(jié)果。不過(guò),在詞語(yǔ)級(jí)任務(wù)中,例如句法分析和命名實(shí)體識(shí)別方面,GPT的準(zhǔn)確率仍有較大差距。GPT能力與世界知識(shí),以及推理能力密切相關(guān),這些能力會(huì)使得GPT在理解難度較高的閱讀理解任務(wù)中有出色的表現(xiàn)。此外,如果通過(guò)加入“incontext learning”的方法,可以提高指令解析能力。這表明良好的預(yù)訓(xùn)練模型可以讓模型具備基本的任務(wù)理解能力。我們還需要進(jìn)行更多實(shí)驗(yàn)來(lái)驗(yàn)證任務(wù)之間的關(guān)聯(lián)關(guān)系和泛化能力。
另外,我們對(duì)GPT-3.0的不同版本進(jìn)行了多個(gè)任務(wù)和語(yǔ)料集的評(píng)估,發(fā)現(xiàn)不同版本在不同任務(wù)上表現(xiàn)不同。例如在閱讀理解任務(wù)上版本1.0表現(xiàn)良好,但在命名實(shí)體識(shí)別和詞性標(biāo)注任務(wù)上表現(xiàn)欠佳,而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表現(xiàn)逐漸提升。對(duì)于GPT-3的能力究竟來(lái)自哪里,還需要進(jìn)一步探究。
此外,為了測(cè)試大型語(yǔ)言模型的魯棒性,我們進(jìn)行了一些實(shí)驗(yàn),加入人為擾動(dòng)。在TEXT-DAVINCI-003版本中,模型的魯棒性問(wèn)題與之前的深度學(xué)習(xí)模型類(lèi)似。盡管仍然存在模型學(xué)習(xí)表面模式的問(wèn)題,但大型語(yǔ)言模型的性能提升,其實(shí)更多依賴(lài)于后期的訓(xùn)練而不是前期的語(yǔ)言模型。
綜上所述,GPT的大部分的現(xiàn)象依然可以使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論進(jìn)行初步解釋。但在深度學(xué)習(xí)模型的解釋方法方面,大模型仍面臨著許多挑戰(zhàn),模型解釋性對(duì)于發(fā)展AGI是至關(guān)重要的, 可解釋性的背后理論是我們關(guān)注如何通過(guò)解釋模型達(dá)到人類(lèi)對(duì)模型的信任,從而為我們創(chuàng)造更加安全可靠的應(yīng)用。
04 大模型的成功,離不開(kāi)可解釋性、泛化性和可信度的支持
崔鵬:GPT是一個(gè)十分驚人的產(chǎn)品系統(tǒng),性能非常出色。我們以ChatGPT發(fā)布為分界線,目前AI模型的可解釋性是否有所改善?總體性能和可解釋性是否都有所提高?
張偉男:目前的大模型用對(duì)話形式來(lái)激發(fā)語(yǔ)言模型的能力,提供了一種通過(guò)對(duì)話探究可解釋性問(wèn)題的方式。我們可以通過(guò)模型的回復(fù)來(lái)達(dá)到模型預(yù)測(cè)結(jié)果的可解釋性的目的。舉個(gè)例子,美劇《西部世界》中開(kāi)發(fā)者與機(jī)器人的對(duì)話方式當(dāng)時(shí)讓我很驚奇,可以通過(guò)自然語(yǔ)言來(lái)調(diào)試機(jī)器人,得到機(jī)器人的回復(fù)和看到系統(tǒng)相應(yīng)參數(shù)的對(duì)應(yīng)情況。通過(guò)這個(gè)過(guò)程,我們可以判斷機(jī)器人是否在說(shuō)謊或有自我意識(shí),通過(guò)對(duì)話的方式進(jìn)行復(fù)盤(pán)或解釋和分析。
李磊:現(xiàn)在的ChatGPT中,GPT-3、GPT-4模型在可解釋性方面沒(méi)有明顯的區(qū)別。通過(guò)使用不同的prompt進(jìn)行訓(xùn)練模型,生成更多的結(jié)果。比如在分類(lèi)任務(wù)中,模型可以輸出更多的內(nèi)容。通過(guò)這些額外的輸出,我們可以更好地理解模型是如何做出判斷的,支撐它做對(duì)的理由或指出它的錯(cuò)誤之處。當(dāng)然,可能存在一些自相矛盾的情況,即模型說(shuō)的理由和輸出之間不一致,這也是我們需要重點(diǎn)關(guān)注和解決的問(wèn)題。
崔鵬:最近我也在嘗試使用GPT的模型。有時(shí)候問(wèn)這個(gè)模型一個(gè)問(wèn)題,它會(huì)先給出一個(gè)錯(cuò)誤的答案。但通過(guò)逐步詢(xún)問(wèn)它的決策過(guò)程,它可能會(huì)剖析出正確的答案。當(dāng)再問(wèn)它之前的錯(cuò)誤答案時(shí),它會(huì)告訴你,那只是一種輸入錯(cuò)誤(typo)。重要的問(wèn)題是,模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性。因此,我們需要更好地定義和理解這些大型模型的可解釋性。
我們現(xiàn)在要求模型的可解釋性,是指對(duì)人的可解釋。所以我們要先了解人類(lèi)的智能是否可解釋呢?人類(lèi)本身有一套決策系統(tǒng),比如看到一個(gè)杯子快要倒,我們就會(huì)直覺(jué)地知道(它會(huì)倒)。但如果你問(wèn)為什么,我們需要用很多物理學(xué)知識(shí)來(lái)解釋。但即使沒(méi)有學(xué)過(guò)物理學(xué),人們也能知道杯子會(huì)倒。所以我們需要了解的是這個(gè)預(yù)判和推斷的過(guò)程,要求模型的解釋過(guò)程和決策過(guò)程一致。
張奇:我同意你的觀點(diǎn)。就機(jī)器學(xué)習(xí)模型而言,如果解釋和決策不一致,可能會(huì)違反其重要的終止性原則。因此,在醫(yī)療、法律等領(lǐng)域,模型的解釋性對(duì)人仍然很重要。即使模型的準(zhǔn)確率高達(dá)96.9%,人們?cè)陉P(guān)鍵時(shí)刻仍需要關(guān)注其解釋情況。但在深度學(xué)習(xí)模型下,要達(dá)到這個(gè)目標(biāo)是非常困難的。
張偉男:我們可能沒(méi)有意識(shí)到,在做出決策的過(guò)程和我們對(duì)于這些決策的解釋可能并不一致。這可能是由于人類(lèi)解釋的機(jī)制并不完全遵從決策的過(guò)程,因此很難準(zhǔn)確地判斷清楚。然而,我認(rèn)為至少解釋這個(gè)過(guò)程應(yīng)該有一個(gè)明確的目標(biāo)和對(duì)象,只要能夠讓特定的對(duì)象相信和理解我們能夠達(dá)到這個(gè)目標(biāo),這應(yīng)該就可以了。
崔鵬:在討論可解釋性時(shí),我們應(yīng)該從哪個(gè)角度出發(fā),才能讓可解釋性更有意義呢?這是一個(gè)很好的問(wèn)題??山忉屝缘闹饕康氖亲屓祟?lèi)用戶(hù)能夠理解和信任AI系統(tǒng)。具體來(lái)說(shuō),當(dāng)一個(gè)AI系統(tǒng)做出決策或提供建議時(shí),人類(lèi)用戶(hù)需要能夠理解這個(gè)決策或建議是如何產(chǎn)生的,并且有理由相信這個(gè)決策或建議是正確的。
在這個(gè)意義下,可解釋性的討論應(yīng)該從兩個(gè)方向切入。首先,我們需要了解AI系統(tǒng)在做出決策時(shí)的內(nèi)部機(jī)制。其次,我們需要將這些內(nèi)部機(jī)制以可理解的方式呈現(xiàn)給人類(lèi)用戶(hù)。只有這樣,人類(lèi)用戶(hù)才能真正理解AI系統(tǒng)是如何產(chǎn)生決策的,并且信任這些決策。
張奇:是的,從開(kāi)發(fā)者的角度去解釋模型可能更方便,因?yàn)殚_(kāi)發(fā)者可以更深入地理解模型內(nèi)部的運(yùn)作機(jī)制。同時(shí),開(kāi)發(fā)者也可以通過(guò)交互式的方式來(lái)解釋模型,例如將模型的決策過(guò)程可視化,或者提供一些用戶(hù)友好的解釋工具,使得監(jiān)管者和使用者更容易理解模型的運(yùn)作方式和結(jié)果。這也有助于促進(jìn)模型的可解釋性研究,因?yàn)殚_(kāi)發(fā)者可以根據(jù)用戶(hù)的反饋來(lái)改進(jìn)解釋工具,提高模型的可解釋性。
李磊:可解釋性、泛化性和可信度,這三個(gè)概念雖然有聯(lián)系,但也有區(qū)別??山忉屝钥梢蕴岣吣P偷姆夯?,但并非總是相關(guān)的。舉個(gè)例子,在物理學(xué)中,如果有準(zhǔn)確的定律,我們可以預(yù)測(cè)行星的運(yùn)動(dòng)。但如果沒(méi)有這些定律,我們可能無(wú)法預(yù)測(cè)其他星系的運(yùn)動(dòng),這時(shí)可解釋性就能提供幫助。另外可信度方面,即使模型的準(zhǔn)確率很高,也不一定能夠使我們完全相信它。相反,即使準(zhǔn)確率不高,我們也可能相信它。例如在機(jī)器翻譯中,我們知道翻譯質(zhì)量可能存在一些錯(cuò)誤,但我們可以確定大約有多少錯(cuò)誤,從而評(píng)估其可信度。盡管準(zhǔn)確率很重要,但我們還需要考慮其他因素來(lái)確定模型的可信度。
*本文為機(jī)器之心和騰訊科技聯(lián)合發(fā)布的獨(dú)家內(nèi)容,未經(jīng)授權(quán),請(qǐng)勿轉(zhuǎn)載。
編輯:李海丹 趙楊博