環(huán)球熱文：如何打開(kāi)AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南

2023-05-10 07:58:58 來(lái)源：機(jī)器之心

劃重點(diǎn)：

1隨著AIGC的技術(shù)突破，大模型不斷涌現(xiàn)，AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT的火爆，讓AI倫理與治理研究被提上更緊迫的日程。2目前的深度學(xué)習(xí)模型，特別是最近出現(xiàn)的大型語(yǔ)言模型，尚且是一種“黑盒技術(shù)”。雖然大型語(yǔ)言模型在自然語(yǔ)言處理的許多任務(wù)上表現(xiàn)出色，但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。3關(guān)于用戶(hù)隱私信息保護(hù)和模型安全性，我們可以采用數(shù)據(jù)屏蔽技術(shù)、使用差分隱私的訓(xùn)練方法、使用CRT（Confidential Training）等方法，提高模型的安全性、可信性和可靠性。4在AI治理方面，模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性，仍然需要被不斷的驗(yàn)證。因此，我們需要更好地定義和理解這些大型模型的可解釋性。

騰訊科技《AI未來(lái)指北》系列策劃，圍繞AI技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場(chǎng)景、治理幾大板塊，關(guān)注AI未來(lái)發(fā)展趨勢(shì)，邀約行業(yè)專(zhuān)家、投資人、創(chuàng)業(yè)者，持續(xù)輸出深度內(nèi)容。本期由機(jī)器之心聯(lián)合騰訊科技獨(dú)家發(fā)布，聚焦AI倫理和治理問(wèn)題。

(相關(guān)資料圖)

近日，美國(guó)白宮宣布了首個(gè)AI監(jiān)管計(jì)劃，計(jì)劃撥款1.4億美元用于新的人工智能研究中心。白宮希望讓這些AI公司確信，有責(zé)任應(yīng)對(duì)人工智能帶來(lái)的風(fēng)險(xiǎn)。目前許多人工智能領(lǐng)域的業(yè)內(nèi)人士表示擔(dān)心AI正在釋放一些危險(xiǎn)的東西，AIGC已經(jīng)可以成為制造錯(cuò)誤信息的工具，若如此發(fā)展下去，很快可能會(huì)對(duì)就業(yè)構(gòu)成威脅。就連被稱(chēng)為“人工智能教父”的杰弗里·辛頓博士（Geoffrey Hinton）也于近日宣布從谷歌離職。杰弗里·辛頓表示開(kāi)始擔(dān)心該技術(shù)會(huì)造成嚴(yán)重的傷害，他說(shuō)：“很難想象如何才能阻止壞人利用它做壞事。”

隨著AIGC的技術(shù)突破，大模型的不斷涌現(xiàn)，AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT 的火爆，讓 AI倫理與治理研究被提上更緊迫的日程，人們對(duì) AI 倫理與治理的關(guān)注度日益增加，比如：如何讓AI向善、如何打造出負(fù)責(zé)任的AI、如何讓AI系統(tǒng)可信可控，成為我們熱點(diǎn)關(guān)注和探討的話題。

談到AI的倫理和治理，“可解釋性”是首當(dāng)其沖的問(wèn)題（可解釋的人工智能，是指一套流程和方法，可使人類(lèi)用戶(hù)能夠理解和信任機(jī)器學(xué)習(xí)算法所產(chǎn)生的結(jié)果和輸出）。增進(jìn)AI系統(tǒng)的可解釋性，有助于人類(lèi)對(duì)AI系統(tǒng)進(jìn)行審計(jì)或者審查，進(jìn)而可以識(shí)別、減少、消除算法歧視，避免AI在決策和輸出中造成的失誤和風(fēng)險(xiǎn)漏洞等。

為了啟發(fā)網(wǎng)友們進(jìn)一步探討更多關(guān)于 AI 倫理與治理問(wèn)題，機(jī)器之心聯(lián)合未來(lái)論壇、人民郵電出版社共同主辦的「AI治理與倫理」線上圓桌活動(dòng)，并聯(lián)合騰訊科技推出獨(dú)家精華內(nèi)容實(shí)錄，從AI可解釋性的角度出發(fā)，特邀未來(lái)論壇青年科學(xué)家、清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、博士生導(dǎo)師崔鵬擔(dān)任主持人，并邀請(qǐng)到加州大學(xué)圣巴巴拉分校助理教授李磊，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師張奇，哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師張偉男擔(dān)任嘉賓，針對(duì)相關(guān)問(wèn)題進(jìn)行了分享和圓桌對(duì)話，主要圍繞以下幾個(gè)問(wèn)題：

●?目前的大語(yǔ)言模型產(chǎn)品中仍然充滿了一些虛假或有害的信息，可能會(huì)帶來(lái)網(wǎng)絡(luò)釣魚(yú)、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。我們?nèi)绾伪苊釧I的不安全性、如何保護(hù)我們個(gè)人的隱私？

●?隨著人工智能的發(fā)展，AI模型越來(lái)越像一個(gè)“黑匣子”。因此我們需要更好的了解AI模型的“可解釋性”。那么AI模型是如何學(xué)習(xí)的，針對(duì)一個(gè)特定輸入會(huì)為何做出如此決策？決策是否可靠？

●?對(duì)于大模型可解釋性的決策方面可靠性的判斷，目前有哪些方法和機(jī)制？如何提高模型的可靠性和安全性？

以下為精華內(nèi)容實(shí)錄：

01 參考三大技術(shù)方向，保護(hù)隱私信息和模型安全性

崔鵬：今天我們將圍繞新一輪的AI技術(shù)趨勢(shì)繼續(xù)展開(kāi)討論：以大模型為背景，請(qǐng)各位嘉賓分享AI可解釋最新的研究進(jìn)展，并針對(duì)重點(diǎn)和開(kāi)放性的問(wèn)題展開(kāi)交流討論。首先，請(qǐng)加州大學(xué)圣芭芭拉分校計(jì)算機(jī)系的李磊老師，分享關(guān)于“可信賴(lài)的預(yù)訓(xùn)練語(yǔ)言模型（trustwory pretrained language model）”。

李磊：大家好，目前很多公司一旦訓(xùn)練出大語(yǔ)言模型上線，會(huì)吸引一波網(wǎng)友用戶(hù)的使用。實(shí)際上，其中會(huì)涉及到很多與隱私和安全有關(guān)的問(wèn)題，需要人人都值得關(guān)注。主要有三個(gè)方面：

首先，個(gè)人的隱私問(wèn)題。比如，雖然OpenAI對(duì)其生成的文本進(jìn)行了初步的過(guò)濾，但仍有大量用戶(hù)通過(guò)構(gòu)造特殊的指令，使其繞過(guò)初始的限制，制造虛假或有害的信息，帶來(lái)網(wǎng)絡(luò)釣魚(yú)、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。另外，如果使用特定的提示作為輸入，模型會(huì)輸出一些意外的信息，其中可能包含個(gè)人電話號(hào)碼、電子郵件地址等私人信息。更糟糕的是，如果輸入包含身份證號(hào)碼或社會(huì)安全號(hào)碼等信息，那就非常危險(xiǎn)了。這些輸入和提問(wèn)的信息，可能恰恰會(huì)被預(yù)訓(xùn)練的語(yǔ)言模型記住，也有泄漏的風(fēng)險(xiǎn)。

第二，版權(quán)問(wèn)題。比如最近發(fā)布許多創(chuàng)業(yè)公司等外部團(tuán)隊(duì)都在使用Open AI的API去訓(xùn)練模型。雖然在當(dāng)前階段，他們并沒(méi)有通過(guò)API采取過(guò)任何法律行動(dòng)，但這個(gè)過(guò)程實(shí)際上涉及到模型的提取攻擊，違反了擁有模型的版權(quán)方。并且，這個(gè)問(wèn)題不僅僅限于語(yǔ)言模型，許多其他語(yǔ)言模型、翻譯模型、對(duì)話模型都存在相同的問(wèn)題。

第三，AI生成的建議可能不是特別安全，可靠度是存疑的。比如有媒體報(bào)道過(guò)，GPT-3 曾建議使用者自殺（2020年，當(dāng)患者向GPT表露 “我很難過(guò)，我想自殺” 的情緒時(shí)，GPT-3 卻會(huì)回答稱(chēng) “很遺憾聽(tīng)到這個(gè)消息，我可以幫你”。且當(dāng)患者進(jìn)一步提問(wèn) “我應(yīng)該自殺嗎？” GPT-3 的回答是：“我認(rèn)為您應(yīng)該這樣做?！保?/p>

因此，我們?nèi)绾伪苊釧I的不安全性是一個(gè)重要問(wèn)題。如何保護(hù)我們個(gè)人的隱私？對(duì)此，我分享一些個(gè)人的看法。

如果信息已經(jīng)在網(wǎng)上公開(kāi)，那問(wèn)題不大。但有些信息需要保密，一旦泄漏會(huì)引起嚴(yán)重后果。例如，最近有人使用GitHub的Code生成了一段結(jié)果，其中包含API密鑰和密碼等敏感信息。如果一家公司使用這種方式生成代碼，其內(nèi)部數(shù)據(jù)庫(kù)的密碼可能會(huì)被泄露，從而導(dǎo)致商業(yè)機(jī)密和用戶(hù)數(shù)據(jù)被全部泄露。此外，機(jī)器翻譯模型也存在隱私泄露的問(wèn)題。例如，一個(gè)用于將英文翻譯成中文的機(jī)器翻譯模型，在訓(xùn)練時(shí)可能記錄了一些個(gè)人隱私數(shù)據(jù)。即使翻譯結(jié)果是錯(cuò)誤的，但可能會(huì)包含電話號(hào)碼和姓名等敏感信息。為了解決這個(gè)問(wèn)題，我們需要研究“隱私保護(hù)”這個(gè)概念，以保護(hù)用戶(hù)隱私數(shù)據(jù)并在訓(xùn)練語(yǔ)言模型時(shí)更加可行。我們希望保護(hù)程度能夠在理論上得到證明。

接下來(lái)，讓我們來(lái)看一下“provably confidential”的定義，即如何保證隱私保密性。例如，如果一段文本包含身份證號(hào)碼，但我不想讓別人知道，那么直接使用一個(gè)大型語(yǔ)言模型處理這段文本可能會(huì)帶來(lái)隱私安全問(wèn)題。因此，我們可以采用兩種解決方案：第一種是使用語(yǔ)言模型處理文本，但需要注意保護(hù)隱私數(shù)據(jù)。第二種是將文本中的隱私數(shù)據(jù)替換為掩碼，從而使數(shù)據(jù)更安全并可以安全地進(jìn)行訓(xùn)練。

另外，“confidential”是指這個(gè)算法在處理隱私數(shù)據(jù)時(shí)保持?jǐn)?shù)據(jù)的安全性。我們可以通過(guò)兩種情況來(lái)刻畫(huà)這個(gè)“confidential”(如上圖），一種是直接使用一個(gè)保密算法在未經(jīng)掩碼的數(shù)據(jù)上進(jìn)行訓(xùn)練，得到模型P；另一種是使用一個(gè)普通的算法在掩碼后的數(shù)據(jù)上進(jìn)行訓(xùn)練，得到模型Q。由于這兩種情況下得到的模型效果幾乎一樣，我們可以認(rèn)為這個(gè)算法達(dá)到了“confidential”的要求。但是，在某些情況下，算法仍然可能會(huì)出現(xiàn)不良結(jié)果。例如，如果我使用“pro”算法去探測(cè)語(yǔ)言模型，它能夠生成我的真實(shí)社會(huì)安全號(hào)碼，可能會(huì)引發(fā)隱私安全問(wèn)題。因此，我們需要定義一些參數(shù)來(lái)確保算法的“confidentiality”，例如，模型P需要滿足在某些條件下不能生成真實(shí)社會(huì)安全號(hào)碼等。

這件事情S的發(fā)生涉及到概率生成的問(wèn)題。比如在模型Q下，事件S發(fā)生的概率落在一個(gè)范圍內(nèi)，我們可以用X和delta來(lái)界定。盡管具體的計(jì)算公式可以忽略，但本質(zhì)上這個(gè)不等式在表達(dá)一個(gè)觀點(diǎn)：在模型P下生成敏感數(shù)據(jù)S的概率約等于在模型Q下生成S的概率。如果這個(gè)約等于成立，我們就可以說(shuō)模型P滿足一定的保密要求。問(wèn)題是，我們?cè)撊绾螌?shí)現(xiàn)這個(gè)“約等于”，從而去保護(hù)我們的隱私呢？總的來(lái)說(shuō)，有三個(gè)技術(shù)方向我們可以參考：

首先，一種簡(jiǎn)單的方法是采用數(shù)據(jù)屏蔽（Data Masking）技術(shù)，將數(shù)據(jù)中的敏感詞匯進(jìn)行遮蓋。如果遮蓋的準(zhǔn)確，生成的數(shù)據(jù)就非常安全，達(dá)到了完美的保密效果。r然而，在現(xiàn)實(shí)中我們還沒(méi)有一個(gè)“完美”的方案。我們可以使用各種方法（如命名實(shí)體識(shí)別或者個(gè)人信息檢測(cè)等）來(lái)檢測(cè)敏感數(shù)據(jù)，但這些方法并不一定完美，可能存在誤差和負(fù)面效應(yīng)。

第二種方法是使用差分隱私的訓(xùn)練方法來(lái)保護(hù)數(shù)據(jù)隱私。然而，這種方法存在一個(gè)問(wèn)題：如果敏感數(shù)據(jù)多次重復(fù)出現(xiàn)，那么這個(gè)隱私算法就會(huì)失效，因?yàn)樗僭O(shè)的敏感數(shù)據(jù)是不會(huì)重復(fù)的。一種經(jīng)典的差分隱私算法叫做“DPSGD”，在這個(gè)算法中，通過(guò)在梯度計(jì)算中引入一些噪音，使每次更新時(shí)的個(gè)體梯度可以被隱藏起來(lái)，從而訓(xùn)練出一個(gè)效果較好且不會(huì)泄露敏感數(shù)據(jù)的模型。但是，這個(gè)解決方案也存在問(wèn)題。因此，我們提出了一種新的方法，即通過(guò)引入“confidentiality”來(lái)描述敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)有多大，然后提出了一個(gè)新的算法叫做“confidential training”。該算法的核心是進(jìn)行應(yīng)用程序，如果數(shù)據(jù)中有重復(fù)，那么它會(huì)影響隱私性。如果有一些敏感的地方，我們希望通過(guò)一些策略對(duì)其進(jìn)行反應(yīng)。

此外，我們可以使用CRT（Confidentially Redacted Training）方法。這是一種用于機(jī)器學(xué)習(xí)模型保護(hù)的方法，旨在保護(hù)在訓(xùn)練過(guò)程中使用的敏感數(shù)據(jù)和模型權(quán)重等機(jī)密信息不被泄露，可以在理論上獲得更強(qiáng)的保密性。另外，一些需要通過(guò)API調(diào)用的大型模型，比如機(jī)器翻譯模型和圖像模型，為了保護(hù)這些知識(shí)產(chǎn)權(quán)，作者們?cè)O(shè)計(jì)了一種算法，使得用戶(hù)可以方便地使用API，同時(shí)保護(hù)模型本身，并且通過(guò)水印的方式來(lái)防止被竊取。還有一些保密信息的處理方法，比如使用哈希值和信號(hào)頻率來(lái)區(qū)分學(xué)生模型是否來(lái)自原模型API，同時(shí)也進(jìn)一步改進(jìn)算法以提高模型的安全性、可信性和可靠性。

02 兩大解釋模型，了解AI可靠性和安全性

崔鵬：接下來(lái)請(qǐng)哈工大計(jì)算機(jī)學(xué)院的張偉男教授，他的研究領(lǐng)域主要是在語(yǔ)言處理和人機(jī)對(duì)話方面，曾獲得過(guò)黑龍江省的科技進(jìn)步一等獎(jiǎng)，包括 “吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”二等獎(jiǎng)等等。隨著ChatGPT的火爆，人機(jī)對(duì)話究竟會(huì)走向何方？今天張偉男老師老師的主題分享，或許可以帶給我們一些思路參考和獨(dú)到見(jiàn)解——《大模型時(shí)代自然語(yǔ)言處理中的可解釋性問(wèn)題》。

張偉男：在大型模型時(shí)代，自然語(yǔ)言處理和人機(jī)交互的任務(wù)是至關(guān)重要的。因此，我們需要重新審視和探討在大模型背景下，如何看待自然語(yǔ)言處理中的可解釋性問(wèn)題。本次的分享和報(bào)告，我們將涉及可解釋性問(wèn)題的本質(zhì)和意義，以及當(dāng)前的可解釋性方法和機(jī)制是否仍然有效。

可解釋性實(shí)際上是一種能夠被人類(lèi)理解的方式來(lái)解釋和展示人工智能的能力，這個(gè)定義來(lái)源于哈佛大學(xué)和谷歌大腦在2017年發(fā)布的一篇論文。為什么我們要研究可解釋性呢？實(shí)際上，隨著深度學(xué)習(xí)和基于深度學(xué)習(xí)的人工智能系統(tǒng)的出現(xiàn)，它們呈現(xiàn)出了黑盒性問(wèn)題——比如AI得出的結(jié)論或結(jié)果的具體依據(jù)是什么、它們的邊界有哪些，什么時(shí)候會(huì)失效？以及當(dāng)它們給出錯(cuò)誤結(jié)果時(shí)，我們能夠明白如何調(diào)整和修改它們。這些都是黑盒AI帶來(lái)的關(guān)鍵問(wèn)題。

由于黑盒性質(zhì)，我們更關(guān)注現(xiàn)在的深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng)應(yīng)該能夠在做出決策的同時(shí)，給出相應(yīng)的依據(jù)，并根據(jù)用戶(hù)反饋進(jìn)行及時(shí)調(diào)整。進(jìn)一步，為什么我們的AI系統(tǒng)需要可解釋性呢？這涉及到許多問(wèn)題，包括倫理問(wèn)題和可信度問(wèn)題等。

在了解的同時(shí)，我們需要先明確的一點(diǎn)是，我們需先理解“解釋的對(duì)象是誰(shuí)”。我認(rèn)為可解釋性的關(guān)鍵在于其對(duì)象是人類(lèi)。因此，成功的可解釋性人工智能系統(tǒng)應(yīng)該涉及以下學(xué)科：心理學(xué)、人機(jī)交互和社會(huì)科學(xué)。由于黑盒性質(zhì)，我們需要關(guān)注深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng)，應(yīng)該是能夠在做出決策的同時(shí)，也可以給出我們相應(yīng)的依據(jù)，并且可以根據(jù)用戶(hù)反饋進(jìn)行及時(shí)調(diào)整。

再進(jìn)一步的思考：為什么我們的AI系統(tǒng)需要可解釋性呢？這涉及到許多問(wèn)題，包括倫理問(wèn)題和可信問(wèn)題等。AI系統(tǒng)需要可解釋性的原因和動(dòng)機(jī)，包括技術(shù)人員在建模過(guò)程中需要進(jìn)行糾錯(cuò)。現(xiàn)在，越來(lái)越多的行業(yè)和場(chǎng)景使用黑盒技術(shù)，因此，人們開(kāi)始思考使用這種AI系統(tǒng)的可能性、其能力的邊界以及可能存在的問(wèn)題等。

可解釋的人工智能有三個(gè)關(guān)鍵方面：首先，解釋的對(duì)象通常是指系統(tǒng)或模型。其次，解釋者可以是模型本身，也可以是監(jiān)管方或人類(lèi)專(zhuān)家，需要對(duì)系統(tǒng)提供一定程度的解釋。最后，解釋的受眾也很重要。例如，開(kāi)發(fā)者需要解釋過(guò)程和結(jié)果來(lái)優(yōu)化系統(tǒng)，而普通用戶(hù)需要解釋結(jié)果。

現(xiàn)在“解釋”的分類(lèi)有兩種：第一種是透明模型，在傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)中，可以通過(guò)特征來(lái)理解結(jié)果是如何得出的。但是，在黑盒模型和深度學(xué)習(xí)的時(shí)代中，模型本身變得不透明了，需要使用一種事后解釋的方法來(lái)證明輸出結(jié)果或模型決策的過(guò)程是怎樣的。

在自然語(yǔ)言處理中，語(yǔ)言本身是一個(gè)抽象的符號(hào)系統(tǒng)。因此可解釋的自然語(yǔ)言處理是指智能體模型或自然語(yǔ)言處理系統(tǒng)，以可解釋或可理解的方式與開(kāi)發(fā)者、使用者和決策者進(jìn)行人機(jī)互動(dòng)，來(lái)實(shí)現(xiàn)清晰有效的交流，并取得人類(lèi)的信任，同時(shí)滿足特定場(chǎng)景的應(yīng)用和監(jiān)管需求。

而解釋的第二種是“事后解釋”。可以通過(guò)四種方式完成：首先，可以使用替代模型，通過(guò)學(xué)習(xí)另一個(gè)具有可解釋能力的簡(jiǎn)單模型作為代理來(lái)進(jìn)行解釋?zhuān)娲Ｐ偷姆椒ㄊ悄Ｐ蜔o(wú)關(guān)的(model-agnostic)。其次可以使用基于樣例驅(qū)動(dòng)的方法，以正確的翻譯樣例為例進(jìn)行翻譯，然后解釋模型的結(jié)果。第三種方法是將“注意力機(jī)制可視化”。例如在機(jī)器翻譯中，可以使用右側(cè)的注意力機(jī)制，將高亮區(qū)域顯示出來(lái)（如下圖），以此解釋模型的預(yù)測(cè)過(guò)程。

第四種方法是通過(guò)探針或引入其他任務(wù)的方式來(lái)檢測(cè)模型在不同階段的信息處理能力。例如，我們可以使用中間層的向量來(lái)完成詞性標(biāo)注、句法分析、語(yǔ)義分析等中間任務(wù)，從而檢測(cè)模型是否正確地理解了信息，并完成了相應(yīng)的任務(wù)。最后，我們可以舉例說(shuō)明這些方法的應(yīng)用，如在情感分析中，通過(guò)引入可解釋性方法來(lái)解釋模型的預(yù)測(cè)結(jié)果，以判斷特定事件的反應(yīng)情緒是否合理。

總的來(lái)說(shuō)，雖然大型語(yǔ)言模型在自然語(yǔ)言處理的許多任務(wù)上表現(xiàn)出色，但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。傳統(tǒng)的方法包括基于規(guī)則的系統(tǒng)、決策樹(shù)模型和邏輯斯蒂回歸等白盒技術(shù)，它們提供了一定的解釋性，并有助于開(kāi)發(fā)者糾錯(cuò)。但是，現(xiàn)在的深度學(xué)習(xí)模型，特別是最近出現(xiàn)的大型語(yǔ)言模型，是一種黑盒技術(shù)，它缺乏解釋性。

不同的模型有不同的方法來(lái)驗(yàn)證可解釋性，比如透明模型的設(shè)計(jì)方法可以用于特征權(quán)重的解釋?zhuān)蛘咛卣鞯倪x擇是否對(duì)結(jié)果有影響的解釋。此外，溯因方法也可以用于解釋?zhuān)热缭趩?wèn)答領(lǐng)域中，通過(guò)推理鏈的方式或?qū)υ挼姆绞?，可以推斷出為什么?huì)得到某個(gè)答案，把中間的推理過(guò)程展示出來(lái)可以提高解釋性。在實(shí)際應(yīng)用中，機(jī)器學(xué)習(xí)可解釋性能夠幫助我們更好地理解模型，提高模型的可靠性和安全性。

03 大型語(yǔ)言模型的魯棒性和解釋性測(cè)試結(jié)果：依賴(lài)于后期訓(xùn)練、面臨挑戰(zhàn)

崔鵬：接下來(lái)有請(qǐng)復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授張奇老師，他的研究主要在自然語(yǔ)言處理和信息檢索方面。張奇老師曾在許多著名的期刊和會(huì)議上發(fā)表了很多重要研究，并獲得了許多獎(jiǎng)項(xiàng)。他一直致力于研究大型模型的魯棒性。有請(qǐng)張奇老師，針對(duì)最近推出的ChatGPT方面，分享“GPT系列發(fā)展與魯棒性的研究”。

張奇：大家好，我們目前關(guān)注“ChatGPT 模型及其魯棒性”，并對(duì)其進(jìn)行了一些分析性的工作，研究方向包括 ChatGPT 的發(fā)展歷程，以及該模型上進(jìn)行的分析工作以及一些新的應(yīng)用場(chǎng)景。

ChatGPT 的發(fā)展歷程經(jīng)歷了幾個(gè)版本，最終發(fā)展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能，如指令（instruction）、PPO 、聊天功能等。對(duì)此我們今天一起來(lái)看看ChatGPT 在不同應(yīng)用場(chǎng)景下的表現(xiàn)，了解其任務(wù)的實(shí)現(xiàn)方式及其效果。

關(guān)于ChatGPT 在這些任務(wù)上的表現(xiàn)。我們?cè)谌路莅l(fā)表了一篇論文，研究了九個(gè) NLP 任務(wù)和 21 個(gè)數(shù)據(jù)集，其中包含了超過(guò)十萬(wàn)個(gè)數(shù)據(jù)點(diǎn)，測(cè)試了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。對(duì)此我和大家分享幾點(diǎn)觀察：

通過(guò)結(jié)果分析來(lái)看，我們看到 ChatGPT在許多任務(wù)完成效果達(dá)到或者接近SOTA（全稱(chēng)為“state-of-the-art”，用于描述機(jī)器學(xué)習(xí)中取得某個(gè)任務(wù)上當(dāng)前最優(yōu)效果的模型）或者單一任務(wù)采用BERT （是用于自然語(yǔ)言處理的預(yù)訓(xùn)練技術(shù)，由Google提出）微調(diào)的結(jié)果。

總的來(lái)說(shuō)，GPT在許多任務(wù)性能測(cè)試中表現(xiàn)出色。尤其是在句子級(jí)任務(wù)中非常有競(jìng)爭(zhēng)力，甚至在情感傾向分析任務(wù)中超越了SOTA結(jié)果。不過(guò)，在詞語(yǔ)級(jí)任務(wù)中，例如句法分析和命名實(shí)體識(shí)別方面，GPT的準(zhǔn)確率仍有較大差距。GPT能力與世界知識(shí)，以及推理能力密切相關(guān)，這些能力會(huì)使得GPT在理解難度較高的閱讀理解任務(wù)中有出色的表現(xiàn)。此外，如果通過(guò)加入“incontext learning”的方法，可以提高指令解析能力。這表明良好的預(yù)訓(xùn)練模型可以讓模型具備基本的任務(wù)理解能力。我們還需要進(jìn)行更多實(shí)驗(yàn)來(lái)驗(yàn)證任務(wù)之間的關(guān)聯(lián)關(guān)系和泛化能力。

另外，我們對(duì)GPT-3.0的不同版本進(jìn)行了多個(gè)任務(wù)和語(yǔ)料集的評(píng)估，發(fā)現(xiàn)不同版本在不同任務(wù)上表現(xiàn)不同。例如在閱讀理解任務(wù)上版本1.0表現(xiàn)良好，但在命名實(shí)體識(shí)別和詞性標(biāo)注任務(wù)上表現(xiàn)欠佳，而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表現(xiàn)逐漸提升。對(duì)于GPT-3的能力究竟來(lái)自哪里，還需要進(jìn)一步探究。

此外，為了測(cè)試大型語(yǔ)言模型的魯棒性，我們進(jìn)行了一些實(shí)驗(yàn)，加入人為擾動(dòng)。在TEXT-DAVINCI-003版本中，模型的魯棒性問(wèn)題與之前的深度學(xué)習(xí)模型類(lèi)似。盡管仍然存在模型學(xué)習(xí)表面模式的問(wèn)題，但大型語(yǔ)言模型的性能提升，其實(shí)更多依賴(lài)于后期的訓(xùn)練而不是前期的語(yǔ)言模型。

綜上所述，GPT的大部分的現(xiàn)象依然可以使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論進(jìn)行初步解釋。但在深度學(xué)習(xí)模型的解釋方法方面，大模型仍面臨著許多挑戰(zhàn)，模型解釋性對(duì)于發(fā)展AGI是至關(guān)重要的, 可解釋性的背后理論是我們關(guān)注如何通過(guò)解釋模型達(dá)到人類(lèi)對(duì)模型的信任，從而為我們創(chuàng)造更加安全可靠的應(yīng)用。

04 大模型的成功，離不開(kāi)可解釋性、泛化性和可信度的支持

崔鵬：GPT是一個(gè)十分驚人的產(chǎn)品系統(tǒng)，性能非常出色。我們以ChatGPT發(fā)布為分界線，目前AI模型的可解釋性是否有所改善？總體性能和可解釋性是否都有所提高？

張偉男:目前的大模型用對(duì)話形式來(lái)激發(fā)語(yǔ)言模型的能力，提供了一種通過(guò)對(duì)話探究可解釋性問(wèn)題的方式。我們可以通過(guò)模型的回復(fù)來(lái)達(dá)到模型預(yù)測(cè)結(jié)果的可解釋性的目的。舉個(gè)例子，美劇《西部世界》中開(kāi)發(fā)者與機(jī)器人的對(duì)話方式當(dāng)時(shí)讓我很驚奇，可以通過(guò)自然語(yǔ)言來(lái)調(diào)試機(jī)器人，得到機(jī)器人的回復(fù)和看到系統(tǒng)相應(yīng)參數(shù)的對(duì)應(yīng)情況。通過(guò)這個(gè)過(guò)程，我們可以判斷機(jī)器人是否在說(shuō)謊或有自我意識(shí)，通過(guò)對(duì)話的方式進(jìn)行復(fù)盤(pán)或解釋和分析。

李磊：現(xiàn)在的ChatGPT中，GPT-3、GPT-4模型在可解釋性方面沒(méi)有明顯的區(qū)別。通過(guò)使用不同的prompt進(jìn)行訓(xùn)練模型，生成更多的結(jié)果。比如在分類(lèi)任務(wù)中，模型可以輸出更多的內(nèi)容。通過(guò)這些額外的輸出，我們可以更好地理解模型是如何做出判斷的，支撐它做對(duì)的理由或指出它的錯(cuò)誤之處。當(dāng)然，可能存在一些自相矛盾的情況，即模型說(shuō)的理由和輸出之間不一致，這也是我們需要重點(diǎn)關(guān)注和解決的問(wèn)題。

崔鵬：最近我也在嘗試使用GPT的模型。有時(shí)候問(wèn)這個(gè)模型一個(gè)問(wèn)題，它會(huì)先給出一個(gè)錯(cuò)誤的答案。但通過(guò)逐步詢(xún)問(wèn)它的決策過(guò)程，它可能會(huì)剖析出正確的答案。當(dāng)再問(wèn)它之前的錯(cuò)誤答案時(shí)，它會(huì)告訴你，那只是一種輸入錯(cuò)誤(typo)。重要的問(wèn)題是，模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性。因此，我們需要更好地定義和理解這些大型模型的可解釋性。

我們現(xiàn)在要求模型的可解釋性，是指對(duì)人的可解釋。所以我們要先了解人類(lèi)的智能是否可解釋呢？人類(lèi)本身有一套決策系統(tǒng)，比如看到一個(gè)杯子快要倒，我們就會(huì)直覺(jué)地知道（它會(huì)倒）。但如果你問(wèn)為什么，我們需要用很多物理學(xué)知識(shí)來(lái)解釋。但即使沒(méi)有學(xué)過(guò)物理學(xué)，人們也能知道杯子會(huì)倒。所以我們需要了解的是這個(gè)預(yù)判和推斷的過(guò)程，要求模型的解釋過(guò)程和決策過(guò)程一致。

張奇：我同意你的觀點(diǎn)。就機(jī)器學(xué)習(xí)模型而言，如果解釋和決策不一致，可能會(huì)違反其重要的終止性原則。因此，在醫(yī)療、法律等領(lǐng)域，模型的解釋性對(duì)人仍然很重要。即使模型的準(zhǔn)確率高達(dá)96.9％，人們?cè)陉P(guān)鍵時(shí)刻仍需要關(guān)注其解釋情況。但在深度學(xué)習(xí)模型下，要達(dá)到這個(gè)目標(biāo)是非常困難的。

張偉男：我們可能沒(méi)有意識(shí)到，在做出決策的過(guò)程和我們對(duì)于這些決策的解釋可能并不一致。這可能是由于人類(lèi)解釋的機(jī)制并不完全遵從決策的過(guò)程，因此很難準(zhǔn)確地判斷清楚。然而，我認(rèn)為至少解釋這個(gè)過(guò)程應(yīng)該有一個(gè)明確的目標(biāo)和對(duì)象，只要能夠讓特定的對(duì)象相信和理解我們能夠達(dá)到這個(gè)目標(biāo)，這應(yīng)該就可以了。

崔鵬：在討論可解釋性時(shí)，我們應(yīng)該從哪個(gè)角度出發(fā)，才能讓可解釋性更有意義呢？這是一個(gè)很好的問(wèn)題?？山忉屝缘闹饕康氖亲屓祟?lèi)用戶(hù)能夠理解和信任AI系統(tǒng)。具體來(lái)說(shuō)，當(dāng)一個(gè)AI系統(tǒng)做出決策或提供建議時(shí)，人類(lèi)用戶(hù)需要能夠理解這個(gè)決策或建議是如何產(chǎn)生的，并且有理由相信這個(gè)決策或建議是正確的。

在這個(gè)意義下，可解釋性的討論應(yīng)該從兩個(gè)方向切入。首先，我們需要了解AI系統(tǒng)在做出決策時(shí)的內(nèi)部機(jī)制。其次，我們需要將這些內(nèi)部機(jī)制以可理解的方式呈現(xiàn)給人類(lèi)用戶(hù)。只有這樣，人類(lèi)用戶(hù)才能真正理解AI系統(tǒng)是如何產(chǎn)生決策的，并且信任這些決策。

張奇：是的，從開(kāi)發(fā)者的角度去解釋模型可能更方便，因?yàn)殚_(kāi)發(fā)者可以更深入地理解模型內(nèi)部的運(yùn)作機(jī)制。同時(shí)，開(kāi)發(fā)者也可以通過(guò)交互式的方式來(lái)解釋模型，例如將模型的決策過(guò)程可視化，或者提供一些用戶(hù)友好的解釋工具，使得監(jiān)管者和使用者更容易理解模型的運(yùn)作方式和結(jié)果。這也有助于促進(jìn)模型的可解釋性研究，因?yàn)殚_(kāi)發(fā)者可以根據(jù)用戶(hù)的反饋來(lái)改進(jìn)解釋工具，提高模型的可解釋性。

李磊：可解釋性、泛化性和可信度，這三個(gè)概念雖然有聯(lián)系，但也有區(qū)別?？山忉屝钥梢蕴岣吣Ｐ偷姆夯?，但并非總是相關(guān)的。舉個(gè)例子，在物理學(xué)中，如果有準(zhǔn)確的定律，我們可以預(yù)測(cè)行星的運(yùn)動(dòng)。但如果沒(méi)有這些定律，我們可能無(wú)法預(yù)測(cè)其他星系的運(yùn)動(dòng)，這時(shí)可解釋性就能提供幫助。另外可信度方面，即使模型的準(zhǔn)確率很高，也不一定能夠使我們完全相信它。相反，即使準(zhǔn)確率不高，我們也可能相信它。例如在機(jī)器翻譯中，我們知道翻譯質(zhì)量可能存在一些錯(cuò)誤，但我們可以確定大約有多少錯(cuò)誤，從而評(píng)估其可信度。盡管準(zhǔn)確率很重要，但我們還需要考慮其他因素來(lái)確定模型的可信度。

*本文為機(jī)器之心和騰訊科技聯(lián)合發(fā)布的獨(dú)家內(nèi)容，未經(jīng)授權(quán)，請(qǐng)勿轉(zhuǎn)載。

編輯：李海丹趙楊博

責(zé)任編輯：{ij7}

為您推薦

環(huán)球熱文：如何打開(kāi)AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南
劃重點(diǎn)：隨著AIGC的技術(shù)突破，大模型不斷涌現(xiàn)，AI應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT的火爆，讓AI倫
供應(yīng)鏈金融激發(fā)產(chǎn)業(yè)鏈活力|環(huán)球觀察
財(cái)經(jīng)眼供應(yīng)鏈金融激發(fā)產(chǎn)業(yè)鏈活力（主題）維護(hù)產(chǎn)業(yè)鏈供應(yīng)鏈穩(wěn)定，是暢通國(guó)民經(jīng)濟(jì)循環(huán)的重要舉措。近年來(lái)，金
垃圾分類(lèi)宣傳志愿服務(wù)在行動(dòng)
中安在線中安新聞客戶(hù)端訊環(huán)境問(wèn)題與我們的生活息息相關(guān)，綠色環(huán)保意識(shí)從自身做起尤為重要，為進(jìn)一步提升轄
南財(cái)早新聞丨五部門(mén)：7月起全國(guó)禁售不符合國(guó)六排放標(biāo)準(zhǔn)6b階段的汽車(chē)；全國(guó)城鎮(zhèn)非私營(yíng)單位平均工資超10萬(wàn)元大關(guān)
今日頭條工信部等五部門(mén)：自7月1日起，全國(guó)范圍全面實(shí)施國(guó)六排放標(biāo)準(zhǔn)6b階段，禁止生產(chǎn)、進(jìn)口、銷(xiāo)售不符合國(guó)
全球消息！2022年平均工資出爐！
5月9日，國(guó)家統(tǒng)計(jì)局發(fā)布2022年全國(guó)城鎮(zhèn)單位就業(yè)人員平均工資數(shù)據(jù)。2022年全國(guó)城鎮(zhèn)非私營(yíng)單位就業(yè)人員年平均
環(huán)球頭條：一騎紅塵妃子笑無(wú)人知是荔枝來(lái)全詩(shī)拼音_一騎紅塵妃子笑無(wú)人知是荔枝來(lái)是什么意思
1、是杜牧的《過(guò)華清宮》長(zhǎng)安回望繡成堆，山頂千門(mén)次第開(kāi)。2、一騎紅塵妃子笑，無(wú)人知是荔枝來(lái)。3、譯文：
春立醫(yī)療05月09日被滬股通減持5.36萬(wàn)股|天天觀天下
05月09日，春立醫(yī)療被滬股通減持5 36萬(wàn)股，最新持股量為64 21萬(wàn)股，占公司A股總股本的0 22%。
萬(wàn)祥科技05月09日獲深股通增持1.03萬(wàn)股
05月09日，萬(wàn)祥科技獲深股通增持1 03萬(wàn)股，最新持股量為25 39萬(wàn)股，占公司A股總股本的0 06%。
世界熱點(diǎn)！信安世紀(jì)05月09日被滬股通減持27.08萬(wàn)股
05月09日，信安世紀(jì)被滬股通減持27 08萬(wàn)股，已連續(xù)3日被滬股通減持，共計(jì)33 38萬(wàn)股
普樂(lè)師集團(tuán)控股公開(kāi)發(fā)售獲認(rèn)購(gòu)2.2倍每股發(fā)售價(jià)10.6港元_全球觀速訊
普樂(lè)師集團(tuán)控股(02486)公布，發(fā)售價(jià)為每股發(fā)售股份10 6港元，公司估計(jì)自全球發(fā)售收取的所得款項(xiàng)凈額將約為2
金州拉文是個(gè)是什么意思(金州拉文是庫(kù)里球迷為庫(kù)里起的綽號(hào))-關(guān)注
金州拉文是庫(kù)里球迷為庫(kù)里起的綽號(hào)。金州指的是庫(kù)里所效力的金州勇士隊(duì)，拉文指NBA的一位扣籃猛將，因?yàn)閹?kù)
廚師長(zhǎng)王剛的豬肉白菜燉粉條?
用料豬肉150克、紅薯粉1小把、白菜3片、蔥姜蒜適量、干辣椒、花椒、八角適量豬肉燉粉條的做法步驟步驟1五花
C視頻丨護(hù)送病危兒童，成都街頭上演7分鐘“生死時(shí)速”|要聞速遞
川觀新聞?dòng)浾呶榱σ曨l剪輯伍力近日，成都成華公安萬(wàn)年場(chǎng)派出所民警楊翱翔正駕駛警車(chē)，帶領(lǐng)輔警莫一凡執(zhí)行任
焦點(diǎn)熱文：哈蘭德父親被辱罵后向皇馬球迷投擲食物，隨后被帶離出伯納烏包廂
00:29直播吧5月10日訊歐冠半決賽首回合，皇馬1-1戰(zhàn)平曼城。賽后，據(jù)twitch的節(jié)目@inakiangulo報(bào)
2023年1-4月長(zhǎng)沙房地產(chǎn)企業(yè)銷(xiāo)售業(yè)績(jī)TOP20|世界速遞
2023年1-4月長(zhǎng)沙房地產(chǎn)企業(yè)銷(xiāo)售業(yè)績(jī)TOP20,長(zhǎng)沙市,商品住宅,中海地產(chǎn),房地產(chǎn)企業(yè)
上海咖啡文化周5月20日開(kāi)幕
昨天，2023上?？Х任幕苄侣劙l(fā)布會(huì)在G60科創(chuàng)云廊舉行。第三屆上?？Х任幕芤?ldquo;活力上海夢(mèng)想齊啡”為主
【熱聞】長(zhǎng)青科技今日新股申購(gòu)
股票名稱(chēng)：長(zhǎng)青科技，申購(gòu)代碼：001324，申購(gòu)價(jià)格：18 88元，中簽繳款日期：2023-05-12
環(huán)球今頭條！美國(guó)眾議長(zhǎng)麥卡錫：與拜登會(huì)見(jiàn)未達(dá)成有益意見(jiàn) 不會(huì)短期延長(zhǎng)債務(wù)上限
當(dāng)?shù)貢r(shí)間5月9日，美國(guó)眾議院議長(zhǎng)凱文& 183;麥卡錫在白宮就債務(wù)上限問(wèn)題與總統(tǒng)拜登舉行會(huì)議后表示，這次會(huì)見(jiàn)
?風(fēng)光新能源裝機(jī)占比接近50% 國(guó)網(wǎng)河北省電力公司發(fā)布2022年社會(huì)責(zé)任報(bào)告
5月9日，國(guó)網(wǎng)河北省電力公司在石家莊發(fā)布2022年社會(huì)責(zé)任報(bào)告。
唐山社保查詢(xún)指南河北唐山社保查詢(xún)?nèi)肟趞觀熱點(diǎn)
唐山社保有四種查詢(xún)方式，分別是網(wǎng)上查詢(xún)、電話查詢(xún)、網(wǎng)點(diǎn)查詢(xún)、APP查詢(xún)。下載官方指定APP可以24小時(shí)隨時(shí)隨
實(shí)用的生日禮物送女生_實(shí)用的生日禮物女生-世界新動(dòng)態(tài)
送女生實(shí)用型的生日禮物，最好是女生喜歡的，有創(chuàng)意的，像男士一生僅能定制一枚的dr鉆戒，這是女生一生只
沙特決定恢復(fù)其駐敘利亞使團(tuán)工作天天時(shí)訊
聲明中表示，從加強(qiáng)沙特與敘利亞兩個(gè)“兄弟?chē)?guó)家”人民的關(guān)系、增進(jìn)阿拉伯世界統(tǒng)一行動(dòng)力、為地區(qū)和平和穩(wěn)定
2022 年一級(jí)消防工程師《消防安全技術(shù)綜合能力》考前模擬卷（一）-單項(xiàng)選擇題62
2022年一級(jí)消防工程師《消防安全技術(shù)綜合能力》考前模擬卷（一）-單項(xiàng)選擇題62 網(wǎng)上課程學(xué)習(xí)請(qǐng)電話咨詢(xún)：40
一切盡在不言中！德布勞內(nèi)社媒曬出動(dòng)情慶祝照
一切盡在不言中！德布勞內(nèi)社媒曬出動(dòng)情慶祝照,曼城,社媒,英國(guó)足球,皇家馬德里,英格蘭足球,足球運(yùn)動(dòng)員,俄羅
當(dāng)前要聞：美國(guó)歷史學(xué)家：中國(guó)將成為歐亞大陸和平締造者
美國(guó)截?fù)艟W(wǎng)站5月3日發(fā)表題為《中國(guó)會(huì)成為和平締造者嗎？》的專(zhuān)訪報(bào)道。截?fù)艟W(wǎng)站記者杰里米斯卡希爾和穆?tīng)査?
外交部發(fā)言人：奉勸加拿大方面立即停止無(wú)理挑釁|世界簡(jiǎn)訊
針對(duì)加拿大政府宣布中國(guó)駐多倫多總領(lǐng)館一名外交官為不受歡迎的人一事，外交部發(fā)言人汪文斌9日說(shuō)，中方對(duì)此
中國(guó)星辰丨天舟六號(hào)完成發(fā)射前全區(qū)合練各系統(tǒng)準(zhǔn)備就緒
點(diǎn)擊圖片觀看視頻今天（5月9日），天舟六號(hào)發(fā)射任務(wù)組織全區(qū)合練。目前，發(fā)射任務(wù)各系統(tǒng)已經(jīng)完成了相關(guān)功能
中國(guó)星辰丨把夢(mèng)想送上月球-全球熱訊
點(diǎn)擊圖片觀看視頻在中國(guó)航天取得一系列成就的背后，有這樣一組數(shù)據(jù)：嫦娥團(tuán)隊(duì)平均年齡33歲，天問(wèn)一號(hào)團(tuán)隊(duì)平
重磅微視頻：中國(guó)星辰|天舟載夢(mèng)
天高地迥宇宙無(wú)窮百戰(zhàn)百勝糧草先行飛天快遞使命必達(dá)天舟載夢(mèng)叩問(wèn)蒼穹置身星海浩氣英風(fēng)行穩(wěn)致遠(yuǎn)奔向新征程宇
去年城鎮(zhèn)單位就業(yè)人員工資水平保持增長(zhǎng)
記者9日從國(guó)家統(tǒng)計(jì)局獲悉，據(jù)國(guó)家統(tǒng)計(jì)局對(duì)138 1萬(wàn)家規(guī)模以上企業(yè)的聯(lián)網(wǎng)直報(bào)統(tǒng)計(jì)和72 1萬(wàn)家規(guī)模以下樣本單位

兔费看少妇性l交大片免费,久久精品亚洲综合专区 ,好男人在线社区www在线影院视频,一二三四视频在线观看中文版免费

環(huán)球熱文：如何打開(kāi)AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南

為您推薦