(資料圖片)
近日,中國海洋大學(xué)信息科學(xué)與工程學(xué)部電子工程學(xué)院李光亮課題組在人工智能、機(jī)器人領(lǐng)域的論文“TransferringPolicyofDeepReinforcementLearningfromSimulationtoRealityforRobotics”被國際頂級(jí)學(xué)術(shù)期刊Nature子刊《NatureMachineIntelligence》錄用發(fā)表。《NatureMachineIntelligence》關(guān)注人工智能、機(jī)器學(xué)習(xí)和機(jī)器人領(lǐng)域具有重要影響的科研成果,評(píng)審標(biāo)準(zhǔn)嚴(yán)格,每年發(fā)表長論文約100篇。
智能性與自主性是當(dāng)今世界機(jī)器人研究的科技前沿、熱點(diǎn)和難點(diǎn)問題。作為新興的人工智能方法,深度強(qiáng)化學(xué)習(xí)模仿人類試錯(cuò)學(xué)習(xí)機(jī)制,允許智能體通過與外部環(huán)境交互及試錯(cuò)的經(jīng)歷進(jìn)行自主學(xué)習(xí)以優(yōu)化控制策略,進(jìn)而提高機(jī)器人的智能性和自主性。近年來,深度強(qiáng)化學(xué)習(xí)在許多領(lǐng)域取得了巨大成功,在機(jī)器人自主控制領(lǐng)域也顯示出巨大潛力。盡管如此,一方面,深度強(qiáng)化學(xué)習(xí)等人工智能技術(shù)可能給機(jī)器人帶來風(fēng)險(xiǎn)、失控甚至危害;另一方面,機(jī)器人的學(xué)習(xí)效率和安全性問題成為深度強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)體機(jī)器人控制的瓶頸。針對(duì)以上問題,課題組創(chuàng)新性地提出讓人參與到機(jī)器人的自主學(xué)習(xí)過程中,以提高機(jī)器人的學(xué)習(xí)效率和控制系統(tǒng)置信度,并分別在社交服務(wù)機(jī)器人Haru(由課題組與日本本田技術(shù)研究所、麻省理工學(xué)院以及帝國理工學(xué)院等研究人員成立的社交智能機(jī)器人聯(lián)盟SociallyIntelligentRoboticsConsortium聯(lián)合研發(fā))、單自主式水下航行器(AUV)和多AUV編隊(duì)控制成功應(yīng)用。相關(guān)研究成果被國際機(jī)器人與智能體頂級(jí)學(xué)術(shù)會(huì)議ICRA(2021)、IROS(2022,2021)、AAMAS(2021)和國際海洋工程頂尖學(xué)術(shù)期刊《OceanEngineering》(2022a,2022b,2021)、國際智能體與多智能體頂尖期刊《JournalofAAMAS》(2020)錄用發(fā)表。其中,ICRA、IROS是全球規(guī)模最大、最具影響力的機(jī)器人頂級(jí)會(huì)議,《OceanEngineering》是海洋工程領(lǐng)域頂級(jí)學(xué)術(shù)期刊。
引入人的監(jiān)督和反饋雖然可以大幅度提高機(jī)器人的學(xué)習(xí)效率,但由于動(dòng)作執(zhí)行時(shí)間較長導(dǎo)致實(shí)體機(jī)器人學(xué)習(xí)控制策略仍需要較長的時(shí)間并可能引發(fā)安全性問題。受動(dòng)物和人類大腦遷移學(xué)習(xí)機(jī)制的啟發(fā),課題組深入研究從仿真到現(xiàn)實(shí)遷移強(qiáng)化學(xué)習(xí)方法,提出通過充分利用仿真數(shù)據(jù)進(jìn)一步提高機(jī)器人學(xué)習(xí)效率和降低實(shí)體機(jī)器人執(zhí)行控制策略時(shí)的危險(xiǎn)性。課題組在《NatureMachineIntelligence》刊發(fā)的論文對(duì)從仿真到現(xiàn)實(shí)遷移強(qiáng)化學(xué)習(xí)方法的最新進(jìn)展以及常用方法原理、應(yīng)用背景和發(fā)展現(xiàn)狀進(jìn)行深入對(duì)比分析,并提出將系統(tǒng)識(shí)別、逆強(qiáng)化學(xué)習(xí)、交互強(qiáng)化學(xué)習(xí)、魯棒強(qiáng)化學(xué)習(xí)、離線和離線到在線強(qiáng)化學(xué)習(xí)等方法的思想應(yīng)用于從仿真到現(xiàn)實(shí)遷移強(qiáng)化學(xué)習(xí)領(lǐng)域,以研究更高效的遷移強(qiáng)化學(xué)習(xí)方法,對(duì)加快深度強(qiáng)化學(xué)習(xí)在智能機(jī)器人控制領(lǐng)域落地具有重要的現(xiàn)實(shí)意義。例如,為了解決虛擬環(huán)境和現(xiàn)實(shí)環(huán)境觀測(cè)狀態(tài)或動(dòng)態(tài)模型不匹配的問題,域隨機(jī)化通過在視覺圖像和動(dòng)態(tài)參數(shù)中隨機(jī)添加偏差和噪聲為機(jī)器人控制策略訓(xùn)練提供豐富經(jīng)驗(yàn),以實(shí)現(xiàn)虛擬策略到現(xiàn)實(shí)環(huán)境的一次性遷移(圖1)。
圖1域隨機(jī)化的原理和應(yīng)用
李光亮副教授為論文唯一通訊作者,碩士研究生巨浩和雋榮順為共同第一作者,中國海洋大學(xué)為第一作者單位和通訊作者單位。李光亮課題組專注于深度強(qiáng)化學(xué)習(xí)及其在機(jī)器人應(yīng)用領(lǐng)域的研究,近年來在人在回路強(qiáng)化學(xué)習(xí)、仿真到現(xiàn)實(shí)遷移強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)等領(lǐng)域取得了系列研究成果,對(duì)國內(nèi)外相關(guān)領(lǐng)域研究產(chǎn)生了重要影響。相關(guān)研究工作獲得國家自然科學(xué)基金、山東省自然科學(xué)基金與HondaResearchInstituteJapan資助。
通訊員:巨浩