(資料圖片)
近日,中國海洋大學信息科學與工程學部電子工程學院李光亮課題組在人工智能、機器人領域的論文“TransferringPolicyofDeepReinforcementLearningfromSimulationtoRealityforRobotics”被國際頂級學術(shù)期刊Nature子刊《NatureMachineIntelligence》錄用發(fā)表?!禢atureMachineIntelligence》關(guān)注人工智能、機器學習和機器人領域具有重要影響的科研成果,評審標準嚴格,每年發(fā)表長論文約100篇。
智能性與自主性是當今世界機器人研究的科技前沿、熱點和難點問題。作為新興的人工智能方法,深度強化學習模仿人類試錯學習機制,允許智能體通過與外部環(huán)境交互及試錯的經(jīng)歷進行自主學習以優(yōu)化控制策略,進而提高機器人的智能性和自主性。近年來,深度強化學習在許多領域取得了巨大成功,在機器人自主控制領域也顯示出巨大潛力。盡管如此,一方面,深度強化學習等人工智能技術(shù)可能給機器人帶來風險、失控甚至危害;另一方面,機器人的學習效率和安全性問題成為深度強化學習應用于實體機器人控制的瓶頸。針對以上問題,課題組創(chuàng)新性地提出讓人參與到機器人的自主學習過程中,以提高機器人的學習效率和控制系統(tǒng)置信度,并分別在社交服務機器人Haru(由課題組與日本本田技術(shù)研究所、麻省理工學院以及帝國理工學院等研究人員成立的社交智能機器人聯(lián)盟SociallyIntelligentRoboticsConsortium聯(lián)合研發(fā))、單自主式水下航行器(AUV)和多AUV編隊控制成功應用。相關(guān)研究成果被國際機器人與智能體頂級學術(shù)會議ICRA(2021)、IROS(2022,2021)、AAMAS(2021)和國際海洋工程頂尖學術(shù)期刊《OceanEngineering》(2022a,2022b,2021)、國際智能體與多智能體頂尖期刊《JournalofAAMAS》(2020)錄用發(fā)表。其中,ICRA、IROS是全球規(guī)模最大、最具影響力的機器人頂級會議,《OceanEngineering》是海洋工程領域頂級學術(shù)期刊。
引入人的監(jiān)督和反饋雖然可以大幅度提高機器人的學習效率,但由于動作執(zhí)行時間較長導致實體機器人學習控制策略仍需要較長的時間并可能引發(fā)安全性問題。受動物和人類大腦遷移學習機制的啟發(fā),課題組深入研究從仿真到現(xiàn)實遷移強化學習方法,提出通過充分利用仿真數(shù)據(jù)進一步提高機器人學習效率和降低實體機器人執(zhí)行控制策略時的危險性。課題組在《NatureMachineIntelligence》刊發(fā)的論文對從仿真到現(xiàn)實遷移強化學習方法的最新進展以及常用方法原理、應用背景和發(fā)展現(xiàn)狀進行深入對比分析,并提出將系統(tǒng)識別、逆強化學習、交互強化學習、魯棒強化學習、離線和離線到在線強化學習等方法的思想應用于從仿真到現(xiàn)實遷移強化學習領域,以研究更高效的遷移強化學習方法,對加快深度強化學習在智能機器人控制領域落地具有重要的現(xiàn)實意義。例如,為了解決虛擬環(huán)境和現(xiàn)實環(huán)境觀測狀態(tài)或動態(tài)模型不匹配的問題,域隨機化通過在視覺圖像和動態(tài)參數(shù)中隨機添加偏差和噪聲為機器人控制策略訓練提供豐富經(jīng)驗,以實現(xiàn)虛擬策略到現(xiàn)實環(huán)境的一次性遷移(圖1)。
圖1域隨機化的原理和應用
李光亮副教授為論文唯一通訊作者,碩士研究生巨浩和雋榮順為共同第一作者,中國海洋大學為第一作者單位和通訊作者單位。李光亮課題組專注于深度強化學習及其在機器人應用領域的研究,近年來在人在回路強化學習、仿真到現(xiàn)實遷移強化學習、多智能體強化學習等領域取得了系列研究成果,對國內(nèi)外相關(guān)領域研究產(chǎn)生了重要影響。相關(guān)研究工作獲得國家自然科學基金、山東省自然科學基金與HondaResearchInstituteJapan資助。
通訊員:巨浩