距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 的各種技術(shù)挑戰(zhàn)賽也接近尾聲。在上周結(jié)束的 2018 人工智能假肢挑戰(zhàn)賽(AI
for Prosthetics
Challenge)https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge中,來自中國百度的技術(shù)團隊一舉擊敗全球的
400 多個參賽團隊,以 9980 分的成績奪得冠軍,領(lǐng)先第二名高達 30 多分。

人工智能假肢挑戰(zhàn)賽是由斯坦福大學(xué)神經(jīng)生物實驗室與EPFL
聯(lián)合舉辦的強化學(xué)習(xí)賽事,旨在通過將強化學(xué)習(xí)應(yīng)用到人體腿部骨骼仿真模擬模型的訓(xùn)練,從而加快人體假肢領(lǐng)域的相關(guān)研究,并開創(chuàng)該領(lǐng)域的研究的新方法。
自今年 7 月份啟動以來,來自全球 400 多技術(shù)團隊都參與其中。其中既有上屆冠軍、由 “RNN之父”Juergen Schmidhuber 創(chuàng)立的
NNAISENSE,也有阿里巴巴、Yandex
等巨頭。百度今年首次參加強化學(xué)習(xí)領(lǐng)域比賽,就在強手如云的團隊里脫穎而出,一舉奪得冠軍,并領(lǐng)先第二名30多分。第二到五名分別被NNAISENSE,Yandex,阿里巴巴等獲得。顯而易見,百度在強化學(xué)習(xí)領(lǐng)域占據(jù)了明顯的優(yōu)勢,冠軍含金量頗高。
今年的比賽中,賽會組織者提供了一個人體骨骼-高仿模型,該模型是斯坦福國家醫(yī)學(xué)康復(fù)研究中心研發(fā)的 Opensim
高仿模型,擁有人類腿部絕大多數(shù)真實骨骼、關(guān)節(jié)和肌肉的精細(xì)仿真。參賽者需要根據(jù)該模型中多達 100
個以上的狀態(tài),來決定模型肌肉的信號,然后控制該模型的肌體行走。
在去年的第一次挑戰(zhàn)賽上,比賽規(guī)則圍繞誰能讓模型肌體行走速度最快。而今年除了將整個模型運動控制從2D改為3D外,還引入帶有假肢的模型,同時模型的假肢不可控制,模型肌體行走的速度也有要求,并且還需要在第二輪比賽中按照事先未知的指定速度進行切換。
相較而下,今年的比賽難度再次增加。比如對模型肌體有效信息的判斷上,由于實際狀態(tài)空間和動作空間稠密并且非常大,導(dǎo)致基于強化學(xué)習(xí)的算法無法準(zhǔn)確把握模型肌體的行走姿勢;更進一步,由于規(guī)則要求不斷切換速度,更增加了模型控制難度。
在此次比賽中,百度首先通過上千臺機器的 CPU 集群來加速模擬環(huán)境,利用 RPC
機制進行機器間通信,從而能在高性能GPU上進行高效的模型訓(xùn)練。其次,利用Target Driven Deep Deterministic Policy
Gradient (Target Driven
DDPG),使得模型能夠應(yīng)對較大空間和連續(xù)動作空間的挑戰(zhàn),最終也使得一個單一模型能夠?qū)W習(xí)多種速度和姿態(tài)。第三,在算法層面,通過 multi-head
bootstrapping,能夠更高效的對巨大的解空間進行探索(Exploration),同時還將旋轉(zhuǎn)不變性等各類特征處理方式,以及不斷實驗累計的各類
reward shaping 方法應(yīng)用其中。正是這些關(guān)鍵技術(shù)的綜合應(yīng)用,讓百度能以 9980 的高分一舉奪冠,有參賽者表示,這是一個他們難以相信的分?jǐn)?shù)。

事實上,早在本次比賽以前,百度已經(jīng)將強化學(xué)習(xí)技術(shù)應(yīng)用于信息流推薦、廣告展現(xiàn)、搜索排序等大規(guī)模工業(yè)級場景。而本次比賽中所展現(xiàn)出的技術(shù)實力,再次證明了百度在強化學(xué)習(xí)相關(guān)技術(shù)上的積累,也能夠進一步推廣到復(fù)雜機器人控制、自動駕駛等更多工業(yè)領(lǐng)域。
與此同時,百度會將這種能力通過 PaddlePaddle 開源平臺賦能更多開發(fā)者。基于 PaddlePaddle 的強化學(xué)習(xí)框架 PARL
將在今年四季度正式發(fā)布,屆時將為更多深度學(xué)習(xí)領(lǐng)域開發(fā)者提供強而有力的技術(shù)支撐,也進一步深化百度構(gòu)建AI完成生態(tài)的決心。