當前位置：首頁 > 新聞資訊 > 機器人開發 > 一種基於層次強化學習的機械手魯棒操作

一種基於層次強化學習的機械手魯棒操作

來源：CAAI認知係統與信息處理專委會編輯：創澤時間：2020/6/24 主題：其他 [加盟]

1. 研究背景

機械手內操作（in-hand manipulation）是指使用單隻機械手，通過移動手指、手掌等部位來改變物體在手中的相對位置和姿態。這種能力對於機器人實現人類水平的靈巧操作極為重要，因為在日常生活中有很多類似的任務，例如抓取一件工具並調整它在手中的位置和旋轉角度。我們注意到，在實現複雜的操作目標時，人在操作物體時常常改變抓取物體的手指接觸點位置，從而極大的提高物體在手中的位姿範圍。

傳統上，手內操作有兩類解決方案，一類是基於模型的方法（model-based method），通過對抓取的動力學建模，來控製手指移動帶動物體姿態。這種辦法好處在於穩定性強，模型簡單，但問題在於難以實現較長和複雜的手內操作流程，特別是目標位姿和起始位姿相距很遠的情況，因為它們很難規劃手指接觸點的移動；另一類方法是無模型方法（model-free method），通常使用深度強化學習的方法。這類方法優點在於不需要係統模型，但缺點在於穩定性差，並且需要大量數據進行訓練。而我們的方法結合了這兩種方法：在底層使用傳統的動力學建模方式保持穩定的抓取和實現簡單基本的操作單元，在中層通過深度強化學習來進行規劃，選擇不同的操作單元，最終實現穩定且複雜的操作流程。我們的方法結合了兩種方法的優點：在底層通過使用基於模型的操作單元，保證了手指與物體之間持續穩定的抓取；在中層使用強化學習進行規劃，從而實現較長和複雜的手內操作流程。

2. 研究方法

在底層，我們使用柔性力矩控製器定義了三個操作單元，分別是reposing，sliding和flipping。Reposing是指在不改變手指與物體接觸點的前提下，通過控製機械手改變物體的位姿；sliding是指在不改變物體位姿的前提下，沿著物體滑動指尖改變接觸點；flipping是指將指頭從一側移動到另一側，從而改變抓握方式。在中層，我們使用深度強化學習網絡學習在給定目標位姿下選擇底層操作單元，最終形成一條由大量不同操作單元組成的序列，實現複雜的操作目標。

	創澤智能機器人中國智能服務機器人領軍企業，涵蓋商用、家庭、特種等多用途的智能機器人產品體係，十幾年行業應用解決方案提供商