創澤機器人
CHUANGZE ROBOT
當前位置:首頁 > 新聞資訊 > 機器人趨勢 > 手勢識別:AI 交互的正確打開方式

手勢識別:AI 交互的正確打開方式

來源:--     編輯:創澤   時間:2020/4/25   主題:其他 [加盟]

一、概述

“手勢是人類溝通的最自然的方式。硬件限製是我們不能很好地控製我們的設備的唯一限製”,這裏的硬件限製指的是傳統的手勢識別算法需要額外的深度傳感器。感謝近十多年不斷發展的可適應 AI 和邊緣計算崛起,使得這一切逐漸變為可能。

我們或將在智能手機、平板電腦、台式電腦、筆記本電腦、智能手表和智能電視,IOT 設備中看到更多結合空中手勢來操作的未來功能。
今年我們已經看到有這樣的趨勢,科技巨頭都紛紛推出了自己的手勢識別能力:穀歌在自己的手機和智能音箱上提供了手勢交互的能力,華為在旗艦手機 Mate30 上推出了自己的手勢操控等等,蘋果也剛剛提交了手勢在智能音箱上應用的相關專利,實際上,手勢作為人機交互最自然的方式場景簡直是不言自明,想像一下這些場景:
  • 在看電視的時候想要換台,想要調整音量,找不到遙控器的時候,直接使用手勢來操作,免去找不到遙控器的抓狂煩惱。

  • 在駕駛汽車,如果你聽到了一首很難聽的歌,希望趕快切掉,如果需要與觸摸屏顯示器進行交互,駕駛員必須將視線從道路上移開,這樣有潛在的危險,使用手勢識別使得駕駛更安全。

  • 在使用 iPad 看劇時,這個時候老板/老婆電話突然進來了,我們對著 iPad 使用靜音手勢操控設備靜音,科技以人為本。

  • 在智能家居場景,使用手勢操作你的電燈,空調,甚至抽油煙機都是可以想象的場景

總結來說:“You are the only interface you need”。


二、我們現在的業務場景

我們所屬天貓精靈 M 實驗室,主要負責跟天貓精靈相關的視覺算法,我們的主要研究方向人機交互視覺算法,包括手勢識別,肢體識別,還有多模態視覺語音交互等。

去年,我們推出了基於天貓精靈智能音箱的超輕量手勢識別算法,今年我們更進一步,在技術,業務,算法上進行了更為深入的探索:
  • 在天貓精靈大屏產品 CC, CCH, CCL 等上線了手勢操控能力。

  • 我們同優酷iPad客戶端的小夥伴一起,在優酷 iPad 版也成功應用了我們的手勢識別能力。

  • 我們在教育領域,我們嚐試了使用手指作為輸入,實現了手指點讀的相關能力,讓小朋友“哪裏不會點哪裏”。

  • 目前我們在跟電視廠商等 IOT 生態廠商合作,實現大屏手勢交互第一步,未來丟掉遙控器將不是夢。


三、無處不在的單點(靜態)手勢

3.1 從天貓精靈到優酷 iPad 手勢識別
去年,我們推出了基於天貓精靈智能音箱的超輕量手勢識別算法,今年我們與優酷的小夥伴合作,把單點手勢能力進一步移植到了優酷 iPad 場景中。
3.1.1  單點手勢應用:優酷吃飯看劇神器
來自用戶的聲音:吃飯看劇神器
這是在優酷上線後用戶自發介紹的使用視頻,也非常符合我們的場景預期和用戶痛點:
  • 在看劇的時候,經常有需要跳過某一小段,快進或者快退的時刻,解決不便直接操作的時刻(例如吃飯,手裏不方便等場景)。

  • 在 iPad 場景:1)受設備體積和重量影響,很少手持設備;2)屏幕較大,用戶距離設備通常有一定距離,手勢識別帶來了更為極致的體驗提升。


3.2  走的更遠:大屏遠距手勢交互
3.2.1  大屏交互場景
近年來,智能電視(智屏)正越來越多的進入千家萬戶。據工信部預測,到 2020 年,智能電視市場滲透率有望達到 90% 以上。除了數量優勢,強大的交互能力是智慧家庭入口的必備特質。作為智慧家庭 IoT 的另一個重要入口,智能電視的大屏幕更易實現交互。
3.2.2  挑戰
要走的更遠,也常常伴隨更大的挑戰。和天貓精靈 CC 或 iPad 這種近身設備相比,在智能電視場景進行手勢算法研發麵臨主要麵臨的挑戰有:
  • 更遠的距離。智能電視有一塊大屏幕,往往 3-5 米是一個對人較為舒適和健康的觀看距離。在這樣一個距離下,人手在畫麵占比非常小。

  • 更多的人數。可能有多人同時在看電視,因此我們要能及時甄別和響應每一位觀眾的交互需求。

  • 更複雜的背景。不同家庭不同電視的擺放位置千變萬化,我們的算法要在變化中找不變(手勢識別)

  • 有限的算力。雖然智能電視越來越普及,但是它們配置的硬件性能依然非常有限。


3.2.3  大屏方案
針對以上挑戰,經過我們算法研發探索,提出語義注意力機製導引的快速人手檢測和分類方法(Contextual-attention-guided fast tiny hand detection and classification)。
大屏解決方案: Contextual-attention-guided fast tiny hand detection and classification
1)Lightweight hourglass-like backbone
輕量級類 hourglass 模塊對輸入進行下采樣,在獲取具有高層語義信息的特征圖的同時,盡量保留細節性特征,有利於對 tiny hand 的檢測。
2)Contextual attention
3-5 米場景下,人手在整個輸入圖像中占的像素比非常小。手雖然很小,但是手一般長“人”身上,而且距離人體特定的部位(如手腕、胳膊、人臉)較近,同時與這些部位可能會有相近的顏色。這些人體或人體部位往往較手要更大,為我們 tiny hand 的檢測提供了額外的 clues,利用這些 clues,可以更好的對 tiny hand 進行檢測。基於此,我們利用 Similarity Context 和 Semantics Context 來作為 Contextual attention ,從而指導網絡獲取手區域以外的語義信息,增強檢測能力。


四、落地與優化閉環

相信任何一個做過 AI 算法落地的同學,都會遇到各種各樣的實際算法問題,不管是科大訊飛的語音交互,到現在無處不在的人臉識別,甚至穀歌的搜索詞排名算法,基於深度學習的AI算法的非常重要的一個特點就是越用越好,並漸漸形成數據相關壁壘。
我們在手勢先後在天貓精靈和優酷上線後,我們同樣也經曆了這樣的一個過程,為了讓我們的算法“越用越好”:
  • 提出了新的檢測算法,應用了前沿的 Overflow-aware 量化方案,極致算法體驗。

  • 我們接入了 AutoML 助力 AI 應用快速落地,以動態閉環的形式優化我們的算法。


4.1  更快更強的端上檢測算法 + overflow-aware 量化應用
4.1.1  更強的端上檢測算法
基於 anchor-free 方案,更高效的算法框架,使用 heatmap 輔助 anchor 方案
基於天貓精靈音箱,IOT 視覺模組等不同設備算力的硬件條件,對端上的手勢識別提出了更加高的要求,我們進一步提升手勢識別算法能力框架:基於流行的 anchor-free centernet 算法,提出了 centernet-lite 的端上檢測算法,不過在實際算法的落地的過程中,我們發現目前流行的 anchor-free 方案在小網絡有一些天然劣勢:
  • 由於其天然基於 heatmap,最終精度與 heatmap 有很大關係,這對小型化不利。

  • 同時,由於 heatmap 的原因,這種方案無法很好的解決同一類物體重疊的情況。


4.1.2  應用 Overflow-aware 低比特量化算法
端上量化
加速目前業界流行的方案為穀歌 8bit 量化算法,事實上,有更優秀的低比特量化算法:通過學習的方法,學習每一層的 min/max 範圍,動態的調整每一層的量化方案,目前在推理引擎端加速比為 70%。
最終我們采用使用 heatmap 方案來輔助 anchor 檢測方案且融合 Overflow,這取得了比較好的精度和效果的平衡,在天貓精靈硬件上。

4.2  優化閉環:AUTOAI 的手勢線上識別優化框架 (讓算法越用越好)
我們利用在 deep learning 中有類似模型蒸餾的思想,通過采用預先訓練好的複雜模型(Teacher model)的輸出作為監督信號去訓練線上網絡(student model)。我們可以在不直接接觸業務數據的情況下,不斷進行算法的優化。
使用圍欄的優化結果:

五、產品級的序列(動態)手勢
5.1  為什麼要做動態手勢識別
我們在單點手勢已經做了非常多的嚐試和應用落地,但是動態手勢作為一種更自然更“爽”的交互方式,是我們一直在不斷鑽研的實際方向。
從產品的思路上來說,動態手勢提供了更多的交互感和參與感,其應用的場景可能也是不一樣的,比如單點手勢可能應用與 IOT 設備等操控類型的算法場景,動態手勢其獨特的參與感讓其更適用於教育,娛樂,線下運營等實際場景,這也是我們不斷突破這個場景的原因。
5.2  基於 skeleton 的動態手勢識別算法
去年,我們實現了基於 skeleton-based 的動態手勢識別算法(相關工作已經投稿ISMAR2019,並成功發表,鏈接:https://ieeexplore.ieee.org/document/8951971):
但是在實際的產品化過程中,我們發現對於通用的動態手勢識別,純粹的 skeleton-based 方案可能並不實用,主要原因有:
  • 算力:完成 skeleton-based 的一係列操作:手勢檢測+指尖回歸+時序網絡等需要較高算力,在天貓精靈等 IOT 設備上無法達到產品級別的能力。

  • motion blur:由於手勢運動較快的原因,大部分動態手勢都有運動模糊的情況,對檢測+關鍵點這類算法非常不友好。


因此,我們把目光投到了以動作識別為基礎、指尖回歸為輔助的時序推理方案。
5.3  基於視頻理解的動態手勢識別算法
時序推理
原理:圖像關係的時序推理(temporal reasoning)能力,要讓計算機認識這兩個行為,需要兩張及以上的幀圖像來相互輔助識別。一個行為需要被多個幀協作來解釋。這種方案很好的解決了 motion blur 的問題,且算力上更可控。
Our Temporal Generation Network_
為解決運動模糊等問題,采用基於 RGB 時序序列為主框架的視頻識別方案,提取連續采樣幀的特征,並使用改良的高效快速的非退化 3D 卷積網絡,對時序特征進行融合。
同時針對特定手勢的識別,提出一種基於手指關鍵點的輔助分支,使用 heatmap 分支對指尖關鍵點進行多任務學習並回歸,檢測出手指的運動軌跡,與 RGB 分支進行特征融合,輔助動態手勢識別。算法整體結合了基於 RGB 和關鍵點方案的優勢,達到了速度與精度的平衡。

六、未來展望
我們已經在單點手勢識別,序列手勢識別在算法、業務都進行了較多的探索和嚐試,關於手勢識別的未來算法探索方向和業務發力點,我們也有一些自己的展望:
6.1  3D 手勢崛起
3D 人手姿勢估計是指基於輸入的 RGB 或 RGB-D 圖片進行人手建模並找到關鍵部件(如,骨節點)位置的過程。我們生活在三維世界,三維手勢交互必然帶來更自然更舒適的交互體驗。我們也在 3D 人手交互方麵正進行積極探索,未來在電商產品交互式展示、VR/AR、手語識別、在線教育等方麵,我們會推出更多的交互性更強的產品,提供更人性化的交互體驗和服務。
Oculus Quest 在今年推出的 3D 手勢操控
6.2  手勢在 IOT 場景的應用
手勢控製能否超越語音控製成為智能家居設備最自然不過的設備呢?在 IOT 場景,如果可以使用手勢控製電視,燈泡,空調等等。目前已經有一些 startup 開始了在這方麵的探索。
比如 Bixi,Bixi 是一款手勢小遙控器,感應你的空中手勢,可以指揮你最喜歡的智能手機應用程序、LifX 或者 Hue 燈泡、互聯網揚聲器、GoPro 和許多其他 IoT 設備。
再比如如下圖的 Bearbot 萬用遙控器,除了萌係的外觀以外,還可以支持自定義手勢控製全屋家電,讓你從此擺脫一堆遙控器的束縛。
Bearbot 手勢遙控器,圖片來源:https://www.indiegogo.com/projects/bearbot#/
6.3  手勢在教育場景的更多應用
除了手指點讀,手勢在教育行業其實應該有更多的應用,比如現在大火的在線教育,手勢可以增加虛擬課堂的互動感和,同時對於小朋友來說,手勢/視覺提供的有趣新奇的操控體驗也是對幼兒提高課堂注意力非常重要的一環,例如,引導舉手回答問題。再比如,我們需要做一些課堂小練習,普通的模式太枯燥,使用動態手勢識別“畫對勾”,“畫叉叉”讓小朋友以互動遊戲的方式完成這些練習。



創澤智能機器人
創澤智能機器人
中國智能服務機器人領軍企業,涵蓋商用、家庭、特種等多用途的智能機器人產品體係,十幾年行業應用解決方案提供商

人手抓取行為與多指靈巧手精細化抓取的分析

對抓取手勢的研究,不僅幫助人們更好地理解人類操作行為,也可促進精細化抓取規劃技術的發展

餐飲服務業人力成本承壓,催生千億級餐飲機器人市場需求

餐飲機器人落地可行必備的技術條件:效率可行性,成本可行性,穩定性。隨著SLAM算法、調度算法等技術的成熟,機器⼈定位 的準確度、避障的成功率有了⼤幅提升

第四次工業革命的十大技術趨勢

智能和自主行動的能力定義了機器人,協作機器人能夠提高人類的工作效率,並能安全、輕鬆地與人類員工進行互動。

第四次工業革命的十大技術趨勢之5G網絡

G是蜂窩網絡技術的第五代,與其他網絡創新一起,將為我們提供更快,更穩定的無線網絡,以及連接越來越多設備並支持更豐富,更多樣化的功能、數據流

從兩會提案看清機器人行業五大趨勢

在新冠疫情背景下,隨著新基建持續火熱,機器人行業的發展也被按下了快進鍵,服務機器人價值凸顯,讓更多人看到了服務機器人在更多場景中的應用可能

新基建下的移動機器人新機遇

在新基建的七大細分領域之中,和移動機器人相關的其實非常多,特別是工業互聯網領域的基礎建設,會帶動製造業的快速升級。AGV很有可能成為打通智能工廠建設中物質流和信息流連接的重要一環

投資超400億元!貴安新區將成世界最大的數據中心聚集區

貴州貴安新區力爭到2025年建成12個超大型數據中心,承載服務器數達400萬台,數據中心固定資產投資超400億元

教育機器人的發展現狀及商業模式

教育機器人的市場可分為TOB和TOC,主要客戶為學校和培訓機構和針對家庭場景陪伴和方便孩子學習

工業機器人:行業未來發展驅動力

報告描述了工業機器人的特征和產業發展現狀,並基於對原始設備製造商和其他企業的采訪,分析了驅動全球工業機器人未來發展的動力,指出了釋放工業機器人市場全部增長潛能的關鍵途徑

NB-IoT芯片發展現狀及未來發展前景

隨著一係列扶持政策的頒布,以NB-IoT為代表的物聯網產業進入提速發展階段,前有三大運營商領頭,後有新基建助力,NB-IoT芯片潮來了

7月1日起,3 項有關機器人技術的國家推薦標準正式實施

《GB/T 38260-2019 服務機器人功能安全評估》《GB/T 38326-2019 工業、科學和醫療機器人 電磁兼容 抗擾度試驗》《GB/T 38336-2019 工業、科學和醫療機器人 電磁兼容 發射測試方法和限值》

機器人微型化趨勢凸顯,小身材也能有大用處

機器人的發展趨勢包括智能化、複合化、集成化、多樣化,小型化也是一大重要的趨勢,最小機器人之一是HAMR-JR
資料獲取
機器人趨勢
== 最新資訊 ==
國標《智慧城市 智慧多功能杆 服務功能與
人工智能之數據挖掘2020年第9期
噴霧消毒殺菌機器人
中國通信學會發布《全球人工智能基礎設施戰
創澤集團受邀參加工信部 AI 精準賦能中
人工智能案例 依圖科技:不斷崛起的AI
2020年麵向人工智能新基建的知識圖譜行
破解AI工程化難題,AI中台助力企業智能
淺析我國消防機器人發展現狀與趨勢 | 山
【華為出品】智能體白皮書2020
“先行示範•智贏未來” 創澤
創澤集團牽頭起草的全國首個《應用於滅菌消
創澤集團智能機器人新品發布會!多款自主研
AIIA2020人工智能開發者大會開幕
人工智能人才發展報告:亞太地區創新與招聘
== 機器人推薦 ==
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

安防巡檢機器人

安防巡檢機器人

人工智能垃圾站

人工智能垃圾站


機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 機器人政策 教育機器人 迎賓機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
版權所有 必威主頁 中國運營中心:北京 清華科技園九號樓5層 中國生產中心:山東日照太原路71號
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728

Baidu
map