這是什么神仙工業(yè)機械手臂,玩轉(zhuǎn)魔方真帶勁,麻麻賴賴的盤它

  大家知道什么是OpenAI嘛?下面小編給大家解說以下吼!OpenAI是由伊隆·馬斯克(Elon Musk)興辦的非盈利性人工智能組織。為什么要提到這個組織呢?因為想給大家展現(xiàn)一個好玩的事物:讓機械手能夠像人手一樣精準地支配物體。固然這種仿真外型的手掌我們曾經(jīng)見過很多了,但讓“手指”可以和人類的真手一樣靈敏可動,對機械構(gòu)造來說可不是一件簡單的事。

  但你在下面的動圖中也能看到,這套名為 Dactyl 的械手系統(tǒng)可以依照指令請求,輕松完成轉(zhuǎn)動立方體的動作,而且這種復(fù)雜精妙的指尖操作,也顯然要比過去我們所看到的機器人行走騰躍復(fù)雜得多。

  Dactyl 自所以可以完成這么高效的運作,和 Open AI 運用的強化學(xué)習(xí)算法有關(guān)系。就像是剛出生的小孩一樣,AI 或是機器人剛造出來后同樣什么都不懂,假如你希望它可以完整了解某項復(fù)雜任務(wù)的流程,肯定需求停止重復(fù)的鍛煉。特別是關(guān)于真實存在的物理機器人來說,研討人員常常要消耗大量的理想時間對其停止指導(dǎo)練習(xí)。

  但 OpenAI 如今的做法,卻是讓機器人在虛擬環(huán)境中停止自我學(xué)習(xí)。他們還會在鍛煉的過程中增加大量的隨機事情,讓 AI 在這個過程中本人領(lǐng)悟出完成任務(wù)的竅門。


  以這次的機械手掌為例,首先,他們會教誨機械手臂依照指令,將六面立方體中的正確顏色翻轉(zhuǎn)出來;然后便開端改動四周環(huán)境的燈光,以及立方體的顏色、重量和紋理等;以至還會改動鍛煉過程中的重力環(huán)境要素。

  之所以會參加這些隨機化的變量,也是為了讓 AI 能更好的應(yīng)對各種不測狀況的發(fā)作:“比方說不同的重力環(huán)境下,Dactyl 本人就會去領(lǐng)悟這會對立方體操控形成哪些影響。不然在理想世界中,一旦我們改動手臂的高度,立方體可能就會從手中滑落?!?/p>

  這種虛擬環(huán)境的鍛煉形式還有一個益處,那就是不會消耗理想世界的時間。目前 Dactyl 曾經(jīng)積聚了大約 100 年的鍛煉經(jīng)歷,嘗試用無數(shù)種辦法來控制立方體的轉(zhuǎn)動,但實踐上這個過程只相當(dāng)于我們理想世界中的 50 個小時而已。

  在虛擬世界里完成鍛煉后,AI 積聚的經(jīng)歷就能夠直接在理想世界中展示出來了。往常 Dactyl 曾經(jīng)能夠連續(xù)完成 50 次的立方體旋轉(zhuǎn)操作,且不會出錯。

  值得一提的是,這種超高效的鍛煉形式不只能運用在物理機器人上,也同樣能夠用于其它的虛擬 AI 模型。在去年 7 月份,OpenAI 開發(fā)的 Open AI Five 也同樣在虛擬世界里閱歷了上萬個小時的學(xué)習(xí),實踐上只是破費了幾天的時間,然后它便在 Dota2 游戲中擊敗了職業(yè)選手 Dendi。

  固然只是一次 solo 對決而非 5v5,但照舊讓我們看到了人工智能在電競這種復(fù)雜范疇的有效性,包括我們所熟知的“圍棋殺手” AlphaGo,也是 DeepMind 公司運用深度強化學(xué)習(xí)鍛煉出來的 AI 模型。

  聽說強化學(xué)習(xí)的靈感最早來源于人類對自然界動物學(xué)習(xí)過程的長期察看,之所以近幾年內(nèi)才開端嘗試,也是受益于神經(jīng)網(wǎng)絡(luò)技術(shù)的進步,以及 OpenAI 自身的范圍優(yōu)勢。畢竟想要完成這種超高效的強化學(xué)習(xí)流程,自然也得付出不小的運算本錢。

  依照 OpenAI 給出的數(shù)據(jù),Dactyl 的鍛煉設(shè)備動用了約 6144 顆 CPU,以及 8 顆來自 Nvidia 的 V100 GPU,這種范圍的根底硬件只要很少數(shù)的研討機構(gòu)才干夠運用。

  不過也有機器人專家以為,OpenAI 這種工業(yè)機械手臂水平的實驗結(jié)果照舊很局限,能否真正處理理想世界的人類難題依然是一個未知數(shù)。