亚洲一区二区无码国产_日韩人妻精品系列_最新av中文字幕每天更新

編者按: 智顯未來，洞見新知。中科院之聲與中國科學院自動化研究所聯(lián)合開設“智言智語”科普專欄，為你介紹人工智能相關知識與故事，從最新成果到背后趣聞，帶你徜徉AI空間，看人工智能如何喚醒萬物，讓世界變得更美好。

隨著智能技術的發(fā)展，各式各樣的服務機器人已經(jīng)成為我們生活中的?？汀Ｄ敲?，你有沒有產(chǎn)生過這樣的疑問：機器人會認路嗎？它們是怎么探索新環(huán)境的呢？

（圖片來自網(wǎng)絡）

是像人類一樣用炯炯有神的大眼睛直接探路？

（圖片來自網(wǎng)絡）

或者借助某種神妙之力？

當然沒有這么簡單，請聽我們的詳細解答！

以目前已經(jīng)在我們的日常生活中廣泛使用的掃地機器人為例，作為非常需要具備“認路”能力的一類機器人，為了實現(xiàn)快速的環(huán)境清掃工作，它在到達新環(huán)境時的第一項工作便是——構建環(huán)境地圖。地圖對于移動機器人來說非常重要，一方面，機器人需要通過地圖估計當前時刻在環(huán)境中的位置；另一方面，地圖為機器人的路徑規(guī)劃系統(tǒng)提供了搜索空間，以實現(xiàn)機器人在環(huán)境中安全，快速地移動。

圖1 掃地機器人（圖片來自于網(wǎng)絡）

因此，快速地構建精確的環(huán)境地圖是服務機器人實現(xiàn)安全高效服務的前提。環(huán)境地圖很重要，但機器人又是如何順利構建地圖的呢？這里我們就不得不提到解決這類問題的核心方法——未知環(huán)境探索，它是指機器人在一個全新的環(huán)境中，通過自主移動構建整個環(huán)境地圖的過程。未知環(huán)境探索的關鍵在于機器人運動控制的計算，以保證機器人采取有效的動作構建精確的環(huán)境地圖。

除了室內(nèi)這種掃地機器人，未知環(huán)境探索方法也廣泛應用于室外環(huán)境下的移動機器人上。例如救援機器人，需要在一個新的環(huán)境中搜救幸存者，通過自主探索希望能夠快速地覆蓋整個環(huán)境區(qū)域。礦井勘探機器人以及海底探測機器人上也常常用到這類技術，其任務目的都是盡可能地覆蓋更多的區(qū)域，以完成特定的任務。

未知環(huán)境探索方法有著怎樣的發(fā)展歷史呢？

未知環(huán)境探索問題在上個世紀90年代提出，其目標是使機器人在全新的環(huán)境中具有自主決策能力。目前常用的未知環(huán)境探索決策方法有三大類：基于邊界的方法，基于信息的方法，以及基于深度神經(jīng)網(wǎng)絡的方法。

基于邊界的方法是最早的未知環(huán)境探索方法，它通過檢測地圖中的自由區(qū)域與未知區(qū)域之間的邊界，以引導機器人探索沒有去過的環(huán)境。在三維環(huán)境中，由于這種邊界很難在三維空間地圖上直接搜索，因此會常常與一些隨機搜索算法相結合，例如快速隨機搜索樹等。這種方法在室內(nèi)服務機器人，礦井搜索機器人中廣泛使用。

基于信息的方法則是將信息理論中熵的概念引入到未知環(huán)境探索問題中以構建優(yōu)化問題。在信息理論中，熵通常用于衡量一個分布的不確定程度。熵值越大，表示對狀態(tài)的不確定性越高。當機器人到達一個新的環(huán)境時，此時面臨地圖的熵值是最大的，而機器人需要通過移動，增加地圖上每個位置狀態(tài)的確定性，以減小地圖熵值。

隨著深度神經(jīng)網(wǎng)絡的發(fā)展，近幾年也衍生出了一些基于深度神經(jīng)網(wǎng)絡的未知環(huán)境探索方法。例如采用深度圖像或局部視野范圍內(nèi)構建的地圖作為深度神經(jīng)網(wǎng)絡的輸入，采用監(jiān)督學習訓練方法，直接預測機器人的運動方向。這種方法一方面依賴于大量的監(jiān)督數(shù)據(jù)，另一方面容易陷入局部解。強化學習作為一種序列決策方法，通常會被結合進來用于深度神經(jīng)網(wǎng)絡的訓練過程中。相比于前兩類方法，這類方法的優(yōu)勢有兩點：不再依賴專家規(guī)則，并且可以處理更雜亂的環(huán)境。

基于深度強化學習的未知環(huán)境探索方法

近幾年，Alpha Go, AlphaGo Zero等游戲AI在圍棋領域取得巨大突破使其核心技術——“深度強化學習”——得到了廣泛的關注。與此同時，深度強化學習也逐漸應用到機器人領域，而基于深度強化學習的自主探索成為未知環(huán)境探索領域的熱點方向之一，這類方法通常是設計獎勵函數(shù)，通過強化學習算法，訓練傳感器數(shù)據(jù)到動作的映射網(wǎng)絡。前面也提到，基于深度神經(jīng)網(wǎng)絡的方法相比于其他方法有很多優(yōu)勢，但是它也存在一些問題。首先，這種方法需要大量訓練樣本和訓練時間，而訓練過程通常是在仿真環(huán)境中進行，由于實際環(huán)境和實際機器人誤差，從而導致從仿真環(huán)境中訓練出的智能體很難遷移到實際的機器人上。針對這個問題，中科院自動化所深度強化學習團隊提出了一種學習效率高、遷移性能強的深度強化學習未知環(huán)境自主探索算法。

圖2 自主探索框架

團隊以自主導航框架為基礎，將未知環(huán)境探索分解為建圖、決策和規(guī)劃三個模塊。通過將決策模塊與規(guī)劃模塊相結合，減小機器人學習運動的難度，從而提高機器人學習效率。并且重新定了機器人決策動作空間，提高算法實體遷移性。該動作空間定義在建圖模塊得到的柵格地圖，由若干目標點構成。

圖3 基于柵格地圖的動作空間

在此基礎上，設計了一種帶有輔助任務的全卷積Q網(wǎng)絡（Fully Convolutional Q-network with an Auxiliary task，AFCQN），可以根據(jù)當前時刻構建的地圖，當前時刻機器人位置和上一時刻機器人位置，對動作空間中的目標點進行評價。

圖4 動作評價網(wǎng)絡結構

該網(wǎng)絡結構可以通過使用結合地圖信息熵設計的獎勵函數(shù)實現(xiàn)參數(shù)的自適應學習。

圖5 實際環(huán)境中自動探索過程

通過仿真環(huán)境中的實驗和實際環(huán)境中實體機器人上的實驗表明，團隊提出的這種基于深度強化學習的自主探索算法具有更好的學習效率和實體遷移性能。并且相比于經(jīng)典方法，該方法在處理雜亂環(huán)境時具有更高的探索效率。

總結：

未知環(huán)境探索使機器人在新環(huán)境中不再“迷路”，是進行自主工作的前提，也是機器人自主學習和進化的關鍵。未知環(huán)境探索不僅讓機器人熟悉新環(huán)境，更重要的是為后續(xù)決策提供重要的環(huán)境地圖信息。深度強化學習為未知環(huán)境探索提供了新思路，但也面臨著學習效率低的問題。高效和魯棒的學習算法仍然是今后努力發(fā)展的方向。

參考文獻：

1. B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146–151.

2. C. Stachniss, et al. “Information gain-based exploration using Rao-Blackwellized particle filters.” In Proceedings of Robotics: Science and Systems (RSS), 2005, pp. 65–72.

3. L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016.

4. S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 2379–2384.

5. H. Li, Q. Zhang, and D. Zhao. “ Deep reinforcement learning-based automatic exploration for navigation in unknown environment,” IEEE Transactions on Neural Networks and Learning Systems, vol. 31, no. 6, pp. 2064–2076, 2020.

來源：中國科學院自動化研究所

人妻少妇乱子伦精品_日韩人妻潮喷视频网站_日本最新最全无码不卡免费_日韩AV无码中文

機器人也路癡？丨智言智語