人妻少妇乱子伦精品_日韩人妻潮喷视频网站_日本最新最全无码不卡免费_日韩AV无码中文

當(dāng)前位置: 首頁 > 體育新聞 >

AlphaGo技術(shù)啟發(fā)腦科學(xué) DeepMind成果登上Nature

時間:2020-03-03 13:58來源:網(wǎng)絡(luò)整理 瀏覽:
DeepMind成果登上Nature賴可乾明十三發(fā)自凹非寺量子位報道|公眾號QbitAI人工智能,往往從人類思維方式中獲取
DeepMind成果登上Nature DeepMind成果登上Nature

賴可 乾明 十三 發(fā)自 凹非寺

量子位 報道 | 公眾號 QbitAI

人工智能,往往從人類思維方式中獲取靈感。

但現(xiàn)在反過來了!

人工智能的進步,已經(jīng)能夠為揭秘大腦如何學(xué)習(xí)提供啟發(fā)。

這是來自DeepMind的最新研究,剛登上Nature,研究證明:

分布式強化學(xué)習(xí),也就是AlphaGo的頂級版Alpha Zero和AlphaStar背后的核心技術(shù),為大腦中的獎賞通路如何工作提供了新解釋。

如此結(jié)論,也讓DeepMind創(chuàng)始人哈薩比斯非常激動,發(fā)表推文表示:

我們在機器學(xué)習(xí)方面的研究,能夠重新認識大腦的工作機制,這是非常令人興奮的!

他當(dāng)然有理由興奮。

從長遠來看,這也證明了DeepMind提出的算法與大腦運作邏輯相似,也就意味著能夠更好地拓展到解決復(fù)雜的現(xiàn)實世界問題上。

而且一直以來,哈薩比斯的目標就是打造通用人工智能。

Alpha系列背后利器:分布式強化學(xué)習(xí)

強化學(xué)習(xí),就是讓智能體在一個未知的環(huán)境中,采取一些行動,然后收獲回報,并進入下一個狀態(tài)。

而時間差分學(xué)習(xí)(temporal difference learning,TD)算法,可以說是強化學(xué)習(xí)的中心。

它是一種學(xué)習(xí)如何根據(jù)給定狀態(tài)的未來值,來預(yù)測價值的方法。

算法會將新的預(yù)測和預(yù)期進行比較。

如果發(fā)現(xiàn)兩者不同,這個“時間差分”就會把舊的預(yù)測調(diào)整到新的預(yù)測中,讓結(jié)果變得更加準確。

△當(dāng)未來不確定時,未來的回報可以表示為一種概率分布。有些可能是好的結(jié)果(藍綠色),有些結(jié)果可能是不好的(紅色)。

一個特定的行為所帶來的未來獎勵數(shù)量,通常是未知且隨機。在這種情況下,標準的TD算法學(xué)習(xí)去預(yù)測的未來回報是平均的。

而分布式強化學(xué)習(xí)則是更復(fù)雜的預(yù)測方式,會預(yù)測所有未來獎勵的概率分布。

那人類大腦的多巴胺獎賞機制是怎么樣的呢?

然后研究的雛形就在DeepMind研究人員的腦海中生根了。

不研究不知道,一研究真的“嚇一跳”。

過去,人們認為多巴胺神經(jīng)元的反應(yīng),應(yīng)該都是一樣的。

有點像在一個詩唱班,每個人唱的都是一模一樣的音符。

但研究小組發(fā)現(xiàn),單個多巴胺的神經(jīng)元似乎有所不同——所呈現(xiàn)的積極性是多樣的。

于是研究人員訓(xùn)練小鼠執(zhí)行一項任務(wù),并給予它們大小各異且不可預(yù)測的獎勵。

他們從小鼠腹側(cè)被蓋區(qū)域(Ventral tegmental area,控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))中發(fā)現(xiàn)了“分布式強化學(xué)習(xí)”的證據(jù)。

這些證據(jù)表明,獎勵預(yù)測是同時并行地由多個未來結(jié)果表示的。

這和分布式機器學(xué)習(xí)的原理也太像了吧?

解釋大腦多巴胺系統(tǒng)

實驗運用了光識別技術(shù)來記錄小鼠大腦中腹側(cè)被蓋區(qū)中單個多巴胺神經(jīng)元的反應(yīng)。

腹側(cè)被蓋區(qū)富含多巴胺與5-羥色胺神經(jīng),是兩條主要的多巴胺神經(jīng)通道的一部分

基于強化學(xué)習(xí)理論,研究假設(shè)大腦存在多巴胺的獎賞預(yù)測誤差(RPE)。

一個信號會引起一個獎賞預(yù)測,當(dāng)獎賞預(yù)測低于分布的均值時,會引起負的RPE,而較大的獎勵會引起正的RPE。

在一般強化學(xué)習(xí)中,獲得的獎勵幅度低于平均值分布將引起消極(負)的RPE,而較大的幅度將引出積極(正)的RPE(如上圖a左所示)。

在分布式強化學(xué)習(xí)中,每個通道都攜帶不同的RPE價值預(yù)測,不同通道的積極程度不同。

這些值的預(yù)測反過來又為不同的RPE信號提供了參考點。在最后的結(jié)果上,一個單一的獎勵結(jié)果可以同時激發(fā)積極(正)的RPE和消極的RPE(如上圖a右所示)。

記錄結(jié)果顯示,小鼠大腦的多巴胺神經(jīng)元反轉(zhuǎn)點根據(jù)積極程度的不同而不同。符合分布式強化學(xué)習(xí)的特點(如上圖b所示)。

為了驗證神經(jīng)元反應(yīng)多樣性不是隨機的,研究者做了進一步驗證。

將隨機地將數(shù)據(jù)分成兩半,并在每一半中獨立地估計反轉(zhuǎn)點。結(jié)果發(fā)現(xiàn)其中一半的反轉(zhuǎn)點與另一半的反轉(zhuǎn)點是相關(guān)的。

為了進一步了神經(jīng)元對獎賞預(yù)測的處理方式。研究者給神經(jīng)元進行了三種不同的信號刺激。

分別是10%、50%、90%的獎賞概率,并同時記錄了四個多巴胺神經(jīng)元的反應(yīng)。

每條軌跡都是對三種線索之一的平均反應(yīng),零時是開始時間。

結(jié)果顯示,一些細胞將50%的線索編碼為90%的線索,而另一些細胞同時將10%的線索編碼為10%的線索。

最后 ,研究者還進行了驗證,試圖從多巴胺細胞的放電率來解碼獎賞分布。

通過進行推理,成功地重建了一個與老鼠參與的任務(wù)中獎勵的實際分配相匹配的分配。

初步驗證了小鼠的大腦分布式強化學(xué)習(xí)機制,給研究員帶來了更多的思考:

是什么電路或細胞級機制導(dǎo)致了不對稱的多樣性?

不同的RPE通道是如何與相應(yīng)的獎勵預(yù)測在解剖學(xué)上結(jié)合?

這些大腦的謎團都有待于進一步了解。

而且這一研究結(jié)果也驗證了之前多巴胺分布對成癮和抑郁等精神障礙機制影響的假說。

有理論認為,抑郁癥和雙相情感障礙都可能涉及關(guān)于未來的負面情緒。

這些情緒與未來的負面預(yù)測偏差有關(guān),偏差則可能來自于RPE coding28、29中的不對稱。

但更多的意義,則是對當(dāng)前機器學(xué)習(xí)技術(shù)發(fā)展的激勵。

DeepMind 神經(jīng)科學(xué)研究負責(zé)人Matt Botvinick說:“當(dāng)我們能夠證明大腦使用的算法,與我們在人工智能工作中使用的算法類似時,這將增強我們的信心?!?/p>

跨學(xué)科研究團隊的成果

這篇論文中一共有3位共同一作,也是跨學(xué)科團隊的研究成果。

排在第一位的是Will Dabney,DeepMind的高級研究科學(xué)家。

△Will Dabney

本科畢業(yè)于美國奧克拉荷馬大學(xué),在馬薩諸塞大學(xué)阿默斯特分校獲得了博士學(xué)位。

在加入DeepMind之前,曾在亞馬遜的Echo團隊工作過。

2016年加入DeepMind。

第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科學(xué)家。

△Zeb Kurth-Nelson

博士畢業(yè)于明尼蘇達大學(xué),2016年加入DeepMind。

第三位共同一作是Naoshige Uchida,來自于哈佛大學(xué),是分子和細胞生物學(xué)教授。

△Naoshige Uchida

此外,DeepMind創(chuàng)始人哈薩比斯也在作者之列。

他一直都希望,能夠通過人工智能的突破也將幫助我們掌握基礎(chǔ)的科學(xué)問題。

而現(xiàn)在的研究發(fā)現(xiàn),他們致力的研究方向,竟然能夠給人們研究大腦帶來啟發(fā),無疑堅定了他們的研究信心。

One More Thing

就在這篇論文登上Nature的同時,DeepMind還有另外一篇研究出現(xiàn)了同一期刊上。

它就是DeepMind在2018年12月問世的AlphaFold,一個用人工智能加速科學(xué)發(fā)現(xiàn)的系統(tǒng)。

僅僅基于蛋白質(zhì)的基因序列,就能預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),而且結(jié)果比以前的任何模型都要精確。

DeepMind稱,這是自己在科學(xué)發(fā)現(xiàn)領(lǐng)域的第一個重要里程碑,在生物學(xué)的核心挑戰(zhàn)之一上取得了重大進展。

截止到現(xiàn)在,DeepMind提出Alpha系列,從AlphaGo,到AlphaZero,再到AlphaStar,以及現(xiàn)在的AlphaFold,一門4子,全上了Nature。

唉…頂級研究機構(gòu)的快樂,就是這么樸實無華,且枯燥。

推薦內(nèi)容