人妻少妇乱子伦精品_日韩人妻潮喷视频网站_日本最新最全无码不卡免费_日韩AV无码中文

當(dāng)前位置: 首頁(yè) > 科技新聞 >

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編

時(shí)間:2019-11-12 19:07來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
【線下技術(shù)沙龍】11月23日,多云時(shí)代開(kāi)啟企業(yè)業(yè)務(wù)新高度,安全如何與時(shí)俱進(jìn)? 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:

【線下技術(shù)沙龍】11月23日,多云時(shí)代開(kāi)啟企業(yè)業(yè)務(wù)新高度,安全如何與時(shí)俱進(jìn)?

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

還記得那個(gè)編故事能以假亂真的AI模型嗎?

它叫GPT-2,因?yàn)樾Ч茫琌penAI說(shuō)不能放出全部——讓壞人誤用就不好了。

于是,它初出茅廬時(shí)先放出了124M版本的模型,然后是355M,再然后是774M。

被業(yè)內(nèi)稱(chēng)為“擠牙膏式開(kāi)源”。

然而沒(méi)想到,經(jīng)過(guò)9個(gè)月斷斷續(xù)續(xù)發(fā)布,OpenAI終于把15億參數(shù)的完整模型,放了出來(lái)。

正所謂好飯不怕晚,官方版放出之后也引起了好多人圍觀。

有人說(shuō)“好人一生平安”。也有人給OpenAI點(diǎn)贊,說(shuō)唯一安全的AI,就是面向所有人的AI,而不是少數(shù)人的AI。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

不少人也感嘆于15億參數(shù)模型的效果,表示“假論文”的時(shí)代不遠(yuǎn)了。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

但更多的人是想扒清楚:

這個(gè)當(dāng)初“吊炸天”的AI模型,到底有沒(méi)有那么玄乎?

實(shí)測(cè)15億版本模型

先來(lái)看看我們上手測(cè)試的效果吧。

首先,我們問(wèn)它對(duì)熬夜變傻有科學(xué)依據(jù)了怎么看,輸入是這樣的:

There’s scientific evidence that staying up late makes you stupid.

它竟然給出了一個(gè)Twitter體的回答,還順便Q了一下川建國(guó):

There’s scientific evidence that staying up late makes you stupid. So why is it okay for the president to be up late every night, and be tweeting?

https://t.co/0j5cFZ5sXS — The Daily Show (@TheDailyShow) January 6, 2017

熬夜變傻有科學(xué)依據(jù)了。那么,為什么總統(tǒng)每天晚上很晚才起床,還要發(fā)推呢?

https://t.co/0j5cFZ5sXS—TheDailyShow (@TheDailyShow) 2017年1月6日

Here’s where Trump got it right:

這就是特朗普認(rèn)為這樣做正確的地方:

If I had been a wiser man, I would have used the term “sad” to describe my feelings toward watching all of you go to sleep. Sad! — Donald J. Trump (@realDonaldTrump) January 6, 2017

如果我是個(gè)明智的人,我就會(huì)用“難過(guò)”這個(gè)詞來(lái)形容我看著你們所有人入睡的感受。難過(guò)!

—唐納德·特朗普(@realDonaldTrump) 2017年1月6日

甚至還有推文鏈接、具體的賬號(hào)和時(shí)間。

嚇得我們趕緊去查了查,還好鏈接是胡編的,根本打不開(kāi)。但這些推文賬號(hào)都存在。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

如此效果,很讓我們震驚,將這個(gè)感受輸入進(jìn)去:

The editors were shocked by the effect.

然后得到了這樣的“胡編”生成結(jié)果:

A few years later, in the late 1990s, a book was published that offered evidence for the existence of a “gene for human intelligence.”

幾年后,也就是20世紀(jì)90年代末,一本書(shū)出版了,為“人類(lèi)智力基因”的存在提供了證據(jù)。

“I’m just astonished that this is the case,” said Robert Rosenthal, a psychologist at the University of California at San Diego who was one of the editors of the report.

“我只是對(duì)這種情況感到驚訝,”加州大學(xué)圣地亞哥分校的心理學(xué)家、該報(bào)告的編輯之一羅伯特·羅森塔爾說(shuō)。

Rosenthal called the notion that intelligence can be detected with DNA “totally implausible.”

羅森塔爾稱(chēng),智力可以通過(guò) DNA 檢測(cè)的說(shuō)法“完全不可信”

雖然真實(shí)性有待考證,但這個(gè)邏輯已經(jīng)像模像樣,而且有細(xì)節(jié)、有論證,不了解實(shí)情的人,可能真的會(huì)被忽悠過(guò)去。

模型更大,胡編的能力也更強(qiáng)了

OpenAI在博客里說(shuō),GPT-2的生成結(jié)果,有獨(dú)立客觀第三方的檢驗(yàn),令人信服:

團(tuán)隊(duì)在康奈爾大學(xué)的合作伙伴,對(duì)人類(lèi)做了問(wèn)卷調(diào)查,給GPT-2輸出的文本打出可信分 (Credibility Score) ,各種大小的模型都參與了。

滿(mǎn)分10分,大家給15億參數(shù)模型的可信分是6.91。比7.74億參數(shù)的模型 (6.72分) 和 3.55億參數(shù)的模型 (6.07分) 都要高。

也就是說(shuō)在人類(lèi)眼里,15億參數(shù)模型,比之前放出的那些模型,寫(xiě)出的文章更逼真了。

那么在AI眼里,會(huì)不會(huì)也是如此?

于是寫(xiě)個(gè)檢測(cè)算法,識(shí)別哪些是GPT-2寫(xiě)的文章,哪些是人類(lèi)寫(xiě)的文章,同樣是一項(xiàng)重要的工作。

OpenAI做了一個(gè)檢測(cè)模型,識(shí)別15億模型生成的文本,準(zhǔn)確率大約95%。但這還不代表AI生成的文本是安全的。

因?yàn)?,團(tuán)隊(duì)又對(duì)檢測(cè)算法做了更仔細(xì)的考察,跨數(shù)據(jù)集的那種。

比如,訓(xùn)練時(shí)用3.55億參數(shù)模型的作品,測(cè)試時(shí)卻要識(shí)別15億參數(shù)模型的文章;訓(xùn)練針對(duì)15億參數(shù)模型,測(cè)試時(shí)要識(shí)別3.55億參數(shù)模型的作品等等。

結(jié)果如下:

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

目前看來(lái),用大模型的作品當(dāng)訓(xùn)練集,可以輕松識(shí)別小模型的作品;但用小模型的作品當(dāng)訓(xùn)練集,要識(shí)別大模型的作品,頗有些難度。

比如,用1.24億參數(shù)模型的文章訓(xùn)練之后,再讓算法識(shí)別15億參數(shù)模型的作品,準(zhǔn)確率只有79.3%。反過(guò)來(lái),準(zhǔn)確率有96.9%。

總體來(lái)看,15億參數(shù)模型的作品,依然是最難識(shí)別的。

得出這樣的結(jié)果,一方面看出15億參數(shù)模型比從前的模型更強(qiáng)大。另一方面,也表示檢測(cè)真?zhèn)蔚乃惴ㄟ€有很長(zhǎng)的路要走。

但也有人指出了這個(gè)模型存在的另外一些問(wèn)題:

文本生成模型夠大了,但我們需要的是可控的文本生成。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

使用建議

所以,這個(gè)版本的GPT-2應(yīng)該怎么用?

首先,當(dāng)然是到GPT-2的GitHub倉(cāng)庫(kù)里下載15億參數(shù)版完整模型,自己動(dòng)手調(diào)教出你想要的功能。

https://github.com/openai/gpt-2

不過(guò),這比較適合AI專(zhuān)業(yè)人士操作。有人讀了源碼之后,直言頭大:

1、到處是單字母變量;2、代碼本身幾乎沒(méi)有文檔;3、到處都是魔術(shù)常數(shù);4、函數(shù)名過(guò)于簡(jiǎn)潔。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

如果你想立刻上手嘗試,已經(jīng)有人把代碼移植到了Colab上。

https://colab.research.google.com/drive/1BXry0kcm869-RVHHiY6NZmY9uBzbkf1Q

并且還推出了配套的GPT-2調(diào)教教程《GPT-2神經(jīng)網(wǎng)絡(luò)詩(shī)歌》。

https://www.gwern.net/GPT-2

此外,Hugging Face(抱抱臉)也已經(jīng)第一時(shí)間將這一模型添加到了萬(wàn)星項(xiàng)目Transformers中,一個(gè)API就能調(diào)用GPT-2 15億參數(shù)版本。在線上Demo中也已經(jīng)可以直接試用。

https://transformer.huggingface.co/doc/gpt2-xl

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

如果你只是想體驗(yàn)一下效果,還有人在網(wǎng)站上集成了GPT-2 15億參數(shù)模型的功能,輸入開(kāi)頭,即可一鍵生成文本。

https://talktotransformer.com/

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

按照OpenAI的預(yù)期,這一完整模型將主要服務(wù)于AI研究人員和從業(yè)人員,幫助人們更好地理解生成語(yǔ)言模型的行為、功能、偏見(jiàn)和約束。

下一步往哪里去?

不難看出,OpenAI發(fā)布的15億最大參數(shù)模型在輸出等方面還是取得了一定的進(jìn)步。但同時(shí),OpenAI也提出了在檢測(cè)方面所面臨的挑戰(zhàn)。

那么接下來(lái),他們又會(huì)對(duì)這個(gè)模型做出怎樣的改進(jìn)呢?

OpenAI表示:

在過(guò)去9個(gè)月的體驗(yàn)時(shí)間里,我們深刻的了解到了在AI領(lǐng)域發(fā)布一個(gè)規(guī)范模型所帶來(lái)的挑戰(zhàn)與機(jī)遇。我們將繼續(xù)在模型規(guī)范方面進(jìn)行進(jìn)一步的研究與討論。

隨著進(jìn)一步的研究,我們期望語(yǔ)言模型能夠在性能上有更大的提升,以此提供更高的輸出質(zhì)量和準(zhǔn)確性。

因此,為了有效的塑造語(yǔ)言模型的社會(huì)影響,OpenAI還確定了四個(gè)需要監(jiān)控的趨勢(shì)。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

趨勢(shì)一:語(yǔ)言模型正在向設(shè)備轉(zhuǎn)移

考慮到計(jì)算能力成本的歷史趨勢(shì),以及當(dāng)前在設(shè)備上執(zhí)行機(jī)器學(xué)習(xí)訓(xùn)練或推斷的速度,OpenAI預(yù)言:預(yù)言模型將更廣泛地部署在一系列的設(shè)備上,而不是服務(wù)器集群。

趨勢(shì)二:文本生成將變得更加可控

語(yǔ)言模型的潛在用途將得益于可靠性/可控性的發(fā)展,例如新的采樣方法、數(shù)據(jù)集、目標(biāo)函數(shù)以及人機(jī)界面。

趨勢(shì)三:更多風(fēng)險(xiǎn)分析

目前,如何比較具有不同性能配置文件的兩種大型語(yǔ)言模型的可用性還有待商榷,尤其是在考慮微調(diào)的情況下。

一些主要的考慮因素包括:在沒(méi)有模型的情況下,借助于模型來(lái)產(chǎn)生給定數(shù)量的一定質(zhì)量的文本所需的時(shí)間和專(zhuān)業(yè)知識(shí)。

除了在生成不同樣式的惡意內(nèi)容時(shí)的性能差異之外,不同的模型或多或少將更容易適應(yīng)不同的語(yǔ)言和主題。

而在不犧牲某些靈活性的情況下,將誤用的可能性降低到零似乎是困難的或不可能的。

還需要進(jìn)一步的研究以及發(fā)展倫理規(guī)范來(lái)權(quán)衡這些問(wèn)題。

趨勢(shì)四:提高工具的可用性

現(xiàn)如今,模型的訓(xùn)練和部署需要機(jī)器學(xué)習(xí)技術(shù)的知識(shí),工具技能以及訪問(wèn)測(cè)試平臺(tái)進(jìn)行評(píng)估的知識(shí)。

與語(yǔ)言模型交互的工具(例如與Transformer的對(duì)話和使用Transformer接口的編寫(xiě)),將擴(kuò)大能夠以各種不同方式使用語(yǔ)言模型的參與者的數(shù)量。

這些對(duì)工具可用性的改進(jìn)將會(huì)對(duì)模型性能和抽樣方法起到改進(jìn)的作用,使得更廣泛的創(chuàng)造性語(yǔ)言模型應(yīng)用成為可能。

One more thing:GPT-2宇宙

從今天2月份,GPT-2橫空出世之后,強(qiáng)悍的效果讓不少人的震驚,無(wú)需針對(duì)性訓(xùn)練就能橫掃各種特定領(lǐng)域的語(yǔ)言建模任務(wù),還具備閱讀理解、問(wèn)答、生成文章摘要、翻譯等等能力。

于是也引起了大家研究GPT-2的熱潮,將GPT-2帶到了各種各樣的場(chǎng)景下。

比如,有人給GPT-2加上“人類(lèi)偏好”補(bǔ)丁,它說(shuō)的話就越來(lái)越有人情味了。也有人用它做出了程序員沸騰的項(xiàng)目:殺手級(jí)AI補(bǔ)代碼工具,支持23種語(yǔ)言及5種主流編輯器。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

還有中文版GPT-2,可以寫(xiě)詩(shī),新聞,小說(shuō)、劇本,或是訓(xùn)練通用語(yǔ)言模型。

模仿川普語(yǔ)氣真假難分:從未如此逼真,超強(qiáng)編故事AI完全體來(lái)了

GPT-2 Chinese項(xiàng)目傳送門(mén):

https://github.com/Morizeyao/GPT2-Chinese

正如OpenAI所說(shuō)的,以及GPT-2所展現(xiàn)出來(lái)的能力,它的潛力遠(yuǎn)遠(yuǎn)不僅于此。

它還能夠用到更多的場(chǎng)景中。

不知道你有沒(méi)有大膽的想法?

【責(zé)任編輯:張燕妮 TEL:(010)68476606】
推薦內(nèi)容