人妻少妇乱子伦精品_日韩人妻潮喷视频网站_日本最新最全无码不卡免费_日韩AV无码中文

當(dāng)前位置: 首頁 > 科技新聞 >

王小川:只有掌握語言 AI才能具備創(chuàng)造力和推理

時(shí)間:2020-02-21 13:13來源:網(wǎng)絡(luò)整理 瀏覽:
作者:沈知涵如果用一句話概括搜狗一直在做的事情,那就是讓表達(dá)和獲取信息更簡(jiǎn)單,而這兩件事情又都起源于一點(diǎn)——語言。過去,搜狗用搜索和輸入法

作者:沈知涵

如果用一句話概括搜狗一直在做的事情,那就是讓表達(dá)和獲取信息更簡(jiǎn)單,而這兩件事情又都起源于一點(diǎn)——語言。

過去,搜狗用搜索和輸入法以語言為核心幫助用戶做輸入和輸出。

如今,這兩條線正在無限延伸,構(gòu)成了搜狗的語言 AI 戰(zhàn)略。

其一,是以語言為核心的自然交互。王小川稱這是機(jī)器通過深度學(xué)習(xí)之后產(chǎn)生人的「感知」能力。

王小川在現(xiàn)場(chǎng)展示了搜狗新的降噪算法,傳統(tǒng)錄音硬件對(duì)于噪音的識(shí)別更多是通過麥克風(fēng)矩陣來實(shí)現(xiàn)的,而今天搜狗的工程師通過對(duì)現(xiàn)實(shí)場(chǎng)景中 4 萬種真實(shí)噪音的學(xué)習(xí),讓機(jī)器有了分辨噪音的能力。王小川表示這項(xiàng)降噪技術(shù)也將會(huì)應(yīng)用在新一代的錄音筆中。

得益于在 OCR 識(shí)別、唇語識(shí)別和語音識(shí)別、語音合成、語音變聲多項(xiàng)技術(shù)上的積累,搜狗的自然交互能力已經(jīng)逐漸實(shí)現(xiàn)了在 AI 錄音筆、合成主播等方面的實(shí)際商業(yè)使用。

其二,是在語言之上提取出跟語言的關(guān)聯(lián)關(guān)系,讓機(jī)器產(chǎn)生人的「認(rèn)知」能力,王小川稱之為知識(shí)計(jì)算。搜狗在 GeekPark IF X 發(fā)布了行業(yè)首創(chuàng)的多模態(tài)同傳,在聽的過程中,機(jī)器能夠?qū)崟r(shí)閱讀 PPT,將它所看到的內(nèi)容拓展成知識(shí)網(wǎng)絡(luò),在聽和看的基礎(chǔ)上,又多了思考的一步。隨著知識(shí)計(jì)算能力的提升,搜狗未來將在知識(shí)性問答、醫(yī)療助診、智能助理等領(lǐng)域里面注入更多 AI 能力。

在 GeekPark IF X 上,王小川分享了圍繞著 AI 戰(zhàn)略搜狗近期的探索和積累,以及他所構(gòu)想的語言 AI 的未來。而他又將如何一步步駛向那個(gè)終點(diǎn)?

以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演講,經(jīng)極客公園編輯整理:

張鵬說今天要談一下未來 10 年(2020-2030 年),還要求我?guī)硪恍┯藏洠勎磥?10 年一定會(huì)談到 AI。

首先從我們最近發(fā)布的一個(gè)硬貨開始,就是搜狗出品的 AI 錄音筆,錄音筆是今年上市的,我很高興這個(gè)錄音筆已經(jīng)被市場(chǎng)接受了,極客公園基本上人手一支,不是我贈(zèng)送的,是他們掏錢買的,同時(shí)也有了很多的復(fù)購率。

錄音筆是一個(gè)很小眾的市場(chǎng),但是因?yàn)橛辛巳斯ぶ悄艿募映?,錄音筆變成今年電商中間的一個(gè)小爆款。搜狗 AI 錄音筆相對(duì)傳統(tǒng)錄音筆,不僅有麥克風(fēng)的矩陣,同時(shí)還有 AI 降噪、實(shí)時(shí)轉(zhuǎn)寫文字、云端的存儲(chǔ)和搜索、智能編輯、同聲傳譯等功能。所以,這個(gè)產(chǎn)品上線之后把整個(gè)市場(chǎng)改變了,像索尼、愛國(guó)者、紐曼都跟搜狗成立了一個(gè)聯(lián)盟,而搜狗成為了聯(lián)盟的盟主。

這個(gè)產(chǎn)品上線之前,整個(gè)錄音筆市場(chǎng)銷量逐年下滑,市場(chǎng)保有量只有 400 萬支,但是今年 3 月份的時(shí)候,搜狗上線錄音筆第一代產(chǎn)品,出現(xiàn)了一個(gè)奇怪的現(xiàn)象,主流電商平臺(tái)的錄音筆搜索量開始有了上升,到 12 月份我們發(fā)布了第二代錄音筆,也得到了很多好評(píng),所以搜狗開始一點(diǎn)點(diǎn)的變硬。這件事情就像之前手機(jī)從傳統(tǒng)走向智能一樣,而且有了 AI 能力的注入,會(huì)帶來一個(gè)新的改變,AI 注入之后對(duì)于 C 端消費(fèi)品有了一些變化。

談到硬件我個(gè)人有一些觀點(diǎn),大家談的比較多的是音箱,我基本的判斷是人工智能對(duì)于硬件的助力,使得硬件方向有兩大趨勢(shì):

第一,會(huì)變得更加便攜。以前放在桌上的 PC 機(jī)很大,隨后智能硬件開始走向筆記本、iPad、手機(jī),甚至開始走向穿戴,因此未來個(gè)人硬件的趨勢(shì)是越來越移動(dòng)化、便攜化。

第二,更強(qiáng)的 IO 能力。從之前的計(jì)算能力走向傳感器能力、基于 AI 的處理能力,從人去適應(yīng)機(jī)器變成機(jī)器去適應(yīng)人,最后機(jī)器開始接管你的感官成為人的助力。

智能硬件從以前的手機(jī)開始走向手表、耳機(jī)、到未來走向眼鏡,這是我對(duì)于未來 10 年路徑的一個(gè)暢想。這有可能會(huì)改變我們以手機(jī)為中心的方式,我相信在 10 年時(shí)間里面,很有可能眼鏡和耳機(jī)會(huì)取代手機(jī)作為我們接觸外界信息的通道,這就是 AI 未來對(duì)硬件產(chǎn)生影響的變化。

硬件背后,是人去接受這個(gè)世界。除了有圖像和語音之外,很重要的一個(gè)事情就是語言。其實(shí)一只貓或者狗都會(huì)有圖像和聲音的處理能力,但是惟有人能夠處理語言,語言是我們與世界交互的一種抽象的方式。

就像亞里士多德講到的,語言是心靈印象的符號(hào),而且是人類思維的工具,是知識(shí)的載體,并且有了語言,人類社會(huì)才能溝通交流。不管是我們生產(chǎn)語言,還是計(jì)算機(jī)處理語言,語言是最難的一件事情,語言是人工智能皇冠上的明珠。

在圖靈測(cè)試?yán)锩嫣岬?,機(jī)器能夠用語言與人交流,就代表它擁有智能,今天我們的人工智能還不具有創(chuàng)造力和通用的推理能力,但是我們可以去做這樣的一個(gè)猜想,只有當(dāng)它掌握了語言之后,它才能夠完整的擁有創(chuàng)造力和推用的推理。如果有機(jī)器能夠跟你對(duì)話,你就會(huì)覺得它具有智能,因此語言在智能當(dāng)中是有極其重要的位置,也是人跟動(dòng)物一個(gè)重大的區(qū)別。

我們會(huì)看到以語言為核心變成了我們?nèi)ニ伎既斯ぶ悄馨l(fā)展路徑的關(guān)鍵節(jié)點(diǎn)。搜狗做輸入法、搜索,其實(shí)就是處理語言的,也是幫你更好的表達(dá)、更好的獲取信息。今天我們雖然提到有語音、圖像,但是別忘了核心是語言。

語言往下我有兩部分分享:

第一,自然交互。自然交互讓人跟機(jī)器之間能夠用語音、圖像、手勢(shì)各種方式產(chǎn)生交流,其中用到了語音、圖像技術(shù),包括視覺的技術(shù)。

第二,認(rèn)知問題,我們叫做知識(shí)計(jì)算?;谡Z言,機(jī)器能夠做問答和對(duì)話,機(jī)器翻譯是認(rèn)知技術(shù)入門的門檻。有了更好的感知技術(shù),機(jī)器會(huì)從手機(jī)走向新的智能硬件,有了更好的認(rèn)知技術(shù),機(jī)器對(duì)知識(shí)產(chǎn)生理解和推理,尤其是在垂直領(lǐng)域擁有問答的能力。新的硬件形式和新的對(duì)話和問答能力,智能硬件未來會(huì)走向智能助理,這也是整個(gè) AI 行業(yè)在產(chǎn)品層面上面最明珠的地方,蘋果大概在 2006 年就開始推出這樣的能力。到今天 Google、百度、阿里、小米做這樣的音箱產(chǎn)品,其實(shí)內(nèi)核都是在做智能助理,只是外殼上我認(rèn)為不是最好的方向。

布局的時(shí)候,從語音圖像有大量的技術(shù)要去做,包括語音識(shí)別、語音合成,包括了搜索獨(dú)有辨識(shí)的能力,往下可以作為展開,我把一些搜狗走在行業(yè)最前沿的點(diǎn),給大家做一個(gè)簡(jiǎn)單的匯報(bào)。

語音識(shí)別這是自然交互里面最自然的事情。搜狗輸入法今天我們做到了每天超過 8 億次的使用量,而且上升的很快。我最近批了一批服務(wù)器,在春節(jié)期間的時(shí)候可能就會(huì)超過 9-10 億次的日請(qǐng)求量。我們也積累了大量的數(shù)據(jù),包括了語種、方言各種能力。

語言識(shí)別聽著很簡(jiǎn)單的一件事情,其實(shí)并不是純粹的單點(diǎn)技術(shù),在識(shí)別過程當(dāng)中,對(duì)于語音、語義的理解還有哪些點(diǎn)需要攻克的呢?

在剛剛播放的視頻中,首先,大家感覺到有人聲的分離,機(jī)器能識(shí)別不同的人,能動(dòng)態(tài)的去判斷這是第一個(gè)人還是第二個(gè)人。第二,做掌聲、笑聲或者其它聲音的識(shí)別,幫助我們理解內(nèi)容。第三,中英文混合,這是非常難的事情,從傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)中,得不到一個(gè)混合的模型,這里面會(huì)加入一些特定知識(shí),來改變這個(gè)系統(tǒng)。

在這個(gè)識(shí)別背后還會(huì)有更復(fù)雜的技術(shù)需要我們解決,我們做錄音筆時(shí)會(huì)考慮很多問題,其中一件事是在嘈雜環(huán)境里怎么讓機(jī)器聽清人的聲音,幫助后面的識(shí)別,這是我們最前沿的技術(shù)。

傳統(tǒng)的硬件是用麥克風(fēng)矩陣實(shí)現(xiàn)的,用多個(gè)麥克風(fēng)進(jìn)行中間的數(shù)字計(jì)算、信號(hào)處理,今天依靠人工智能,我們有了新的方法,搜狗的工程師在現(xiàn)實(shí)場(chǎng)景中對(duì) 4 萬種噪音進(jìn)行了學(xué)習(xí),使得機(jī)器有能力分辨噪音。

在這個(gè)視頻中,原始的機(jī)器識(shí)別、處理是不夠的。為了讓錄音筆、聲音的交互更好,我們有了新的算法,(降噪)技術(shù)在實(shí)驗(yàn)中已經(jīng)完成了,期待在以后新款的錄音筆當(dāng)中能給大家?guī)順O致的 AI 體驗(yàn)。

從語音識(shí)別里面我們往前做了很多前沿的事情,除了語音識(shí)別還有一個(gè)重要的領(lǐng)域,就是語音的合成,在語音合成的時(shí)候,今天大家聽過了林志玲、高曉松的聲音,語音可以惟妙惟肖,用人的音色做表達(dá)。

但是,當(dāng)你做長(zhǎng)篇演講、音頻付費(fèi)節(jié)目的時(shí)候,傳統(tǒng)機(jī)器所合成的聲音情感是不足夠的,搜狗是全球首次實(shí)現(xiàn)用機(jī)器模擬人,在得到音頻課程的整節(jié)課程中完全用機(jī)器合成,大家聽一下這個(gè)聲音。

(播放視頻)這個(gè)不只是聲音跟梁寧很像,更難得的是讓一半的聽眾沒有意識(shí)到整篇文章不是她本人讀的。因?yàn)橐黄恼略谝纛l付費(fèi)節(jié)目里面,已經(jīng)是一個(gè)表演了,對(duì)節(jié)奏把握、情感的輸出要求很高。

技術(shù)做的多的同學(xué)都知道,以今天的 AI 能力,機(jī)器不會(huì)有如此精準(zhǔn)的認(rèn)知理解,所以這個(gè)里面我們用了另外一種技術(shù),其實(shí)是一種聲音的皮膚,把梁寧的聲音變成一種聲音皮膚,技術(shù)上稱為特征的提取能力,可以讓另外一個(gè)人讀這篇文章,再把聲音皮膚附到這個(gè)聲音里面來,使得合成的聲音可以表達(dá)他的情感,經(jīng)過合成之后,最后由梁寧來呈現(xiàn)。

這種做法之后可以改善整個(gè)音頻節(jié)目生產(chǎn)的環(huán)節(jié),表演者和生產(chǎn)者做到一定的分離,以避免人員離職等等帶來的各種困難。加上聲音皮膚,大家可以假想有蠟筆小新、高曉松,也可以模仿一些帶有方言的聲音。

這種情況下,有個(gè)電影叫《頭號(hào)玩家》,使得我們現(xiàn)在每一個(gè)人在互聯(lián)網(wǎng)上,不僅可以換成其它的形象,也可以換成自己想要的一個(gè)聲音的形象。在生活中也有實(shí)際的用處,我們馬上開年會(huì)了,如果我要表演唱歌,作為一個(gè)五音不全的人怎么來做呢?這是我自己的聲音做的提取,然后可以加上《藍(lán)精靈》里面唱的一首歌,比我自己唱的好聽。

這樣一些技術(shù),也使得在交互中間能夠做到了人機(jī)本身的結(jié)合,使得這樣的制作能力能夠有放大。在這里面除了我們提到聲音的識(shí)別、合成以外,我們也做了一些更前沿的工作,是從語音走向了視覺,因此我們提到了搜狗分身,這是我們產(chǎn)品上一個(gè)重大的進(jìn)展。這個(gè)產(chǎn)品發(fā)展到現(xiàn)在經(jīng)歷了多次的技術(shù)迭代,從最早的給新華社所做的主持人,到后來可以做到央視的主持人,到第二代能夠讓它更豐富的表達(dá),第三代能夠站起來有手勢(shì),到第四代之后就開始做到了多語言、多場(chǎng)景的播報(bào)能力,然后到了第五代之后開始能夠做交互,比如平安普惠的保險(xiǎn)項(xiàng)目,后面的服務(wù)人員已經(jīng)被機(jī)器取代了。實(shí)際你在保險(xiǎn)簽約的時(shí)候,是機(jī)器人更你做交互回答。我們很快發(fā)布的是第六代擁有大角度、大幅度的動(dòng)作能力,這是天氣預(yù)報(bào)的播報(bào),大家可以看一下。

這樣的技術(shù)在今年發(fā)布之后已經(jīng)得到了全球 200 多家媒體的的廣泛報(bào)道,也是機(jī)器在取代人上面的一次重大應(yīng)用。所以,這里面我們可以看到,從語言為核心,背后配上了語音、人的表情、肢體、唇語,能夠使得人機(jī)的交互,走到更自然的狀態(tài)。

除了最簡(jiǎn)單的感知問題以外,我們也在認(rèn)知里面做了非常多的積累,剛才我們提到了翻譯是中間最簡(jiǎn)單、入門的門檻,這里面我們做了很多的積累,這個(gè)問題很重大,而且我們現(xiàn)在做的也非常的努力。全球 20% 的人口是說中文的,中文是第一母語的國(guó)家,英文作為母語的人口只占全球的 4%,是第四大語言,印第語和葡萄牙語也比英語大。

但是,在這種情況里面,我們?nèi)?95% 的信息是用英文所寫的,100% 的國(guó)際商貿(mào)活動(dòng)是用英文的,因此如何幫助中國(guó)人跟外國(guó)人進(jìn)行更好的交流,這變成了一個(gè)重大的技術(shù)課題,我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關(guān)的積累。

所以,2016 年在第三次世界互聯(lián)網(wǎng)大會(huì)上我們行業(yè)首家發(fā)布了大會(huì)的同傳,2017 年搜狗發(fā)布了英文搜索,你用中文詞能搜索全球的英文信息,搜索結(jié)果用中文展示出來。在第四屆互聯(lián)網(wǎng)大上,我們首個(gè)實(shí)現(xiàn)了深度學(xué)習(xí)的離線翻譯,以及有英譯中功能的同傳,2019 年 1 月份在極客公園大會(huì)上英中同傳首次發(fā)布。

到今天我們會(huì)發(fā)布新一代的同傳給大家,從 2017 年的同傳到 2018 年的個(gè)性化,今年我們做的是這樣一個(gè)多模態(tài)和自主有學(xué)習(xí)能力的同傳,真的同傳人員不僅是聽聲音的,他會(huì)去看你的這樣一個(gè) PPT,我們今天這場(chǎng)會(huì)的同傳就是機(jī)器實(shí)時(shí)閱讀我的 PPT,同時(shí)識(shí)別中間的文字,并且把它轉(zhuǎn)化成知識(shí)圖譜,拓展它的知識(shí)邊界,就好像一個(gè)人一樣,看到我說了深度學(xué)習(xí),就想到你可能會(huì)說卷積神經(jīng)元網(wǎng)絡(luò),隨后是在知識(shí)庫查表,能找到中英對(duì)話實(shí)時(shí)加載的知識(shí)。

所以,從以前能聽、會(huì)看的多模態(tài),到現(xiàn)在這樣一個(gè)同傳系統(tǒng),它帶有一些簡(jiǎn)單的思考能力,通過知識(shí)圖譜能夠?qū)崟r(shí)的把它看到的東西拓展成知識(shí)網(wǎng)絡(luò),放到同傳生態(tài)系統(tǒng)中去,利用這樣的技術(shù),搜狗同傳的翻譯正確性提升了 40%。

這張圖展示的是通過視覺技術(shù)能夠?qū)崟r(shí)看到的詞匯,同時(shí)把它拓展成相應(yīng)的知識(shí),變成平行的語料,和傳統(tǒng)同傳系統(tǒng)做融合,這就是知識(shí)計(jì)算在同傳當(dāng)中首次的重大應(yīng)用。

同樣在知識(shí)計(jì)算之后,我們強(qiáng)調(diào)一個(gè)核心觀點(diǎn),就是機(jī)器做閱讀理解之后做問答,傳統(tǒng)的搜索是通過關(guān)鍵詞給你 10 條鏈接,隨著技術(shù)的進(jìn)步,我們整個(gè)處理能力會(huì)從詞變成句子、段落、篇章,用戶的表達(dá)也可能會(huì)轉(zhuǎn)換成句子,機(jī)器的閱讀理解也會(huì)走向篇章和整個(gè)文章體系,這是技術(shù)進(jìn)步帶來的機(jī)會(huì)。

好幾家做音箱的公司也是盡可能把問答技術(shù)做到設(shè)備里去,因此在明年大家會(huì)看到一款新的搜索產(chǎn)品誕生,這件事情就不是用關(guān)鍵詞對(duì)應(yīng) 10 條鏈接了,而是在問答里面走出重大的一步,我們可以看一個(gè)簡(jiǎn)單的 demo。

這是早年間的一個(gè)系統(tǒng),這個(gè)系統(tǒng)并不能做到對(duì)知識(shí)推理的理解能力,更多是找到事實(shí)類的問題,但是它很厲害的地方不是簡(jiǎn)單從數(shù)據(jù)做檢索,而是能做通篇閱讀理解,這是我們兩年前發(fā)布的一個(gè)節(jié)目中用的系統(tǒng),背后用了真實(shí)的技術(shù)。

今天的技術(shù)有很多的拓展,機(jī)器對(duì)于這樣一個(gè)問題的理解,甚至幫你構(gòu)造問題,幫你掌握怎么提問,也做了非常多的努力,因此在這里面從翻譯走向問答,也會(huì)在明年有一個(gè)新的突破。另外對(duì)話技術(shù)在輸入法中間會(huì)做更多的呈現(xiàn)。

在未來幾年的時(shí)間里面,也許用不到 10 年,我們構(gòu)建了一個(gè)基本的路徑,自然交互會(huì)從文字走向語音、圖像理解,所以看到我們的錄音筆、同傳、合成主播這個(gè)技術(shù)的前面,是在語音圖像的交互能力里面做增強(qiáng),但是背后還是語言。

另外一條道路就是認(rèn)知能力不斷地提升,會(huì)使得從搜索走向、輔助醫(yī)療、輔助問答以及合并語音圖像技術(shù),最終走向行業(yè)終極的理想,就是每個(gè)人都擁有一個(gè)個(gè)人助理,在一些垂直領(lǐng)域當(dāng)中,能夠幫你去做秘書的工作,或者是成為你的分身,跟世界進(jìn)行溝通,這個(gè)是我們規(guī)劃的藍(lán)圖。

到明年的時(shí)候,我們會(huì)完善這張圖,給大家呈現(xiàn)一個(gè)離個(gè)人助理更近的 AI 時(shí)代的產(chǎn)品,用機(jī)器幫助每一個(gè)人,讓表達(dá)、獲取信息更加的簡(jiǎn)單,這個(gè)是我們的一些思考,謝謝!

推薦內(nèi)容