不到現(xiàn)場,照樣看最干貨的學(xué)術(shù)報(bào)告!
嗨,大家好。這里是學(xué)術(shù)報(bào)告專欄,讀芯術(shù)小編不定期挑選并親自跑會,為大家奉獻(xiàn)科技領(lǐng)域最優(yōu)秀的學(xué)術(shù)報(bào)告,為同學(xué)們記錄報(bào)告干貨,并想方設(shè)法搞到一手的PPT和現(xiàn)場視頻——足夠干貨,足夠新鮮!話不多說,快快看過來,希望這些優(yōu)秀的青年學(xué)者、專家杰青的學(xué)術(shù)報(bào)告 ,能讓您在業(yè)余時(shí)間的知識閱讀更有價(jià)值。
人工智能論壇如今浩如煙海,有硬貨、有干貨的講座卻百里挑一。“AI未來說·青年學(xué)術(shù)論壇”系列講座由中國科學(xué)院大學(xué)主辦,承辦單位為中國科學(xué)院大學(xué)學(xué)生會,協(xié)辦單位為中國科學(xué)院計(jì)算所研究生會、網(wǎng)絡(luò)中心研究生會、人工智能學(xué)院學(xué)生會、化學(xué)工程學(xué)院學(xué)生會、公共政策與管理學(xué)院學(xué)生會、微電子學(xué)院學(xué)生會,百度為支持單位,讀芯術(shù)、PaperWeekly為合作自媒體?!癆I未來說·青年學(xué)術(shù)論壇”第十一期“信息檢索與知識圖譜”專場已于2019年11月24日下午在中科院舉行。百度宋勛超為大家?guī)韴?bào)告《百度大規(guī)模知識圖譜構(gòu)建及智能應(yīng)用》。
宋勛超,現(xiàn)任百度知識圖譜部主任研發(fā)架構(gòu)師。畢業(yè)于浙江大學(xué),參與了百度知識圖譜設(shè)計(jì)及構(gòu)建的整體流程,具有豐富的知識圖譜實(shí)踐經(jīng)驗(yàn)。目前主要負(fù)責(zé)知識圖譜應(yīng)用、語義理解、圖譜架構(gòu)等技術(shù),同時(shí)負(fù)責(zé)百度行業(yè)知識圖譜相關(guān)工作。研發(fā)成果在百度搜索、信息流、DuerOS,行業(yè)圖譜產(chǎn)品等多項(xiàng)產(chǎn)品中廣泛應(yīng)用。
報(bào)告內(nèi)容:知識圖譜當(dāng)前已經(jīng)成為工業(yè)界開展下一代人工智能應(yīng)用的重要基礎(chǔ),應(yīng)用前景廣闊。知識圖譜作為一種數(shù)據(jù)形態(tài)、一種工具、一種方法論,為人工智能、大數(shù)據(jù)等應(yīng)用提供基礎(chǔ)支撐作用,在搜索引擎、智能推薦、智能對話等業(yè)務(wù)場景,知識圖譜技術(shù)更是大展拳腳,大幅提高了業(yè)務(wù)效果。宋勛超老師報(bào)告的主題為百度大規(guī)模知識圖譜構(gòu)建及智能應(yīng)用,將從大規(guī)模工業(yè)實(shí)踐的角度,分享百度知識圖譜部門過去幾年所做一些工作,介紹百度實(shí)際工業(yè)生產(chǎn)中是如何應(yīng)用知識圖譜技術(shù)的。報(bào)告主要分為兩部分,首先是從技術(shù)以及應(yīng)用兩方面對百度知識圖譜進(jìn)行概述,第二,介紹百度知識圖譜技術(shù)的最新進(jìn)展。
百度大規(guī)模知識圖譜構(gòu)建及智能應(yīng)用
首先,宋勛超老師從百度知識圖譜部門的發(fā)展歷程出發(fā)向大家作以簡要介紹。百度知識圖譜部源于搜索、服務(wù)于搜索,同時(shí)多年來隨著自身技術(shù)不斷迭代和進(jìn)步,將知識圖譜技術(shù)應(yīng)用到了搜索以外的場景。
百度知識圖譜發(fā)展歷程主要分為四個(gè)階段。第一階段是2013年以前,稱為為Pre—KG階段,用定制化的方式生產(chǎn)結(jié)構(gòu)化數(shù)據(jù),因?yàn)橹R圖譜本身是高度結(jié)構(gòu)化的知識語義網(wǎng)絡(luò)體系,所以在這個(gè)階段的結(jié)構(gòu)化數(shù)據(jù),并不是真正意義上知識圖譜,搜索結(jié)果以豎向聯(lián)動方式將滿足用戶搜索的各種維度信息綜合起來,形成創(chuàng)新的知識滿足產(chǎn)品樣式。
第二階段是2014—2015年,稱之為領(lǐng)域知識圖譜,指知識圖譜的架構(gòu)、策略、算法的目標(biāo)是面向于垂類或者細(xì)分領(lǐng)域,例如金融是垂類,金融下面保險(xiǎn)、銀行等是細(xì)分垂類。落地場景有搜索阿拉丁、推薦、智能摘要、度秘初期垂類檢索。
第三階段是2016—2017年,工作重點(diǎn)是通用知識圖譜,這個(gè)階段關(guān)注統(tǒng)一融合知識圖譜的構(gòu)建與應(yīng)用技術(shù),以及深化建設(shè)多個(gè)特色的領(lǐng)域知識圖譜,例如百度漢語知識圖譜,將傳統(tǒng)國學(xué),漢語教育相關(guān)的海量數(shù)據(jù)轉(zhuǎn)化構(gòu)建為知識圖譜。應(yīng)用落地主要是搜索智能問答,這是下一代搜索引擎所應(yīng)具備的核心能力,也是下一代搜索引擎核心要大力發(fā)展的一個(gè)方向,此外還有Feed信息流推薦場景的廣泛落地。
第四階段是近兩年,稱之為行業(yè)知識圖譜+多元異構(gòu)圖譜發(fā)展階段,我們關(guān)注多元、異構(gòu)圖譜,以及多媒體知識,事件、時(shí)序等復(fù)雜知識,行業(yè)知識如何進(jìn)行圖譜化構(gòu)建。應(yīng)用落地上除了規(guī)模化搜索首位精準(zhǔn)滿足、Feed內(nèi)容理解及智能內(nèi)容建設(shè),還輸出到了百度外的眾多行業(yè),例如客服、法律、醫(yī)療、金融等。
截至到目前,百度內(nèi)部積累知識圖譜規(guī)模已經(jīng)達(dá)到億級實(shí)體和千億級屬性關(guān)系,是中文領(lǐng)域最大的知識圖譜,知識圖譜服務(wù)規(guī)模從2014年到現(xiàn)在增長了490倍。
接下來宋勛超老師簡單介紹了四個(gè)發(fā)展歷程里,百度核心產(chǎn)品線業(yè)務(wù)的賦能情況。首先是智能搜索,目前百度搜索結(jié)果里,首位直接滿足用戶搜索請求的比例達(dá)到57%。這背后依賴的是百度人工智能技術(shù),其中比例非常大的一部分是百度知識圖譜技術(shù)的賦能,知識圖譜每天能夠滿足數(shù)億次檢索請求,有如下幾種類型:一是各種形態(tài)的知識圖譜問答卡片,二是將實(shí)體各個(gè)維度信息進(jìn)行聚合展示的實(shí)體知識大卡,三是依托于知識圖譜本身的語義關(guān)系,在用戶搜索行為發(fā)生同時(shí),給予多種維度的關(guān)聯(lián)知識推薦。
第二是智能對話。從去年開始,百度智能音箱躍居銷售量第一的位置。知識圖譜為智能對話系統(tǒng)DuerOS提供全方位信息滿足服務(wù)。
第三是Feed信息流。百度是雙擎驅(qū)動移動生態(tài)布局,信息流推薦場景我們基于千億級的通用知識圖譜,構(gòu)建了大規(guī)模用戶關(guān)注點(diǎn)和興趣點(diǎn)的圖譜,通過圖譜挖掘文章背后所蘊(yùn)含知識關(guān)聯(lián)和內(nèi)容關(guān)聯(lián),增強(qiáng)了用戶興趣推薦模型的可解釋性和知識關(guān)聯(lián)性,分發(fā)效率和多樣性取得了非常大的提升。
過去六年以來百度知識圖譜沉淀并積累了包括從知識獲取到整合、補(bǔ)全、擴(kuò)展、知識圖譜認(rèn)知、知識圖譜應(yīng)用在內(nèi)的全棧技術(shù),以及知識圖譜相關(guān)的架構(gòu)平臺和知識圖譜模型。
接下來宋勛超老師介紹了百度知識圖譜研究的最新進(jìn)展,分為兩部分。第一部分是知識圖譜構(gòu)建,主要分開放域海量知識圖譜、復(fù)雜知識圖譜、多媒體知識圖譜、行業(yè)知識圖譜四部分。
從大規(guī)模海量互聯(lián)網(wǎng)信息構(gòu)建千億級別的知識圖譜,最核心技術(shù)點(diǎn)有三個(gè):一是無標(biāo)簽大數(shù)據(jù)開放知識挖掘技術(shù),二是數(shù)據(jù)驅(qū)動的本體自動構(gòu)建,三是基于多元異構(gòu)數(shù)據(jù)的融合。對于開放知識挖掘,百度把知識圖譜運(yùn)用到實(shí)際搜索線上,對于知識圖譜準(zhǔn)確性要求需要達(dá)到98%以上的準(zhǔn)確率。這里開放知識挖掘所依賴的最主要的技術(shù)是基于遠(yuǎn)監(jiān)督從大規(guī)模語料中獲取高質(zhì)量模板,這里我們提出一種基于注意力正則化的遠(yuǎn)監(jiān)督降噪的方法來降低訓(xùn)練數(shù)據(jù)中的噪聲。二是自底向上結(jié)合自頂向下的開放本體構(gòu)建。三是基于空間變換的知識融合方法,在海量大規(guī)模異構(gòu)圖譜之間建立廣泛關(guān)聯(lián),形成一個(gè)整體。
針對事件知識圖譜,從互聯(lián)網(wǎng)數(shù)據(jù)里敏捷捕捉到事件發(fā)生,抽取事件論元、并建立時(shí)間、空間維度的關(guān)系從而形成事件圖譜網(wǎng)絡(luò)。事件圖譜非常適合兩個(gè)應(yīng)用場景,第一是百度搜索的新聞事件脈絡(luò),事件脈絡(luò)維度幫助用戶了解事件各個(gè)時(shí)間軸的信息。第二是百度地圖POI的信息變更。
其次就是行業(yè)智能,除了百度內(nèi)廣泛運(yùn)用,各行各業(yè)對知識圖譜運(yùn)用需求也是非常廣泛,比如,法律行業(yè)每年會產(chǎn)出4億頁卷宗,醫(yī)療行業(yè)每年知識增長率達(dá)到了48%,再如金融行業(yè),雖然大家普遍認(rèn)為其信息化程度非常高,但仍然有80%的知識和數(shù)據(jù)存在于非結(jié)構(gòu)化的文本里。行業(yè)知識圖譜技術(shù)方向關(guān)注行業(yè)復(fù)雜知識圖譜,通用向行業(yè)遷移學(xué)習(xí),企業(yè)級架構(gòu)以及深層應(yīng)用能力等技術(shù)難題。目前已經(jīng)面向行業(yè)客戶提供行業(yè)知識圖譜一體化服務(wù),包括行業(yè)知識圖譜架構(gòu)和行業(yè)知識圖譜平臺,以及兩個(gè)標(biāo)準(zhǔn)化產(chǎn)品智能知識庫和圖數(shù)據(jù)庫,涉及醫(yī)療、金融、教育、法律等領(lǐng)域。
比如醫(yī)療臨床輔助決策,基于行業(yè)醫(yī)療大數(shù)據(jù),通過知識圖譜構(gòu)建方法形成醫(yī)療領(lǐng)域?qū)I(yè)知識圖譜,支撐智能分診、輔助診斷、醫(yī)療建議等等醫(yī)療領(lǐng)域知識圖譜應(yīng)用。
其次是知識圖譜應(yīng)用?;谥R圖譜的認(rèn)知與決策應(yīng)用非常多,宋勛超老師從智能問答和智能寫作兩個(gè)技術(shù)進(jìn)行系統(tǒng)介紹。
智能問答也是百度知識圖譜非常具有特色的應(yīng)用技術(shù),分為KBQA、IRQA和知識推理QA。其中IRQA我們聚焦在如何利用知識,優(yōu)化機(jī)器閱讀理解的效果,讓語言和知識真正得到融合。
百度知識圖譜今年發(fā)表了三個(gè)研究成果。第一是KT-NET,文本表示和知識表述融合模型,閱讀理解除了文本更需要知識。第二基于知識圖譜和圖神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀模型,增強(qiáng)知識和語言相互融合,在ReCoRD取得了非常好的成果。第三是基于多視角關(guān)系圖和圖神經(jīng)網(wǎng)絡(luò)的答案句子選擇,,這解決了多句篇章如何選擇最優(yōu)句子的問題。
智能寫作技術(shù)在特定領(lǐng)域中可以發(fā)揮重要作用,例如股市分析、體育賽事等,機(jī)器自動寫作可以充分發(fā)揮大數(shù)據(jù)分析、生成文章速度快的優(yōu)勢,讓作者從重復(fù)性工作中解放出來。目前這項(xiàng)工作已經(jīng)在百度大腦智能創(chuàng)作平臺發(fā)布,提供智能輔助寫作、智能自動創(chuàng)作兩大能力。
最后是AI開放平臺專區(qū),分為基礎(chǔ)能力開放和專項(xiàng)解決方案兩大類應(yīng)用,助力工業(yè)界朋友用百度知識圖譜技術(shù)實(shí)現(xiàn)他們知識圖譜的應(yīng)用,提升行業(yè)智能化水平。
AI未來說*青年學(xué)術(shù)論壇
第一期 數(shù)據(jù)挖掘?qū)?/p>
1. 李國杰院士:理性認(rèn)識人工智能的“頭雁”作用
2. 百度熊輝教授:大數(shù)據(jù)智能化人才管理
3. 清華唐杰教授:網(wǎng)絡(luò)表示學(xué)習(xí)理論及應(yīng)用
4. 瑞萊智慧劉強(qiáng)博士:深度學(xué)習(xí)時(shí)代的個(gè)性化推薦
5. 清華柴成亮博士:基于人機(jī)協(xié)作的數(shù)據(jù)管理
第二期 自然語言處理專場
1. 中科院張家?。好嫦蜃匀徽Z言生成的同步雙向推斷模型
2. 北郵李蕾:關(guān)于自動文本摘要的分析與討論
3. 百度孫珂:對話技術(shù)的產(chǎn)業(yè)化應(yīng)用與問題探討
4. 阿里譚繼偉:基于序列到序列模型的文本摘要及淘寶的實(shí)踐
5. 哈工大劉一佳:通過句法分析看上下文相關(guān)詞向量
第三期 計(jì)算機(jī)視覺專場
1. 北大彭宇新:跨媒體智能分析與應(yīng)用
2. 清華魯繼文:深度強(qiáng)化學(xué)習(xí)與視覺內(nèi)容理解
3. 百度李穎超:百度增強(qiáng)現(xiàn)實(shí)技術(shù)及應(yīng)?
4. 中科院張士峰:基于深度學(xué)習(xí)的通用物體檢測算法對比探索
5. 港中文李弘揚(yáng) :物體檢測最新進(jìn)展
第四期 語音技術(shù)專場
1. 中科院陶建華:語音技術(shù)現(xiàn)狀與未來
2. 清華大學(xué)吳及:音頻信號的深度學(xué)習(xí)處理方法
3. 小米王育軍:小愛背后的小米語音技術(shù)
4. 百度康永國:AI 時(shí)代的百度語音技術(shù)
5. 中科院劉斌:基于聯(lián)合對抗增強(qiáng)訓(xùn)練的魯棒性端到端語音識別
第五期 量子計(jì)算專場
1. 清華大學(xué)翟薈:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大學(xué)魯大為:量子計(jì)算與人工智能的碰撞
3. 荷蘭國家數(shù)學(xué)和計(jì)算機(jī)科學(xué)中心(CWI)李繹楠:大數(shù)據(jù)時(shí)代下的量子計(jì)算
4. 蘇黎世聯(lián)邦理工學(xué)院(ETH)楊宇翔:量子精密測量
5. 百度段潤堯:量子架構(gòu)——機(jī)遇與挑戰(zhàn)
第六期 機(jī)器學(xué)習(xí)專場
1. 中科院張文生:健康醫(yī)療大數(shù)據(jù)時(shí)代的認(rèn)知計(jì)算
2. 中科院莊福振:基于知識共享的機(jī)器學(xué)習(xí)算法研究及應(yīng)用
3. 百度胡曉光:飛槳(PaddlePaddle)核心技術(shù)與應(yīng)用實(shí)踐
4. 清華大學(xué)王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大學(xué)趙申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自動駕駛專場
1. 北京大學(xué)查紅彬:基于數(shù)據(jù)流處理的SLAM技術(shù)
2. 清華大學(xué)鄧志東:自動駕駛的“感”與“知” - 挑戰(zhàn)與機(jī)遇
3. 百度朱帆:開放時(shí)代的自動駕駛 - 百度Apollo計(jì)劃
4. 北理宋文杰:時(shí)空域下智能車輛未知區(qū)域自主導(dǎo)航技術(shù)
第八期 深度學(xué)習(xí)專場
1. 中科院文新:深度學(xué)習(xí)入門基礎(chǔ)與學(xué)習(xí)資源
2. 中科院陳智能:計(jì)算機(jī)視覺經(jīng)典——深度學(xué)習(xí)與目標(biāo)檢測
3. 中科院付鵬:深度學(xué)習(xí)與機(jī)器閱讀
第九期 個(gè)性化內(nèi)容推薦專場
1. 人民大學(xué)趙鑫:基于知識與推理的序列化推薦技術(shù)研究
2. 中科院趙軍:知識圖譜關(guān)鍵技術(shù)及其在推薦系統(tǒng)中的應(yīng)用
第十期 視頻理解與推薦專場
1. 北京大學(xué)袁曉如:智能數(shù)據(jù)可視分析
留言點(diǎn)贊關(guān)注
我們一起分享AI學(xué)習(xí)與發(fā)展的干貨
如轉(zhuǎn)載,請后臺留言,遵守轉(zhuǎn)載規(guī)范