文 | 搜狐科技 黃陽
“搜狗的使命是讓人人都能夠有一個助理,甚至成為你的分身。”
“速記員的取代比播音員更容易些,因為還沒有機器技術(shù)能取代人的創(chuàng)造力?!?/p>
“以前搜狗做輸入法和搜索,錄音筆的發(fā)布則代表搜狗在智能硬件領(lǐng)域也扎根進去?!?/p>
“搜狗明年會有重大爆發(fā),原有的工具將升級為有溫度的服務?!?/p>
近日,在2019搜狐科技AI峰會上,搜狗AI主持人“雅妮”再度引發(fā)熱議,機器人主持人并不罕見,但像雅妮逼近真人的形象,讓機器與人的邊界更加模糊。峰會當日,搜狗CEO王小川發(fā)表演講,他提到了語言AI的重大意義,并展示了搜狗最新發(fā)布的錄音筆。
“搜狗目前的使命是讓人人都能夠有一個助理,甚至成為你的分身。”原來,搜狗早已離開了搜索引擎和輸入法的舒適圈,在人工智能領(lǐng)域用語音AI開辟疆域。
搜狗為何會有這樣的轉(zhuǎn)變,未來又將走向何方?搜狐科技對王小川進行了專訪。
搜狗AI主持人“雅妮”背后的故事
在語音AI方面,搜狗目前有兩大產(chǎn)品,一是AI主持人,二是錄音筆。有意思的是,這兩個產(chǎn)品一個是語音的收集,一個是語音的輸出,他們的誕生都來源于搜狗的語音識別項目。
為何搜狗AI機器人不走大眾化的“賣萌機器人形象”,而是選擇無限地向真人靠近?這背后有著什么樣的故事呢?
“原來搜狗在做語音識別項目的時候發(fā)現(xiàn),為什么不是從語音里面提取信息,而是從嘴形、表情里面獲取講的內(nèi)容。所以我們當時立項更多從自然交互里面用視覺的方式去嘗試理解人的表達,這個項目做得蠻成功的?!?/p>
王小川對搜狐科技表示,AI主持人的誕生離不開前期的技術(shù)積累,通過前期的技術(shù)積累,倒過來思考,如何讓帶有視覺效果的機器人去表達,用最自然的方式讓人去接受。
“當時我們的技術(shù)能夠?qū)崿F(xiàn)在90%的垂直場景中,不用聽聲音只看嘴形就知道講話內(nèi)容,在一些通用場景10個字也能對6個字。這樣的技術(shù)積累后,倒過來,我們開始在自然交互里面,從機器聽人,變成讓機器表達,用最自然的方式讓人去接受,從現(xiàn)在的AI主持人成果來看,我們達到了立項目標?!?/p>
AI主持人的第一個應用場景是新華社,王小川提起,目前在新華社已有大約3000條播報從人轉(zhuǎn)向機器,AI主播解放了新華社主播:“新華社主播以前每周一三五下午需要去錄視頻,現(xiàn)在已經(jīng)被徹底解放了,成為一個采訪記者,可以去做更高級的訪問活動?!?/p>
那么,AI主播有沒有可能取代人類主播?錄音筆有沒有可能取代速記員呢?王小川覺得,速記員的取代比播音更容易。
“速記員的取代比播音更容易一些,因為錄音并不調(diào)動人性部分,它沒有表演成分,只需要忠實地記錄,這是機器可以做到的。如果是主播或者網(wǎng)紅,會有更多的表演成分,需要人的創(chuàng)造力,現(xiàn)在還沒有這樣的機器技術(shù)?!?/p>
搜狗要從工具升級為服務
2019已接近尾聲,被問及今年以來對搜狗印象最深的時刻,王小川提到了錄音筆的發(fā)布:“今年搜狗做得更多是技術(shù)的積累,現(xiàn)在已經(jīng)快到爆發(fā)的點了,以前搜狗做輸入法和搜索,今年錄音筆的發(fā)布代表搜狗在智能硬件領(lǐng)域也扎根進去。有了這樣的成績,我更看重明年的重大爆發(fā)。”
從2017年上市之后,外界一直在猜測,搜狗對人工智能領(lǐng)域,特別是語言處理的關(guān)注,是不是代表它將會朝著人工智能企業(yè)進行轉(zhuǎn)型,而今年搜狗錄音筆C1的發(fā)布,似乎印證了外界的猜測。但王小川否認了這一說法。在王小川看來,搜狗并非要進行轉(zhuǎn)型,而是要升級。
“不叫轉(zhuǎn)型,而叫升級,就是原有的工具,比如打字的工具會變成輔助的寫作助理,從冷冰冰的工具,變成一個有溫度的,會替你思考的服務?!?/p>
除了智能硬件領(lǐng)域可能帶來的新驚喜,在搜狗最強勢的搜索領(lǐng)域,明年也將引入更多的AI技術(shù),王小川表示:“搜狗明年會有個發(fā)布,AI融入后將使搜索引擎準確度得到很大提升,不僅如此,像beta的算法或者其他的深度學習,包括對于用戶問題的理解,對知識的抽取等都會提高,搜狗將會打造新的人機交互方式?!?/p>
三年前,王小川因在質(zhì)疑聲中預言AlphGo(圍棋機器人)能夠打敗所有人類棋手而成為AI圈紅人,現(xiàn)在,他正嘗試用智能錄音筆取代傳統(tǒng)的速記方式,那么,在他眼中,三年后的人工智能會有什么新的突破?
王小川覺得,讓技術(shù)與人類感知相結(jié)合,才能實現(xiàn)應用的大爆發(fā):“三年后,我們在圖像和語音上獲取上已取得足夠多的成績,要開始思考在垂直場景當中,如何讓深度學習圖像語音技術(shù),和人在垂直場景中的認知,包括法律、醫(yī)療等的知識,得到更好的結(jié)合,這樣行業(yè)應用才能有大的爆發(fā)?!?/p>
責任編輯: