作者:蔣步星
來(lái)源:數(shù)據(jù)蔣堂
本文共1100字,建議閱讀8分鐘。
本文將大數(shù)據(jù)特點(diǎn)總結(jié)成4個(gè)E,可作為選擇大數(shù)據(jù)技術(shù)解決方案的參考。
大數(shù)據(jù)的4個(gè)V說(shuō)法在業(yè)界已經(jīng)盡人皆知,這是指的大數(shù)據(jù)本身的特征?,F(xiàn)在我們來(lái)考察一下用于處理大數(shù)據(jù)的技術(shù)應(yīng)該具有的特性。為方便記憶,類似4個(gè)V,我們把這些特性總結(jié)成4個(gè)E,用戶在選擇大數(shù)據(jù)技術(shù)解決方案時(shí)可作為參考。
Easy
大數(shù)據(jù)技術(shù)要足夠簡(jiǎn)單易用
這個(gè)E很容易理解。
要進(jìn)行大數(shù)據(jù)處理的場(chǎng)景很多,涉及工作人員也是各種各樣的。如果技術(shù)的難度太大,那會(huì)導(dǎo)致只有少數(shù)人能應(yīng)用,而且實(shí)施復(fù)雜度較高,這樣大數(shù)據(jù)的應(yīng)用就會(huì)大打折扣了。
大數(shù)據(jù)領(lǐng)域這種例子并不少,Hadoop剛出來(lái)時(shí)只有MapReduce,相對(duì)于完全用Java硬寫,MapReduce已經(jīng)簡(jiǎn)單了很多,所以會(huì)積累出一批擁躉。但MapReduce的難度仍然不小,所以逐步被后來(lái)封裝出來(lái)的HIVE SQL替代。Spark上的Scala也風(fēng)靡過(guò)一陣,但難度仍然不少,目前也逐步歸于平靜,更多的人還是愿意使用更簡(jiǎn)單的Spark SQL。
Elastic
大數(shù)據(jù)技術(shù)要具有彈性擴(kuò)展能力
這個(gè)E也容易理解。
很多情況下,大數(shù)據(jù)并不是一下子就很大,而是逐步變大的。即使已經(jīng)較大的數(shù)據(jù),也還會(huì)進(jìn)一步變得更大。因此要求大數(shù)據(jù)處理技術(shù)有一定的彈性擴(kuò)展能力就是很自然的事情,這一點(diǎn)一般都不會(huì)被大數(shù)據(jù)技術(shù)提供商忽略掉。
當(dāng)然,任何技術(shù)都有局限性,面向一般規(guī)模和面向超大規(guī)模的技術(shù)相差是很大的,不大可能有一種技術(shù)能夠有效適應(yīng)數(shù)據(jù)規(guī)模從0到無(wú)窮大的各個(gè)階段(所謂有效適應(yīng)是在各個(gè)階段該技術(shù)都能達(dá)到相當(dāng)優(yōu)良的性能,而不只是可以處理),用戶在選擇技術(shù)時(shí)還要對(duì)自己的數(shù)據(jù)規(guī)模變化范圍有一個(gè)預(yù)估。
Embeddable
大數(shù)據(jù)技術(shù)應(yīng)可以被嵌入集成
這個(gè)E需要特別指出,常常不被重視。
大數(shù)據(jù)處理經(jīng)常并不是一件獨(dú)立的事情,它需要和具體的應(yīng)用配合工作才能發(fā)揮其業(yè)務(wù)價(jià)值,這些處理常常在應(yīng)用執(zhí)行到某個(gè)環(huán)節(jié)時(shí)就需要進(jìn)行,這樣就要求相應(yīng)的技術(shù)能夠被方便地嵌入集成到應(yīng)用程序中,隨時(shí)隨地被主程序調(diào)用。
特別地,大部分應(yīng)用程序建立在J2EE架構(gòu)上,因而對(duì)Java應(yīng)用的可集成性就是個(gè)特別重要的指標(biāo)。一般基于Java或SQL體系的大數(shù)據(jù)技術(shù)在集成方面都沒(méi)太大問(wèn)題,而其它技術(shù)體系的就難說(shuō)了。而且,大多數(shù)大數(shù)據(jù)技術(shù)常常需要獨(dú)立部署,即使其計(jì)算能力可以被集成,但必須依賴于外部的獨(dú)立進(jìn)程,不能被應(yīng)用完全控制,有時(shí)會(huì)顯得非常累贅。
Environment-friendly
大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)環(huán)境要求盡量低
這個(gè)E是很多大數(shù)據(jù)技術(shù)不具有但卻很重要的。
目前的大數(shù)據(jù)技術(shù),如Hadoop和MPP等,都要求先把數(shù)據(jù)放進(jìn)該技術(shù)規(guī)定的某種存儲(chǔ)體系中。這樣當(dāng)然有意義,數(shù)據(jù)事先組織之后會(huì)獲得更高的性能。但是,經(jīng)常的情況是,我們需要處理的大數(shù)據(jù)事先并不在這些存儲(chǔ)體系中,而且把外部數(shù)據(jù)搬進(jìn)這些存儲(chǔ)體系本身也是一種大數(shù)據(jù)處理,這些場(chǎng)景下都無(wú)法利用這些大數(shù)據(jù)技術(shù)了。
更好的大數(shù)據(jù)技術(shù)應(yīng)當(dāng)能不挑數(shù)據(jù)源,隨便什么來(lái)源的數(shù)據(jù)都可以處理,只是有可能因?yàn)閿?shù)據(jù)源的限制而一定程度地降低性能,但并不要求必須先做好ETL才能處理。
其實(shí)最后那個(gè)特性用E并不是很貼切,但為了湊4個(gè)E就對(duì)付了。這個(gè)詞本來(lái)是環(huán)保的意思,開(kāi)放的大數(shù)據(jù)技術(shù)可以少?gòu)?fù)制一些數(shù)據(jù),少部署一些硬件,省點(diǎn)電,也算環(huán)保吧。
專欄作者簡(jiǎn)介
潤(rùn)乾軟件創(chuàng)始人、首席科學(xué)家
清華大學(xué)計(jì)算機(jī)碩士,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟專家委員,著有《非線性報(bào)表模型原理》等,1989年,中國(guó)首個(gè)國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽團(tuán)體冠軍成員,個(gè)人金牌;2000年,創(chuàng)立潤(rùn)乾公司;2004年,首次在潤(rùn)乾報(bào)表中提出非線性報(bào)表模型,完美解決了中國(guó)式復(fù)雜報(bào)表制表難題,目前該模型已經(jīng)成為報(bào)表行業(yè)的標(biāo)準(zhǔn);2014年,經(jīng)過(guò)7年開(kāi)發(fā),潤(rùn)乾軟件發(fā)布不依賴關(guān)系代數(shù)模型的計(jì)算引擎——集算器,有效地提高了復(fù)雜結(jié)構(gòu)化大數(shù)據(jù)計(jì)算的開(kāi)發(fā)和運(yùn)算效率;2015年,潤(rùn)乾軟件被福布斯中文網(wǎng)站評(píng)為“2015福布斯中國(guó)非上市潛力企業(yè)100強(qiáng)”;2016、2017年,榮獲中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院評(píng)選的“中國(guó)軟件和信息服務(wù)業(yè)十大領(lǐng)軍人物”;2017年度中國(guó)數(shù)據(jù)大工匠、數(shù)據(jù)領(lǐng)域?qū)I(yè)技術(shù)講堂《數(shù)據(jù)蔣堂》創(chuàng)辦者。
— 完 —
關(guān)注清華-青島數(shù)據(jù)科學(xué)研究院官方微信公眾平臺(tái)“THU數(shù)據(jù)派”及姊妹號(hào)“數(shù)據(jù)派THU”獲取更多講座福利及優(yōu)質(zhì)內(nèi)容。