“大數(shù)據(jù)”、“數(shù)據(jù)驅(qū)動(dòng)”這些詞匯,對(duì)沉浮在互聯(lián)網(wǎng)的廠工們來(lái)說(shuō)并不陌生,隔著屏幕,一邊在源源不斷地生產(chǎn)數(shù)據(jù),一邊在緊鑼密鼓地收集解讀數(shù)據(jù)。這些數(shù)據(jù)是奇妙的,它可以讓人更加直觀、清晰地認(rèn)識(shí)世界,也可以指導(dǎo)人更加理智地做出決策。
數(shù)據(jù)分析目的有倆:
挖掘問(wèn)題,定位原因,對(duì)癥下藥驗(yàn)證假設(shè),提供必要的數(shù)據(jù)支持不能為了做數(shù)據(jù)分析而做,這是互聯(lián)網(wǎng)小白甚至是白銀段位產(chǎn)品汪也會(huì)犯的錯(cuò)誤,你可能聽(tīng)到過(guò)這樣的對(duì)話:
產(chǎn)品汪:“我們想看看跟貼用戶里有多少是高活用戶?”
幾招過(guò)后,不想拉扯的數(shù)據(jù)分析師靈魂一問(wèn),“就先假設(shè)一個(gè)數(shù),占比60%,你下一步的策略是什么?”
產(chǎn)品汪束手不及,瞪圓無(wú)辜的大眼,啞語(yǔ)。
此次談判失敗。
如果你只是想要一個(gè)值(日常指標(biāo)監(jiān)控不算在內(nèi)),可以先假定,然后看看自己是否有進(jìn)一步解決問(wèn)題的思路,如果沒(méi)有,說(shuō)明這個(gè)問(wèn)題你還沒(méi)有想清楚,就不必大費(fèi)周章做數(shù)據(jù)分析了,請(qǐng)給數(shù)據(jù)分析師減負(fù)。
數(shù)據(jù)流轉(zhuǎn)/分析流程:
一、指標(biāo)&指標(biāo)體系“好數(shù)據(jù)勝過(guò)大數(shù)據(jù)”,不要用裝滿數(shù)字的高壓水槍把團(tuán)隊(duì)沖垮,那什么是好數(shù)據(jù)?
9個(gè)字簡(jiǎn)單概括:比率、比較性、簡(jiǎn)單易懂。
比率:避免“拋開(kāi)劑量談毒性是耍流氓”的情況,在有一定統(tǒng)計(jì)學(xué)意義的統(tǒng)計(jì)量上看轉(zhuǎn)化率,如看頁(yè)面轉(zhuǎn)化率比單純看頁(yè)面訪問(wèn)PV更有意義;看點(diǎn)擊率比單純看文章推薦量更有意義;比較性:數(shù)據(jù)可以橫向、縱向、環(huán)比等,能比較的數(shù)據(jù)才有意義;簡(jiǎn)單易懂:如字。不同的商業(yè)模式有不同的數(shù)據(jù)指標(biāo),熱門(mén)的模式大致可以分為以下幾類(lèi):
電子商務(wù),如亞馬遜、淘寶;移動(dòng)應(yīng)用,如王者榮耀,今日頭條;媒體網(wǎng)站,如騰訊新聞網(wǎng)頁(yè)版。移動(dòng)應(yīng)用以新聞資訊app為例(如今日頭條、網(wǎng)易新聞、騰訊視頻等),簡(jiǎn)單闡述其指標(biāo)體系。
宏觀指標(biāo)(水池理論)
我們把活躍用戶當(dāng)做一個(gè)活躍的蓄水池,每天每月有新的水進(jìn)來(lái)(水的來(lái)源和水質(zhì)都不同,有付費(fèi)發(fā)行、免費(fèi)發(fā)行、回流等),也有部分水流出(流失率),沒(méi)有流出的水暫時(shí)停留在水池里,這一出一進(jìn)維持著蓄水池的水量,也就是我們常提到的DAU/WAU/MAU。
流入>流出,看漲;流入<流出,看跌,道理淺顯易懂。
產(chǎn)品發(fā)展期間,增長(zhǎng)負(fù)責(zé)人也許會(huì)有擔(dān)憂(特別是創(chuàng)業(yè)團(tuán)隊(duì)):“新增能夠抵過(guò)流失嗎?”
我們用水池理論來(lái)做一道數(shù)學(xué)題,已知數(shù)據(jù):現(xiàn)存量用戶500w,月平均上線率60%,月回流8%,月流失率20%,日活目標(biāo)增率6%,即6個(gè)月后的日活目標(biāo)是709w,請(qǐng)計(jì)算這半年每日發(fā)行量需達(dá)到多少?
(備注:以上數(shù)據(jù)僅作理論說(shuō)明,不做實(shí)際參考)
1月月發(fā)行=預(yù)期增長(zhǎng)+本月流失-本月回流=500/60%*6%+500/60%*20%-500/60%*8%=150(w)
1月日發(fā)行=月發(fā)行/30=150/30=5(w)
假設(shè)發(fā)行投入穩(wěn)定(即日發(fā)行相同,發(fā)行增率為0),如果日活要達(dá)到709w,那月回流率或月平均上線率要提高多少或者月流失率要降低多少?假設(shè)月流失率和月平均上線率均降低1%時(shí),發(fā)行需要多提高多少才能維持目標(biāo)?
日常數(shù)學(xué)題,以此類(lèi)推。這是一種理想狀態(tài)下的數(shù)據(jù)預(yù)估,實(shí)際情況要復(fù)雜得多,例如還包括活動(dòng)營(yíng)銷(xiāo)、版本迭代的影響等。但對(duì)這些數(shù)據(jù)了然于心才能避免瞎子打靶的盲目行動(dòng)。
幾個(gè)指標(biāo)之間的關(guān)系你應(yīng)該了解,例如:
月發(fā)行=月流失+月期望增加-月回流月流失=上月月活*本月月流失率月期望增加=上月月活*(1+增長(zhǎng)率)回流率=回流的流失用戶/日活用戶月平均上線率=(上線1天的人數(shù)*1+上線2天的人數(shù)*2+…上線30天的人數(shù)*30)/(30日獨(dú)立用戶*30)其他微觀指標(biāo):
二、數(shù)據(jù)分析基于了解了以上指標(biāo)體系,怎么做數(shù)據(jù)分析?
了解現(xiàn)狀關(guān)注趨勢(shì)目標(biāo)驅(qū)動(dòng)數(shù)據(jù)分析大致分為兩類(lèi)。一種是后驗(yàn)分析:無(wú)非是某個(gè)指標(biāo)漲了/跌了,“某個(gè)指標(biāo)”可以代入日活、留存率、流失率等。
原因分析兩條路走:內(nèi)部因素和外部因素,內(nèi)部因素可能是版本迭代導(dǎo)致的功能缺失不可用、體驗(yàn)變差、統(tǒng)計(jì)錯(cuò)誤或者推薦策略修改等等;
外部因素區(qū)分突發(fā)短暫的因素和長(zhǎng)期潛移默化的因素,前者如突發(fā)新聞、節(jié)假日、發(fā)行改變、特別習(xí)俗等,后者可能是設(shè)備、網(wǎng)絡(luò)、國(guó)家政策、頭部網(wǎng)站的變化等等。
關(guān)注關(guān)鍵時(shí)間點(diǎn),用排除法從廣到窄層層收網(wǎng)找出差異點(diǎn),提出大概率事件的假設(shè)。
另一種是先驗(yàn)分析,如擬降低無(wú)點(diǎn)擊用戶占比,分析無(wú)點(diǎn)擊用戶的行為特征和興趣標(biāo)簽,這類(lèi)分析根據(jù)不同業(yè)務(wù)有不同的側(cè)重點(diǎn)。
數(shù)據(jù)分析過(guò)程強(qiáng)調(diào)1個(gè)思維2個(gè)指標(biāo)(敲黑板,劃重點(diǎn)了)。
1. 漏斗分析思維漏斗思維在日常工作中很常見(jiàn),運(yùn)用漏斗分析的思維,便于環(huán)環(huán)監(jiān)控,查漏補(bǔ)缺,對(duì)癥下藥。日常流量漏斗應(yīng)用廣:
推薦召回排序漏斗:
(以上數(shù)據(jù)僅做模型示意,不做實(shí)際參考)
打車(chē)軟件漏斗模型:
移動(dòng)頁(yè)面營(yíng)銷(xiāo)流量漏斗:
(以上數(shù)據(jù)僅做模型示意,不做實(shí)際參考)
以H5營(yíng)銷(xiāo)活動(dòng)為例,以下是漏斗中各環(huán)節(jié)指標(biāo),逐級(jí)遞減。
曝光:評(píng)估觸達(dá)多少用戶;曝光點(diǎn)擊率:評(píng)估物料優(yōu)質(zhì)程度;成功加載率:loading環(huán)節(jié)會(huì)損失多少用戶,判斷是否存在性能問(wèn)題;各頁(yè)面/按鈕參與率:評(píng)估各互動(dòng)環(huán)節(jié)設(shè)計(jì)是否合理,UI是否清晰明了等;病毒傳播系數(shù):自傳播的可能性,綜合評(píng)估獲客成本。根據(jù)不同業(yè)務(wù)需求,以上指標(biāo)還能細(xì)拆,如總訪問(wèn)中關(guān)注不同渠道的流量,如區(qū)分微信、微博、端內(nèi)流量,方便評(píng)估渠道質(zhì)量,按需投放。
2. 北斗星指標(biāo)即“在任何時(shí)候抬起頭看,他都在你前進(jìn)的道路上”。北斗星指標(biāo)是讓團(tuán)隊(duì)聚力,少走彎路的一個(gè)指導(dǎo)性指標(biāo)(也是KPI完成度的依據(jù)),正因如此,制定一個(gè)正確的北斗星指標(biāo)非常關(guān)鍵,因?yàn)樗卮鹆爽F(xiàn)階段最重要的問(wèn)題。
如某服務(wù)供應(yīng)商,有一個(gè)指標(biāo)高于其他指標(biāo):凈增加,這個(gè)指標(biāo)有助于快速發(fā)現(xiàn)退訂量高的日子并尋找問(wèn)題;餐飲業(yè)關(guān)注前一天人工成本占毛收入的比例,為了得要一個(gè)優(yōu)秀的數(shù)值,你不得不推進(jìn)人均消費(fèi)和人力成本。
產(chǎn)品發(fā)展的不同階段會(huì)有不同北斗指標(biāo),但每個(gè)階段關(guān)注一個(gè)北斗指標(biāo)即可,不貪多。
3. 虛擬指標(biāo)虛擬1:注重PV、UV等“量級(jí)”類(lèi)的指標(biāo),忽略轉(zhuǎn)化率。
某圖片網(wǎng)站的日均訪問(wèn)人數(shù)訪問(wèn)次數(shù)過(guò)百萬(wàn),但同時(shí)跳出率也高達(dá)75%,實(shí)際留下消費(fèi)的用戶寥寥無(wú)幾。
某新聞app某頻道日均訪問(wèn)十幾萬(wàn),無(wú)刷新無(wú)點(diǎn)擊用戶占比85%,實(shí)際有消費(fèi)的用戶僅有幾萬(wàn)。
這種注意力轉(zhuǎn)移時(shí)常會(huì)變成寫(xiě)匯報(bào)的“故意”技巧,“轉(zhuǎn)化不好量級(jí)來(lái)湊”。制定正確的數(shù)據(jù)指標(biāo),避開(kāi)虛榮指標(biāo),數(shù)據(jù)指標(biāo)之間的耦合現(xiàn)象也值得注意,例如轉(zhuǎn)化率和購(gòu)買(mǎi)所需時(shí)間,病毒傳播系數(shù)和病毒傳播周期。
虛擬2:相對(duì)值和絕對(duì)值,只選其一。
新上架的某工具類(lèi)app,DAU增長(zhǎng)500%,實(shí)質(zhì)原始基數(shù)只有20人,增長(zhǎng)500%即增長(zhǎng)至120人
相對(duì)值和絕對(duì)值,避重就輕就是耍流氓。
虛擬3:關(guān)注某指標(biāo)下的全量用戶,忽略真實(shí)有意義的用戶行為。
某買(mǎi)賣(mài)二手書(shū)app一開(kāi)始關(guān)注每月賣(mài)家人數(shù)、上傳商品數(shù)量、賣(mài)家人均上傳商品數(shù)量,數(shù)據(jù)很漂亮;若以月為單位關(guān)注一個(gè)月內(nèi)有活躍的商家、一周內(nèi)有搜索曝光次數(shù)大于3次的商品數(shù)量,就會(huì)發(fā)現(xiàn)趨勢(shì)并不樂(lè)觀。
“有效行為”可能含義豐富,需要尋找有意義的用戶行為模式和機(jī)遇,虛擬數(shù)據(jù)的噪音會(huì)掩蓋原本你應(yīng)該要面對(duì)和解決的問(wèn)題。
除了1個(gè)思維2個(gè)指標(biāo),了解數(shù)據(jù)瓶頸(也稱(chēng)“天花板”)和同行大盤(pán),能讓你把精力和財(cái)力花在刀刃上。如,某CEO對(duì)8%的流失率心煩意亂,和同行溝通后發(fā)現(xiàn)8%已經(jīng)是一個(gè)較低值,他便改變了關(guān)注點(diǎn),“流失率維持即可,精力放在其他指標(biāo)”。
三、數(shù)據(jù)采集常見(jiàn)的數(shù)據(jù)采集有以下四個(gè)渠道:
行為數(shù)據(jù)(埋點(diǎn))流量數(shù)據(jù)(JS采集或第三方,如Google Analytics、百度統(tǒng)計(jì))業(yè)務(wù)數(shù)據(jù)(運(yùn)營(yíng)后臺(tái))外部數(shù)據(jù)(第三方或爬蟲(chóng))to C的產(chǎn)品如騰訊新聞,產(chǎn)品汪最常接觸的是行為埋點(diǎn)數(shù)據(jù),埋點(diǎn)展開(kāi)說(shuō)是長(zhǎng)篇幅的技術(shù)統(tǒng)計(jì)學(xué)(詳見(jiàn)下一篇推送);品牌推廣、H5營(yíng)銷(xiāo)PR常關(guān)注流量數(shù)據(jù);關(guān)注訂單成交的運(yùn)營(yíng)喵日常跑后臺(tái)數(shù)據(jù);競(jìng)品分析外部數(shù)據(jù)爬起來(lái)。
四、數(shù)據(jù)清洗數(shù)據(jù)清洗根據(jù)不同的業(yè)務(wù)場(chǎng)景有不同的標(biāo)準(zhǔn),主要是一些空值、異常值的處理,使數(shù)據(jù)得出的結(jié)論可靠可信。
栗子1:取非0數(shù)據(jù)時(shí)要排除。
…… where click !=0 or click not or ……
栗子2:統(tǒng)計(jì)時(shí)長(zhǎng)(duration)相關(guān)行為時(shí),過(guò)高或過(guò)低的時(shí)長(zhǎng)為異常值,假定>=10 ms 和 <=10000000 ms 的閱讀行為有效行為。
select date, itemid, count(itemid) as rec, sum(isexposure) as exposure, sum(case when duration>=10 and duration<10000000 then isread else 0 end) as click, sum(case when duration>=10 and duration<10000000 then duration else 0 end)/1000 as read_time from all_user_active_info ……
栗子3:記錄用戶點(diǎn)擊歷史時(shí),排除停留時(shí)長(zhǎng)<=1s的點(diǎn)擊。
排除虛假點(diǎn)擊,讓記錄的用戶數(shù)據(jù)更貼近用戶的真實(shí)意圖,提高推薦策略的準(zhǔn)確性。
其他數(shù)據(jù)分析重在思維,可能有人會(huì)問(wèn)“我需要學(xué)習(xí)獲取數(shù)據(jù)、分析數(shù)據(jù)的工具技能嗎”?
如果你在UC、騰訊這類(lèi)大廠工作,一群兢兢業(yè)業(yè)的BI工程師會(huì)將苦澀難懂的數(shù)據(jù)可視化,你只要懂得提需求+善用“篩選”功能即可得到你想要的數(shù)據(jù);
如果你在中小公司工作,Excel要玩得溜的同時(shí),學(xué)點(diǎn)SQL和Python總沒(méi)錯(cuò),不然你可能會(huì)面臨“取一個(gè)數(shù)據(jù)要排期一兩周”的尷尬。
學(xué)習(xí)一些基礎(chǔ)的工具技能,例如在Python嘗試用pearsonr(x, y)分析各項(xiàng)指標(biāo)的相關(guān)性,用SQL percentile(BIGINT col, p)引發(fā)對(duì)不同分位點(diǎn)的思考,對(duì)思維益處多多且效率提高不少(Skill:Excel->SQL->Python)。做一個(gè)數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品汪,如獲武林秘訣。
結(jié)語(yǔ)Accenture的首席科學(xué)家肖爾·斯瓦米納坦說(shuō):“科學(xué)是純粹經(jīng)驗(yàn)主義和不帶偏見(jiàn)的,但是科學(xué)家不是??茖W(xué)家是客觀和機(jī)械的,但是科學(xué)家不是??茖W(xué)是客觀和機(jī)械的,但是它同樣重視那些有創(chuàng)造力、直觀思考、能夠轉(zhuǎn)變觀念的科學(xué)家?!?/p>
注重?cái)?shù)據(jù)善用數(shù)據(jù)的同時(shí),避免唯數(shù)據(jù)論,畢竟它是驗(yàn)證直覺(jué)、提高效率少走彎路的手段而已。
在互聯(lián)網(wǎng)+時(shí)代,“你的用戶用每次點(diǎn)擊、瀏覽、喜歡、分享和購(gòu)買(mǎi)都會(huì)留下一條灑滿數(shù)字面包屑的軌跡,這條軌跡從他們第一次聽(tīng)說(shuō)你開(kāi)始,到永遠(yuǎn)流失那天結(jié)束”。
突然覺(jué)得生活在這個(gè)時(shí)代從事著互聯(lián)網(wǎng)工作(推薦產(chǎn)品+數(shù)據(jù)分析)很幸福,“熟悉的陌生人”的無(wú)聲交流,讓事情一點(diǎn)點(diǎn)變好,就暫且拋開(kāi)數(shù)據(jù)泄露數(shù)據(jù)利用這種惱人的話題吧。
備注:部分引用來(lái)自[美]埃里克·萊斯 編著的《精益數(shù)據(jù)分析》,進(jìn)階級(jí)的數(shù)據(jù)分析推薦閱讀。
本文由 @張小喵Miu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。