互聯網的發(fā)展帶來了海量的廉價數據,也引發(fā)了關于大數據未來商業(yè)應用前景的熱烈討論。然而,對于大數據的討論很多都流于概念的炒作,并沒有深入到數據的本質,基于大數據的互聯網營銷與品牌管理,也遠不像人們想象的那么容易。
隨著科技和互聯網的發(fā)展,我們現在擁有越來越多的數據。互聯網是個低成本的連接,大家可以在互聯網上自發(fā)的產生內容、展開互動,所以互聯網上的數據流動性非常強。
當我們看數據的時候,不僅要考慮數據量的豐富程度,同時也要考慮數據的流動性和新穎程度。
互聯網是個交互的載體,所以我們通過數據可以發(fā)現很多可能的商業(yè)應用前景?,F在對于大數據的討論有很多,但是我想說的一點是,很多有關大數據的討論僅是概念的炒作,并沒有真正深入到數據的本質。
所以在開始之前,我想先舉幾個反例,而這幾個例子在很多書籍里面是作為經典的開篇案例來被論述的。
從幾個“經典”案例談起
谷歌在2009年推出了一款預測流感爆發(fā)的數據產品,原理是如果某個地方對流感相關的關鍵詞的搜索量如果突然增加,那么這里就可能爆發(fā)流感。2014年,一些科學家檢索了過去5年的預測結果,發(fā)現其中92%都是錯的,而且很多大的流感并沒有預測到。
為什么會出現這樣高的錯誤率?
因為流感的爆發(fā)是很復雜的事,與人口密度、人口流動、氣溫、飲食、衛(wèi)生條件等很多因素相關,而關鍵詞的搜索頻率提供的信息極其有限,用來預測很有可能出錯。
還有一個案例很多人聽過,啤酒與尿布的故事,說美國的爸爸給小孩買尿布的時候會順便給自己買啤酒。但是,本人實際分析多套美國超市銷售數據后從未發(fā)現這兩個品類間有顯著的相關性。所以這也只是一個噱頭。
還有很多類似的討論或者炒作,因此希望大家可以更理性的去看。
中國的大數據產業(yè)
再回頭看國內的數據產業(yè)。
雖然大數據話題已經被討論了好幾年,但實際上基于數據的變現面還是比較狹窄的,遠遠沒有我們想象當中的那么美好。
真正能用數據變現、賺錢的,大都集中在程序化廣告、精準營銷、用戶畫像領域。其它的領域還是停留在概念階段,比如我們討論很多的消費金融、大數據征信,實現的難度很大。
主要原因還是因為缺乏數據——很難有一家公司、一個機構,能把一個消費者在生活各方面的消費信息都收到,例如支付寶上的芝麻信用收集到的是你用支付寶時的交易記錄,而沒有財付通或者現金的交易信息。
所以說,在普遍缺數據的背景下,我們應該理性的回歸到數據問題本身。這其中一個很重要的原因是,數據的標準化、規(guī)?;浅ky。
一套數據對一個人可能值10塊錢,對另外一個人就可能值10萬,因為兩個人所處的角度不同,對數據的分析挖掘能力不同,提取價值的能力不同,有各種原因導致數據很難被標準化。缺乏標準就難以交易,缺乏交易就能成規(guī)模。
正確認識數據的價值
在我看來,數據沒有直接的價值,數據不等于價值,數據到價值之前還有很長的一條路要走。
“大”數據本身是個非常模糊的命題。而且,數據本身是個科技范疇內的東西,但在很多時候卻被當成概念進行炒作。
大數據的起點是業(yè)務數據化,終點是數據業(yè)務化,也就是說,最后能通過已有的數據產生新的業(yè)務點、現金流、利潤。這個過程不是一蹴而就的,大數據不是黑和白、零和一的過程。這是一個需要循序漸進、逐漸積累內功修煉的過程。
我們可以以一個金字塔的方式形容它。
首先是數據源,解決數據收集機制的問題。不同公司有不同渠道收集數據。數據收集這個事情想象空間非常大,絕對不僅限于那種比較傳統的財務數據、收銀臺的流水數據,或者GPS定位的數據,實際上可收集的數據有很多,我們應該用發(fā)散性思維去想一想,到底怎么樣收集數據。
當然最關鍵的還是要建立一套長效、低成本的數據收集機制。很多行業(yè)現在缺數據,為什么?關鍵在于沒有機制,或者說沒有跟終端市場互動的機制。如果銷售都交給渠道,那自然沒有有效的數據收集。
數據有了,還要有效的管理起來?,F在有很多云計算、云服務的平臺,就是要幫你解決管理問題。但是我們需要明白一點,他們只負責你數據的存儲、計算等,不負責給你收集數據,也不負責給你分析數據、挖掘數據。他們負責的是基礎設施,那之上的數據業(yè)務還得公司自己打造。
數據分析能力:大數據的核心競爭力
很多時候數據的用處是完全靠你自己分析出來的,這套數據有沒有用很大情況下取決于你分析的能力怎么樣。所以,分析能力、挖掘能力、建模能力,是一個核心競爭力。
那具體來講,我們?yōu)槭裁匆治鰯祿?
第一,大數據時代實際上是一個大噪音時代。
大家不要把大數據想得太美好,特別是當你真要去做數據工作的時候。小數據時代,數據不多,能看出有趨勢就有趨勢,沒趨勢就沒趨勢。但是,數據量非常大的時候,當你打開一套數據的時候,迎面而來的可能全是噪音。
數據越大,噪音越大,也越考驗你的數據挖掘和分析能力。這個能力既是你的技術能力,同時也是你對市場的理解能力。要把兩者有效地結合起來,才有可能分析得好,預測得好。
第二,大數據不等于全部數據。
前幾年剛剛開始有大數據這個概念的時候,市場上有一個非常錯誤的觀點,就是大數據時代我們不需要考慮抽樣了。這是非常錯誤的。因為再大的數據也還是一個樣本,所以你一定需要懂抽樣理論,了解在當前的觀察樣本情況下,會對你的業(yè)務結果產生什么樣的影響。
第三,數據的外生性和內生性。
數據本身并不一定能表達因果關系,很多時候它只是個相關性。相關性不影響預測,但影響決策。二者之間的關系需要謹慎把握。
案例:美高梅賭場的精準營銷
舉一個賭場的例子。有一個大型的博彩集團叫做美高梅集團,在澳門、拉斯維加斯都有。
做賭場生意,關鍵是什么?人流,因為賠率相對比較穩(wěn)定,只要有足夠的人流量,賭場賺錢。所以這個生意跟零售業(yè)很像,沃爾瑪做的也是人流量的生意。
對于賭場來講,他們的數據分析里面非常關鍵的一點就是引流和降低流失率,盡量提高客戶留存率。
賭博行業(yè)是一個市場競爭非常激烈的行業(yè)。開賭場的人太多了,像拉斯維加斯那條大街上面,很多家賭場,大大小小、金碧輝煌,賭場為了能夠更好地留住客戶,一般都不只是有賭場,還有餐飲、酒店、演出、購物等一站式服務。當然其中肯定是賭博的利潤最大了,所以為了爭取客戶、留存客戶,精準營銷是非常重要的。
賭場關注精準營銷這么多年,他們現在要做的一個工作是,把原有的精準營銷模型更進一步地去優(yōu)化。其中很重要的一點是,我需要去量化我的促銷力度跟賭博總消費之間的關系。
這個問題其實很復雜。原因有:
第一,數據很多很雜很亂。
第二,促銷的結果有時候因果是模糊的。
第三,賭客來賭場消費,他的決策過程是很復雜的。我選擇你家賭場,可能不是因為你家賭場有多好,可能是因為你家的飯好吃,可能是因為你家的酒店好住,可能是因為你家的演出好看。
還有一個非常復雜的問題是,新賭客越來越多,歷史上他們沒有出現過,怎么給他們做精準營銷?
賭場使用的模型是很經典的針對人流量生意的數據模型,叫RFM模型(Recency-Frequency-Monetary)。
Recency就是最近一次消費的時間,時間越近你的價值越高;Frequency也就是消費頻率;Monetary就是你花的錢。但是你也可以看出,這樣也有一個問題,就是你沒有辦法區(qū)分天性豪賭和促銷敏感的人。
所以,他們的新模型就要解決這些類似的問題。那具體怎么解決?
剛才我們說到內生性,實際上它就需要采取一種所謂的“差別中的差別”(difference in differences)的方法。
就是說,我需要在RFM分數類似的這些人里面再去看你們之間的差別。因為只有RFM分數相同的人,才有比較性。同時使用協同過濾等技術來解決新顧客問題,等等。
現在,我們有一個新的模型,但是萬一最后用起來不好呢?
這個時候要去做隨機實驗,將部分顧客隨機分三組,分別使用新模型、老模型、無模型進行精準營銷。然后對比一下,哪個組的ROI(轉化率)更高,才能驗證新模型到底好不好。
最后發(fā)現,的確是新模型更好,所以在2015年加上了一個新模型以后,他營銷的ROI提高了58%。
我們講數據分析、數據挖掘、數據建模,實際上我們目的最終不是數據,而是希望通過數據理解背后產生數據的東西。
是什么產生了數據?人產生了數據。
我們總是希望通過數據,找一下背后人的行為和特征,然后基于這些去做數據的變現。
所以,數據分析的邏輯不是以數據預測數據,而是通過數據預測人,人再來產生新數據。我們必須關注產生數據的人,這才是數據分析的本質。
任何的數據模型,都應該考慮具體的業(yè)務場景和消費者的微觀行為。好的大數據模型,一定是有好的技術,同時里面融入非常好的商業(yè)邏輯和經驗,這絕對不是個IT程序員能簡單解決的。
案例:社交網絡的大數據征信
最后討論一個金融消費品的數據模型:社交網絡的大數據征信。
就是你希望通過在社交網絡上給一個人的信用打個分數。這個很重要,因為現在要講消費信貸、普惠金融,必須要對一個人的信用情況做一個判斷,做個人風控,但是中國之前的個人信用評價系統相對比較簡單和落后。
現在我們希望跳出傳統的金融數據,拿到一些其它的數據。這個人的人際關系、朋友圈、心理狀態(tài)、生活狀態(tài),可能對他的信用都是個很好的反映。那這些東西從哪來呢?現在是社交網絡時代,很有可能都是從社交網絡而來。所以,現在就有個很熱門的話題——社交網絡的征信。
這必然會涉及到社交網絡的征信模型。這里我們更多的不是要分析行業(yè),而是怎么樣去社交網絡上進行建立征信的數據模型。
社交網絡是特別復雜的,所以說,你要去社交網絡上給人的信用建立一個數學模型,首先得給社交網絡建立一個模型。
首先,你必須要能夠處理社交網絡的噪聲,社交網絡的噪聲是非常大的。
另外,假設有一天大規(guī)模實現了社交網絡征信,大家交朋友的方式也會隨之改變,這是內生變化。我們也得把這個可能的內生變化加入到數據模型里面去,讓整個過程自動化。
要給社交網絡建立一個模型,我們就要想,人為什么要建立關系?人跟人之間為什么會形成社交關系?因為人和人之間的相似性。
我們用特定的統計模型模擬人和人的相似性。先有了這個社交網絡的模型,我們再去建征信的模型(課上有詳細討論,此處省略)。我們要考慮你的信用到底怎么樣?以及我對你的信用的判斷,準確率怎么樣?比如說我判斷你信用非常好,但是我知道這個判斷的結果的誤差很大,那這樣的結果可能用處也不大,我需要的是一個誤差比較小的判斷。
如果我們采取了大規(guī)模的社交征信,實際上是放大了人跟人之間的差異。原先我可能跟這個人會成為朋友的,但現在因為要征信了,我得謹慎了,所以我就不跟他成為朋友了。在放大了人跟人之間的差異的情況下,我們再去看最后的征信結果就會發(fā)現,這其實是個正循環(huán)(課上有詳細討論,此處省略)。一旦人交友更謹慎了,實際上數據質量是更高了。
社交媒體數據征信建模在美國已經實施,他們用的模型就是按這樣的思路來的。首先寫一個社交網絡的模型,然后再寫一個征信的模型,同時要考慮到產生征信以后,對社交結構產生的影響。
你至少要把這三點寫進去,才完成了一個基礎性的數據工作,這里面當然還有很多問題我們可以去建立模型,比如弄虛作假、違約率、借款利息等等,所以這里面還有更多的拓展可以做。
最終我們想強調的一點是,數據的挖掘、建模與分析,是大數據營銷過程中的核心競爭力。這里面牽涉到非常高深的技術,而且也不能缺少對商業(yè)的洞察。這一切最后都落在既懂數據,又懂業(yè)務的數據數據BI科學家肩上。而當下的中國很欠缺這方面的人才。
更多資訊請關注微信公眾號mbadegree!