大家好!感謝主辦方邀請,我今天非常高興,因?yàn)槲胰ツ暝谶@兒給大家做了一次分享,去年的時(shí)候沒有沈浩老師,今天我一定要當(dāng)面認(rèn)識(shí)一下沈浩老師。
我今天給大家分享的主題是大數(shù)據(jù)分析與商業(yè)預(yù)測,可能是比較少的,我主要是從大數(shù)據(jù)的角度,而不是市場研究的角度來給大家講一下如何做商業(yè)分析和商業(yè)預(yù)測。主要有三個(gè)方面的內(nèi)容,第一方面是數(shù)據(jù)挖掘是如何驅(qū)動(dòng)商業(yè)價(jià)值的,然后給大家深入分析兩個(gè)案例,一個(gè)是我們給某一個(gè)煙草企業(yè)做的,另外一個(gè)是制造企業(yè)的精準(zhǔn)案例的分析。
我們說大數(shù)據(jù)的核心其實(shí)是預(yù)測,因?yàn)槲覀兝么髷?shù)據(jù)做分析,其實(shí)有四個(gè)層次,一個(gè)最淺的層次,是描述性的分析,我們主要說這件事是什么,我的消費(fèi)者是什么樣的,再往上一個(gè)層次我們叫解釋性的分析,也就是說我要知道這是為什么,為什么我的銷量不好,為什么A版本的素材會(huì)比B版本的好。再往上一層是預(yù)測性的分析,比如說我預(yù)測一下明年的銷量是多少,我預(yù)測一下某一個(gè)省明年有多少電商企業(yè),預(yù)測一下明年的降水量如何影響農(nóng)作物的產(chǎn)出。再往上就是比較難的決策性的分析,我面對這個(gè)情況我應(yīng)該怎么做,我應(yīng)該如何定價(jià),我應(yīng)該發(fā)放多少面額的優(yōu)惠券。我們認(rèn)為做得比較多的是預(yù)測一下會(huì)發(fā)生什么,上面有決策性的,下面有描述性的,我們用大數(shù)據(jù)做有廣泛的數(shù)據(jù)源的采集,有消費(fèi)者的數(shù)據(jù),有線上,有線下,我們有第三方的抓取等等,我們把多樣的數(shù)據(jù)會(huì)聚到一起,進(jìn)行挖掘,利用統(tǒng)計(jì)模型、計(jì)算模型去做交叉比對。
去年我分享的是大小數(shù)據(jù)的融合,如何把大數(shù)據(jù)和小數(shù)據(jù)調(diào)研的方式融合起來,我們今年發(fā)現(xiàn)越來越多的廣告主、客戶用到更多大數(shù)據(jù)的量化分析。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)有一些差異,這個(gè)已經(jīng)被廣泛地提到過了。首先是數(shù)據(jù)源,大數(shù)據(jù)是比較多種的數(shù)據(jù)源,傳統(tǒng)數(shù)據(jù)是比較單一,我們在大數(shù)據(jù)要幫助企業(yè)打通一方數(shù)據(jù),二方是官方微博、官方微信的數(shù)據(jù),比如說這個(gè)人在王府井百貨里是如何逛的。包括線上數(shù)據(jù)、門店數(shù)據(jù)、維修數(shù)據(jù),大數(shù)據(jù)分析的一個(gè)普遍特征就是多種數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)比較偏單一,銷售部可能就分析銷售數(shù)據(jù),營銷就是分析營銷數(shù)據(jù),服務(wù)就分析服務(wù)的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)我們以非結(jié)構(gòu)化數(shù)據(jù)為主,這里面有圖象、影音的數(shù)據(jù),小數(shù)據(jù)就是結(jié)構(gòu)化為主,另外就是結(jié)構(gòu)很清晰的數(shù)據(jù)。從樣本來看,大數(shù)據(jù)處理可以不用抽樣,可以全樣本做。從傳統(tǒng)數(shù)據(jù)來看,因?yàn)槲覀兊姆治瞿芰Α④浖哪芰τ邢?,我們大概是用隨機(jī)抽樣去代表總體的一個(gè)分布。傳統(tǒng)的數(shù)據(jù)有一個(gè)好處就是它非常干凈,我可以剔除掉我所有不想研究的因素,只研究X對Y的影響,這是小數(shù)據(jù)的優(yōu)勢。大數(shù)據(jù)比較關(guān)注的是關(guān)聯(lián)關(guān)系,其實(shí)也是它的一個(gè)劣勢,因?yàn)檫@里面的數(shù)據(jù)太多、太復(fù)雜,變量太寬,我無法準(zhǔn)確地研究某兩個(gè)因素之間的因果關(guān)系,這是小數(shù)據(jù)對大數(shù)據(jù)的互補(bǔ)。從時(shí)效上來說,大數(shù)據(jù)的實(shí)時(shí)性要求比較高,比如說在線推送,互聯(lián)網(wǎng)廣告等。傳統(tǒng)數(shù)據(jù)離線做數(shù)據(jù)分析比較多,這是一些差異。
我們可以看到數(shù)據(jù)可視化的應(yīng)用。AI是不太需要人工干預(yù),機(jī)器可以自動(dòng)地推演、迭代算法。另外一個(gè)就是BI,就是商務(wù)智能,營銷能否完全被機(jī)器替代,我們覺得應(yīng)該不會(huì)。BI里有很多營銷相關(guān)的東西,定價(jià)、促銷、客服等和經(jīng)驗(yàn)相關(guān)的工作,是不可以被AI完全替代的。底層的分布式系統(tǒng)存儲(chǔ)中我列了一些我們用的比較多的工具。
接下來給大家做一個(gè)分析是我們的大數(shù)據(jù)分析平臺(tái),這一頁我想給大家講這么一個(gè)理念,在傳統(tǒng)的數(shù)據(jù)分析的時(shí)代,我可能招一兩個(gè)數(shù)據(jù)分析人員,他會(huì)用SPSS可能就能把我的數(shù)據(jù)庫進(jìn)行一個(gè)很好的分析了。但是在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)分析已經(jīng)變成了結(jié)構(gòu)化、體系化的事情。我們有數(shù)據(jù)工程師,有算法科學(xué)家,有優(yōu)化科學(xué)家,有商業(yè)分析師、運(yùn)營分析師,有可視化工程師,我們可以想像在大數(shù)據(jù)的時(shí)代,基本上沒有一個(gè)人能橫跨這七層的結(jié)構(gòu)去做一個(gè)大數(shù)據(jù)的分析,當(dāng)然有沈浩老師這樣的數(shù)據(jù)科學(xué)家在,但是數(shù)據(jù)科學(xué)家是很少的。
在大數(shù)據(jù)分析的領(lǐng)域,首先要做需求層的數(shù)據(jù)設(shè)計(jì)和業(yè)務(wù)拆解。比如我想做個(gè)性化的定價(jià),我首先要跟他們溝通什么樣的是個(gè)性化的定價(jià),你要做到多大的粒度?是個(gè)體的粒度還是群體的粒度,首先你要把業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)問題。另外我要做模型的選型,我要用統(tǒng)計(jì)學(xué)的模型做這件事情,還是要用計(jì)算機(jī)學(xué)的算法,還是優(yōu)化學(xué)的算法。再往下,比如說我選定了,我要做決策樹,有很多軟件可以做,我到底要用哪一個(gè)軟件去做,這取決于我的數(shù)據(jù)情況。比如說我都選定了,我如果想用R去求解這個(gè)問題的話下一步就到了接口層,我是要和哪一個(gè)底層去對接,也就是說和不同的地層數(shù)據(jù)庫的交互會(huì)用到不同的數(shù)據(jù)分析的接口。再往下就是數(shù)據(jù)層在哪?我們會(huì)有一些傳統(tǒng)的數(shù)據(jù)庫,現(xiàn)在比較多的異軍突起的是“圖數(shù)據(jù)庫”,現(xiàn)在存在著很多關(guān)系型的數(shù)據(jù),人跟人的關(guān)系、人跟商品的關(guān)系、商品跟商品的關(guān)系,以圖的形式存儲(chǔ)在一起。再往下就是數(shù)據(jù)文件的系統(tǒng)層,比如說Hadoop里的數(shù)據(jù),Spark里的數(shù)據(jù)。大數(shù)據(jù)里你需要不同的人員,需要運(yùn)維工程師,需要運(yùn)營工程師,需要頂層的格式化,我們一般都是流水作業(yè),一步一步地做。
今天我主要跟大家講商業(yè)預(yù)測、商業(yè)分析,它其實(shí)是從消費(fèi)者洞察、產(chǎn)品洞察和品牌洞察這三部分入手,去支撐企業(yè)這四個(gè)非常重要的業(yè)務(wù)流程的分析,包括產(chǎn)品的分析、銷售、營銷和服務(wù)。這里面每一個(gè)維度都會(huì)解決企業(yè)的核心問題,比如說產(chǎn)品,誰是我的客戶,我應(yīng)該出什么新品,什么時(shí)候推廣,這里面都是可以用量化的方式解決。銷售,我們今天談得比較多的營銷,我應(yīng)該做什么樣的營銷方案,我的目標(biāo)群體是什么樣的,包括我的客戶、售后,這些都是可以用數(shù)據(jù)做量化分析的。
我們發(fā)現(xiàn)每一個(gè)維度、每一個(gè)方面,企業(yè)最關(guān)心的問題是什么,產(chǎn)品最關(guān)心的是我的迭代創(chuàng)新,什么時(shí)候推出新產(chǎn)品,退出什么樣的新產(chǎn)品,銷售很簡單,如何提升銷售收入,營銷主要關(guān)注的是營銷效果,我投的錢都投到哪些渠道,哪些渠道效果好,我應(yīng)該傾斜我的營銷預(yù)算到哪個(gè)遇到。服務(wù)就是售后比較關(guān)注用戶體驗(yàn)的提升,售后的方面,其實(shí)也在做很多有意思的研究,比如說我們之前和一家保險(xiǎn)公司聊,他想通過語音數(shù)據(jù)的分析,去看消費(fèi)者的情緒,這里面就要有語音的情緒標(biāo)注,以及語音轉(zhuǎn)文本之后的文本分析,這個(gè)語音可以看到消費(fèi)者打電話抱怨的情緒,在你的服務(wù)人員服務(wù)的五分鐘之后有沒有好轉(zhuǎn),同時(shí)你把語音數(shù)據(jù)的分析,和他對這個(gè)服務(wù)人員的評價(jià)掛鉤之后就非常有意思。另外還做了很多再營銷,什么樣的客戶應(yīng)該推薦什么樣的產(chǎn)品,能提升我再營銷的效果。核心都是企業(yè)的核心競爭力。企業(yè)關(guān)注的就是這四方面。
接下來給大家講兩個(gè)真實(shí)的案例,我們做的數(shù)據(jù)分析,或者說量化的數(shù)量分析。第一個(gè)是我們給某一個(gè)煙草企業(yè)做搭售的分析。煙草是一個(gè)壟斷行業(yè),但是它又分區(qū)域,比如說北京有中南海,云南中煙有云煙,上海有中華,大家可以想一想。在各省煙草行業(yè)有一個(gè)廠商,但是他不能直接去賣,他要通過當(dāng)?shù)氐牧闶鄄咳ベu,他就要研究零售部有沒有存在一些搭售的行為,比如說河南有沒有你在賣外省煙的時(shí)候,大量地搭售你本省的煙。在做之前,首先要跟大家分享的是千萬不要馬上拿數(shù)據(jù),馬上做分析,馬上進(jìn)入建模的過程,這些都是為你以后埋的坑,一定要先和業(yè)務(wù)人員了解他到底想要了解什么問題,他到底想要分析什么,然后把這些轉(zhuǎn)化成你想要的數(shù)據(jù),把數(shù)據(jù)提取出來。第二在建模前一定要做大量的描述性的分析,每一個(gè)消費(fèi)者的購買周期是什么樣,這樣才能確定在建模的時(shí)候把多長時(shí)間定為一次購買,而不是拍腦袋定。包括我到底要分析幾種煙之間的關(guān)聯(lián)關(guān)系,這也是要數(shù)據(jù)說話的。是三種比較合適,還是四種,還七種比較合適,最后我們經(jīng)過數(shù)據(jù)分析選擇的是四種。算法流程就不給大家展開了,我們會(huì)用用戶的購買數(shù)據(jù),關(guān)聯(lián)關(guān)系的挖掘,整理出數(shù)據(jù)的規(guī)則,用行業(yè)的知識(shí),刪除偽規(guī)則,得出規(guī)則。我們找到了搭售省產(chǎn)煙的外地?zé)熡卸啻?。在?jīng)過一輪商業(yè)分析之后,我們把它分成可能性高中低。我們可以看到,10%的C類煙、B類煙和H類煙,都會(huì)有搭售省產(chǎn)煙的行為,它搭售的可能性比較高。我們把這個(gè)結(jié)果提供給企業(yè)之后,他就可以對零售部進(jìn)行監(jiān)測。
第二個(gè)案例,給大家簡單分析一下我們某一個(gè)制造企業(yè)的精準(zhǔn)營銷案例。在精準(zhǔn)營銷的領(lǐng)域,現(xiàn)在有一些問題,第一個(gè)是消費(fèi)者洞察和產(chǎn)品洞察不足,第二營銷的過程可見性確實(shí),第三個(gè)是嚴(yán)重以來渠道商數(shù)據(jù)和平臺(tái)數(shù)據(jù)。企業(yè)對營銷的掌控度會(huì)越來越高,很多都在從自己的設(shè)計(jì)到全案投放的東西。這里我們幫他解決什么呢?首先做用戶洞察和產(chǎn)品洞察,第二個(gè)是做投放的數(shù)據(jù)追蹤,第三是把他的可用數(shù)據(jù)傳回到他的平臺(tái)上。我們拿了他的種子數(shù)據(jù),就是真實(shí)的一方的購買人群,我們數(shù)據(jù)拿到之后,和我們的全網(wǎng)數(shù)據(jù)做匹配,我們?yōu)槭裁纯梢宰鲞@件事情,就是我們覆蓋了兩千多家的電商媒體,大概有5.5億的互聯(lián)網(wǎng)消費(fèi)者數(shù)據(jù),每天的增量是15個(gè)TB級,我們存在全球大概一千多家的服務(wù)器,所以我們擁有大量的消費(fèi)者的行為數(shù)據(jù),而不是說我抓取下來的數(shù)據(jù),抓取數(shù)據(jù)的價(jià)值非常低。比如說我通過第三方網(wǎng)頁爬取也可以獲得天貓數(shù)據(jù),也可以獲得銷售數(shù)據(jù)。我們的數(shù)據(jù)是直接的行為數(shù)據(jù),消費(fèi)者對于某一個(gè)產(chǎn)品的點(diǎn)擊、瀏覽、加購物車、看了多長時(shí)間,有沒有購買,這些數(shù)據(jù)我們都有,我們把它的某一個(gè)生產(chǎn)電腦的企業(yè),你給了我一萬個(gè)種子人群,我告訴你,這一萬個(gè)人除了買了你的東西,還在全網(wǎng)看了你的什么競品,這是客觀地告訴企業(yè)你的用戶畫像是什么樣。第二個(gè)部分是投放,第三個(gè)部分是回流數(shù)據(jù)做分析。我們在這欄里用了用戶行為數(shù)據(jù)是1.3億條。畫像數(shù)據(jù)就是我們?nèi)W(wǎng)數(shù)據(jù),幫他做瀏覽某一個(gè)品牌和競品電腦的用戶,大概359萬人,這里面愛他的潛在消費(fèi)者群體,它的所有的性別、年齡、偏好都是從我們的全網(wǎng)數(shù)據(jù)里提取的。當(dāng)然我們也會(huì)用輔助的數(shù)據(jù),天貓、京東的數(shù)據(jù),一共有4.7萬條數(shù)據(jù)。比如產(chǎn)品的評論是什么樣的,產(chǎn)品型號(hào)是什么樣的,頁面上都可以抓,它有沒有消費(fèi)者,這個(gè)是非常有價(jià)值的。第四個(gè)就是它提供的投放效果的數(shù)據(jù)。
首先我們把種子用戶做擴(kuò)散??蛻粲脩舢嬒穹治隼锩嬗懈鞣N各樣的維度,幫他更好地了解用戶群體,幫他做配置投放的規(guī)則。他有大概3家DSP的數(shù)據(jù),我們做了數(shù)據(jù)的匹配,我們和他的DSP都是百分之八十。有一個(gè)非常有意思的是這三家DSP匹配的重合率只有5%,不同的DSP人群真的不一樣,你選任何一家,哪怕這家很大,都可能不會(huì)照顧到你整個(gè)的群體,所以建議還是多選幾家。我們做競品的分析,你這兩款產(chǎn)品相對的競品有哪些,你所有的用戶的行為,看了你的A產(chǎn)品3次,看了你的B產(chǎn)品9次,看了你的競品大概幾次,我們就可以做看了又看的數(shù)量分析。瀏覽的行為分析,幫他找到潛在的競品都有哪些,然后我們做聚類的分析??梢钥吹较M(fèi)者關(guān)注3C筆記本分為商務(wù)、游戲、學(xué)生,有一些競品是他的產(chǎn)品人員都沒有想到的,消費(fèi)者瀏覽行為表示這是你的潛在的競品,為什么?因?yàn)槟愕南M(fèi)者群體同時(shí)看了你的產(chǎn)品,和其他這些產(chǎn)品。他就會(huì)根據(jù)這些行為去定制營銷素材。為什么我用瀏覽,不用購買呢?因?yàn)楹苌儆腥藭?huì)同時(shí)購買幾個(gè)電腦,比如說我買了一個(gè)華為的,又買了一個(gè)TCL的,又買了一個(gè)聯(lián)想的,但是瀏覽是體現(xiàn)他要去選擇、要去購買。DSP會(huì)去做投放,內(nèi)部有一些郵件短信去做投放,運(yùn)營的事情是營銷里最需要人工的,這部分其實(shí)是大數(shù)據(jù)分析比較少關(guān)注到的地方。投放了之后,我們都可以去對比三家DSP的效果。我們可以看到,他們的曝光人群占比,到站人群占比怎么樣。我們看到A的移動(dòng)端做得不錯(cuò),關(guān)注度非常高,到站率也很高,相比之下PC端的不太好。數(shù)據(jù)如何回流到第一方的DSP去,包括我們發(fā)現(xiàn)渠道的浪費(fèi)問題,也就是說你從頻次的控制上來看,我們發(fā)現(xiàn)一到四次就可以了,不用太多。你的三個(gè)DSP的重合有8.3%左右曝光的重合,這個(gè)8.3%其實(shí)就是你投重了的這部分人。投重的這部分人站A渠道的13%,占B渠道的17%,你就可以降低這部分人的投放,去優(yōu)化你的營銷的預(yù)算。我們也可以做引流的轉(zhuǎn)化分析,看看哪個(gè)渠道的轉(zhuǎn)化率低,哪個(gè)渠道的流量來源質(zhì)量好,其實(shí)是會(huì)有一些渠道之間的協(xié)同作用。
最后整體框架我想說是一個(gè)結(jié)構(gòu)化的東西,很多的分析都是要在系統(tǒng)里做的。這里面會(huì)有數(shù)據(jù)源的打通,到大數(shù)據(jù)的采集、清洗、標(biāo)準(zhǔn)化,我們的團(tuán)隊(duì)拿到的數(shù)據(jù)已經(jīng)比較干凈了,這些數(shù)據(jù)在前期數(shù)據(jù)工程師已經(jīng)幫我們做好的解析和清洗。
最后想跟大家分享的,第一我們做數(shù)據(jù)分析的重要點(diǎn)是一定要從企業(yè)的需求出發(fā)。很多技術(shù)型人非常準(zhǔn)求技術(shù)的復(fù)雜度,但事實(shí)上線性回歸和決策樹解決了大部分的問題。第二點(diǎn),好數(shù)據(jù)勝過復(fù)雜模型,數(shù)據(jù)源非常重要,數(shù)據(jù)源直接決定了你能否解釋問題,不要追求模型的復(fù)雜性。數(shù)據(jù)源的復(fù)雜性也非常重要,你需要有大數(shù)據(jù)的分析,你需要有小數(shù)據(jù),百分點(diǎn)其實(shí)是大數(shù)據(jù)的行為數(shù)據(jù),我們有一個(gè)很好的合作伙伴,聚思,他們在互聯(lián)網(wǎng)上運(yùn)營了一個(gè)幾百萬的群體,我們可以做大小數(shù)據(jù)的融合,一方面我有這些人的行為數(shù)據(jù),另一方面,我通過聚思收集的問卷,直接反映消費(fèi)者對品牌的態(tài)度,還有心理上的考量,這兩個(gè)數(shù)據(jù)融合起來才是完整的數(shù)據(jù),數(shù)據(jù)源非常重要。第三,數(shù)據(jù)分析不是一次性的事情,它需要不斷地迭代,不斷地循環(huán),不斷找到你這次分析的問題,通過增加分析如何解決。這三個(gè)問題是我認(rèn)為最重要的三個(gè)問題。
今天因?yàn)闀r(shí)間沒有太多,我主要給大家講這些。歡迎大家關(guān)注我們的官方微信號(hào)和我個(gè)人的微信號(hào),有什么問題可以跟我交流。我們百分點(diǎn)的微信號(hào)會(huì)做定期的文章分享,包括商業(yè)的分析,包括行業(yè)的分析。我們剛推出的醫(yī)藥行業(yè)的數(shù)據(jù),在線醫(yī)藥電商的用戶分析,以及五大類病,比如說心腦血管、腫瘤等等的行業(yè)報(bào)告,大家回顧行業(yè)報(bào)告的話,可以從官方微信號(hào)上下載。我今天給大家分享這些,謝謝大家!
|