亚洲aⅴ男人的天堂在线观看,玩肥熟老妇bbw视频,新国产三级在线观看播放,天堂资源中文最新版在线一区,少妇脱了内裤在客厅被

?
市場研究協(xié)會(huì) 會(huì)員登錄 | 入會(huì)申請(qǐng)
  會(huì)議交流
會(huì)議交流
專題報(bào)道
行業(yè)活動(dòng)
  當(dāng)前位置:網(wǎng)站首頁 > 會(huì)議交流 > 專題報(bào)道 > 大數(shù)據(jù)時(shí)代的數(shù)據(jù)價(jià)值與消費(fèi)者洞察
大數(shù)據(jù)時(shí)代的數(shù)據(jù)價(jià)值與消費(fèi)者洞察
發(fā)布時(shí)間:2016-11-08 14:32:38  訪問量:3852



每次都是這樣到最后的時(shí)候,組委會(huì)說要不沈老師壓軸吧,我說行。其實(shí)說得高大上一點(diǎn)叫做堅(jiān)守,看到這么多還堅(jiān)守到最后,我們的市場研究在堅(jiān)守,當(dāng)然在堅(jiān)守的同時(shí)應(yīng)該不斷地創(chuàng)新,所以我今天從大數(shù)據(jù)的視角來看一看我們?cè)撊绾蝿?chuàng)新。

今天我的演講希望能夠給大家提供四個(gè)維度的理解,第一,就是什么是大數(shù)據(jù),跟我們傳統(tǒng)的市場研究有什么不同。第二,我們用什么樣的工具、方法去分析和挖掘大數(shù)據(jù)。第三,從大數(shù)據(jù)的視角能夠?yàn)槲覀兊南M(fèi)者帶來什么新的洞察。當(dāng)然我也希望我們從大數(shù)據(jù)的角度能夠帶來更多的創(chuàng)新。大數(shù)據(jù)讓我們瞬間就感知到我們所理解的事物,不需要你講,我就理解了。如果想象一下這個(gè)屏幕實(shí)時(shí)顯示的是滴滴打車,那么我們就看到在這樣一個(gè)滴滴打車過程中,整個(gè)北京市的交通會(huì)是什么樣呢?如果我能夠加上控制系統(tǒng),實(shí)際上這就涉及到我們所提到的智能交通,從這個(gè)角度來講,我今天演講的題目就不重要了。我每次演講都會(huì)說這樣一句話,這是一本叫《爆發(fā)》和《大數(shù)據(jù)時(shí)代》,這兩本書出版的時(shí)候,都讓我寫推薦語,我記得我寫這是一個(gè)令人興奮的時(shí)代,也是一個(gè)大數(shù)據(jù)的時(shí)代,數(shù)據(jù)科學(xué)讓我們?cè)絹碓蕉嗟貜臄?shù)據(jù)終觀察到人類社會(huì)的復(fù)雜行為模式。以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是數(shù)據(jù)的分析和應(yīng)用。人類行為的93%是可預(yù)知的,相信這句話嗎?我更想知道的是什么叫人類。什么是人類?沈老師的利益受到傷害了,領(lǐng)導(dǎo)就會(huì)說沈浩你要顧及人民的利益,你會(huì)發(fā)現(xiàn)我不是人民了。

所以今天我說的大數(shù)據(jù)一方面讓我看到了剛才的全體,由每一個(gè)活生生個(gè)體構(gòu)成的總體,當(dāng)然我們不愿意說總體,說我們想看到的足夠大的,其實(shí)今天大數(shù)據(jù)一個(gè)很重要的特征是可以分析一個(gè)人的行為,是分析一個(gè)人的行為,我們傳統(tǒng)的市場研究幾乎不分析一個(gè)人,即使見到了姚明,我們也把他刪除掉,因?yàn)樗钱惓V怠J裁词侨祟惸??其?shí)已經(jīng)開始跑了,就是剛才它實(shí)時(shí)地顯示。什么是技術(shù)呢?今天我說了它就是一個(gè)活生生的人,如果有一個(gè)人在這兒,有一個(gè)人在這兒,請(qǐng)問這兩個(gè)人有關(guān)系嗎?有,沒有。其實(shí)還有一個(gè)人過來了,如果他跟她有關(guān)系,他跟她有關(guān)系,問這倆人有沒有關(guān)系?有。因?yàn)榕笥训呐笥褢?yīng)該是朋友,所以他們不是朋友就存在著一個(gè)鏈路聯(lián)結(jié),所以我們應(yīng)該給他們建立一個(gè)聯(lián)結(jié),這就奠定了社交媒體的基本基因。你會(huì)想沈老師他們倆什么關(guān)系?你發(fā)現(xiàn)顏色、方向都一樣,如果他愛她,他愛她,你說這倆人是什么關(guān)系?如果你知道他們關(guān)系的性質(zhì),甚至說你不知道的時(shí)候,你會(huì)把他的前女友推薦給現(xiàn)女友,有沒有這個(gè)可能?即使推薦100次,說實(shí)話,99次都可能成功,但是落實(shí)到一個(gè)人身上,也許這個(gè)人就崩潰了。就像我們經(jīng)常說預(yù)測沒有用,因?yàn)槟忝刻祛A(yù)測地震,其實(shí)99%的地震預(yù)測很準(zhǔn)確,但是99%的地震都是1、2、3,只要有一次12級(jí)、15級(jí)地震你沒有預(yù)測到,股市你預(yù)測那么準(zhǔn),每次都預(yù)測高高低低,一次崩盤你沒有預(yù)測到就完了。如果我發(fā)現(xiàn)這兒有一個(gè)人,這兒有一個(gè)人,這兒有一個(gè)人,這兒有一個(gè)人,再來一個(gè)人,再來一個(gè)人,再來一個(gè),總共八個(gè)人,他們有關(guān)系嗎?有,因?yàn)樗麄兩钤谏鐣?huì)里。但是在這個(gè)社會(huì)里,你會(huì)發(fā)現(xiàn)過去我們研究這些人,無非就是男人、女人,最后研究來、研究去,我們說了一個(gè)結(jié)論,叫一方水土養(yǎng)活一方人。所以有人問沈老師你是哪兒人?我說我是上海人,沈老師你怎么那么愛吃辣的?誰說我不吃辣,但是因?yàn)槲沂巧虾H司徒o我打了標(biāo)簽了。今天我說我是什么人呢?你可能關(guān)注我是不是VIP,但是大數(shù)據(jù)其實(shí)不是這個(gè),大數(shù)據(jù)更關(guān)心的是誰跟誰有關(guān)系。所以當(dāng)這個(gè)男孩喜歡這個(gè)女孩,這個(gè)男孩喜歡這個(gè)女孩,這個(gè)男孩喜歡這個(gè)女孩的時(shí)候,其實(shí)我們立刻就知道他們的關(guān)系很清晰,就是男孩喜歡女孩。但是一個(gè)男孩萬一喜歡兩個(gè)女孩呢?這時(shí)候我們會(huì)發(fā)現(xiàn),這種關(guān)系如果非?;靵y的話,其實(shí)你是搞不清他們的關(guān)系的。但是我們可以分析出他們的關(guān)系,就是男孩喜歡女孩。但是女孩也可以主動(dòng)喜歡男孩,萬一一個(gè)女孩主動(dòng)喜歡了男孩,這時(shí)候我們看到,這種關(guān)系再去分析,你會(huì)發(fā)現(xiàn)已經(jīng)不能得出結(jié)論了,沒有說男孩喜歡女孩這個(gè)所謂一般性,但是我們同時(shí)也可以立刻算出什么呢?其實(shí)你可以知道在這里邊誰是主角,他身上有數(shù),這是數(shù)據(jù),關(guān)系是數(shù)據(jù),今天我們倆吃頓飯,我@了你,我跟你通話,都是關(guān)系。從這個(gè)角度來講,我們?nèi)绾瓮诰蜿P(guān)系呢?所以我稍微多講一些,我去生成一個(gè)兩千人的關(guān)系。你會(huì)發(fā)現(xiàn)這兩千人的關(guān)系,這是一棵樹,如果你知道這是決策樹,你就知道數(shù)量便利這棵樹,其實(shí)這棵樹對(duì)來賓講一直長的是這樣的,你現(xiàn)在知道這棵樹長什么樣嗎?其實(shí)你知道它里面有邏輯,這個(gè)邏輯存在著一種內(nèi)在的規(guī)律,但是我們通過這樣的分析,我們立刻就可以知道,大家如果仔細(xì)看,這就是一個(gè)大數(shù)據(jù),這是一個(gè)兩千乘兩千的矩陣,如果我能分析兩千乘兩千,能不能分析兩萬乘兩萬呢?能不能分析兩億乘兩億呢?能不能分析70億乘70億呢?如果這里面是所謂的兩千個(gè)消費(fèi)者,你想營銷它,沒有那么多錢,只營銷得起200人,你該營銷誰?我們直接計(jì)算一下這個(gè)值,我們立刻看到在這里面你應(yīng)該營銷誰呢?都有數(shù)據(jù),只要排成序,我們都可以找到那些所謂的大V,我們并不關(guān)心他是男的女的,他所在的位置、角色、傳播關(guān)系就決定了他在社會(huì)中的地位,不要小看這一點(diǎn),其實(shí)就這樣一個(gè)簡單的算法誕生了一個(gè)非常偉大的公司,叫谷歌,因?yàn)橐粋€(gè)網(wǎng)頁的價(jià)值是由連接這個(gè)網(wǎng)頁的網(wǎng)頁決定的。今天我們能不能做到一個(gè)人的價(jià)值,是由連接這個(gè)人的人的價(jià)值決定的,所以從這里面,你跟著沈老師去刪掉幾個(gè)節(jié)點(diǎn),比如刪掉一個(gè),又刪掉一個(gè),又刪掉一個(gè),你知道我是有意刪的,在這里面我刪了幾個(gè)點(diǎn),再刪一個(gè)點(diǎn),從這里邊我們看到在這個(gè)領(lǐng)域我們?cè)俅谓Y(jié)算會(huì)是什么結(jié)果呢?大家看到什么呢?分崩離析了。想象一下,如果你想看到輿情在這樣一個(gè)網(wǎng)絡(luò)中傳播,該如何阻斷謠言,是不是有所感覺了,如何控制艾滋病的傳播也有方法,如果你想有效的傳播,是不是也要靠這些大V順利地連接在整個(gè)網(wǎng)絡(luò)中。

你說沈老師你這都是模擬,這是很重要的思想,在我沒有數(shù)據(jù)的時(shí)候,我要學(xué)會(huì)模擬,或者這樣的數(shù)據(jù)到底怎么分析,等真正來了數(shù)據(jù)的時(shí)候,我們就可以怎么樣呢?我在這兒舉一個(gè)例子,這時(shí)候我們會(huì)發(fā)現(xiàn),過去我們很難捕捉人與人之間的關(guān)系,但是今天無論是手機(jī),無論是微博,無論是微信,你會(huì)發(fā)現(xiàn)這樣的關(guān)系很快能建立起來,并且還能數(shù)據(jù)化。在這個(gè)過程中,我們直接看到這樣一個(gè)關(guān)系的時(shí)候,我直接打開這個(gè),在這個(gè)過程中,大家看到這個(gè)數(shù)據(jù)集是一個(gè)相對(duì)大一點(diǎn)的,大家也不是大數(shù)據(jù),甚至也不像很多人說的大量數(shù)據(jù)。因?yàn)樵谶@里面,我們看到有大概九萬多條數(shù)據(jù),將近10萬條,這里面詳細(xì)記錄了這條微博轉(zhuǎn)發(fā)的時(shí)刻,到秒,用什么設(shè)備轉(zhuǎn)發(fā)的,你有沒有標(biāo)注位置,其實(shí)我們看到這些數(shù)據(jù)的時(shí)候,都不是大數(shù)據(jù),因?yàn)槲覀兪昵熬涂梢苑治鲞@種數(shù)據(jù),但是今天我們會(huì)發(fā)現(xiàn),我主要分析的是什么呢?是它轉(zhuǎn)發(fā)的內(nèi)容。它都在轉(zhuǎn)發(fā)什么內(nèi)容,不過一看內(nèi)容也沒有什么內(nèi)容,你仔細(xì)看看也沒有什么內(nèi)容,全是滾。說明什么?我想知道什么人在這里說滾,有沒有什么團(tuán)伙。在這個(gè)過程中,其實(shí)我很容易就可以立刻通過我的算法植入一個(gè)R語言,就把這樣的數(shù)據(jù)提出來了。這些人被一起轉(zhuǎn)發(fā)了,是不是他們發(fā)生了關(guān)系。這跟你的購物籃一樣,你去超市買東西,什么東西一起購買,只不過第二列是一個(gè)流水號(hào)而已。這樣我們可以建立一個(gè)規(guī)則,在這里面的規(guī)則是什么呢?作業(yè)本一發(fā),韓火火就轉(zhuǎn),這不就是一個(gè)推薦文嘛。在這里面我們特別希望知道整個(gè)的網(wǎng)絡(luò)是什么,因?yàn)闀r(shí)間的問題,我們就不運(yùn)行了。如果你想看輸出,你會(huì)發(fā)現(xiàn)這個(gè)網(wǎng)絡(luò)一旦輸出,這個(gè)網(wǎng)絡(luò)就是這樣的。這時(shí)候我們會(huì)發(fā)現(xiàn)我們很難處理這種網(wǎng)絡(luò),要么是軟件的問題,要么今天運(yùn)行的速度或者其他,在這樣的過程中,其實(shí)我們可以立刻去打開另一個(gè)工具,通過軟件的接口來實(shí)現(xiàn)。

我們來打開另外一個(gè)工具,我演示的工具都是免費(fèi)的,大數(shù)據(jù)的分析,最大的分析就是一切從開元開始。過去我們想說服中國電信,你做一個(gè)大數(shù)據(jù)分析吧,我先得說服他買一個(gè)200萬的軟件,要不怎么做?但是今天我們打開一個(gè)接口,這時(shí)候你看到我端口打開了,在這個(gè)軟件里我就直接把它輸出出來,當(dāng)然這個(gè)流程不走了。我們看到生成的數(shù)據(jù)就在這里。在這里面我不知道有沒有你當(dāng)時(shí)參與了這條微博的傳播,所以在這里面我們利用剛才的算法,立刻就知道這是寧財(cái)神,羅永浩、洪晃、作業(yè)本等,大V是不是就出來了,所以我說在微博上不要隨便轉(zhuǎn),理論上我可以知道任何人在這條微博轉(zhuǎn)發(fā)中所起的作用和位置。沈老師羅永浩是大V還用你說嗎?我當(dāng)時(shí)也是這么認(rèn)為的。誰把兩個(gè)大V連在一起的人,這才是我們大數(shù)據(jù)要研究的東西,我們并不在乎羅永浩,我們?cè)诤醯氖钦l洗黑錢,誰異常資金波動(dòng),誰是剛才百分之零點(diǎn)幾的,而不是95%的東西,我們關(guān)注的是細(xì)小、微小的,甚至就一個(gè)人。這里面當(dāng)然也可以抓恐怖分子,這是我舉的小例子。

那更大的數(shù)據(jù)會(huì)怎么樣呢?我這里舉一個(gè)例子,這是一個(gè)移動(dòng)集團(tuán)的數(shù)據(jù),這個(gè)數(shù)據(jù)大概有230萬條數(shù)據(jù),這些數(shù)據(jù)實(shí)際上是一個(gè)非常簡單的數(shù)據(jù)結(jié)構(gòu),描述了一個(gè)手機(jī)電話跟另一個(gè)電話在什么時(shí)候通話多長時(shí)間。經(jīng)過一個(gè)簡單的計(jì)算,這個(gè)過程我都可以算。比如說我想看看這230萬的數(shù)據(jù)長什么樣,其實(shí)我可以立刻按一下回車,我們230萬的數(shù)據(jù)很難做統(tǒng)計(jì),你會(huì)發(fā)現(xiàn)230萬很快就算完了統(tǒng)計(jì)的結(jié)果,甚至我可以直接瀏覽。大家看到這個(gè)瀏覽速度非常快,我曾經(jīng)五千萬的數(shù)據(jù),大概將近一個(gè)億的數(shù)據(jù),瀏覽不存在著太大的滯后,我們已經(jīng)可以突破Excel的計(jì)算。我們?nèi)绾螐倪@里面抽出數(shù)據(jù)?最終我們會(huì)發(fā)現(xiàn)這是一個(gè)什么分析,我并不知道通話這個(gè)人的注冊(cè)情況,我也不知道他是男女,我只知道他跟誰通話,所以在這里面我們非常容易的就可以把它生成一個(gè)圖的模型,以有效地增強(qiáng)它的計(jì)算能力,否則的話,它的圖就是這樣的一個(gè)關(guān)系,所以這個(gè)關(guān)系最終實(shí)際上有33萬個(gè)邊,6萬多個(gè)節(jié)點(diǎn)。我們很容易在這里面直接運(yùn)算,當(dāng)然這個(gè)運(yùn)算速度也還是非??斓摹N覀兛梢园l(fā)現(xiàn)什么呢?在這樣一個(gè)城市里面的變化,這個(gè)城市跟立峰的家是非常近的,宜昌。在這里可以清晰地看到,在7萬人里邊,大概有將近6萬人全是能夠認(rèn)識(shí)一個(gè)人就會(huì)認(rèn)識(shí)第二個(gè)人,就會(huì)認(rèn)識(shí)所有人,所以它是一個(gè)完全的連通。在這里邊,你可以看到這么多人,可以快速計(jì)算網(wǎng)頁排名。如果我們用大數(shù)據(jù)的方式,真正的大數(shù)據(jù)一定是工程化的,工程化的東西一定是代碼化的,而不是我們拿著軟件、Excel、SPSS這么分析,所以我們可以很容易看到數(shù)據(jù)之間的邏輯關(guān)系,在這里邊我們可以看到統(tǒng)計(jì)量,當(dāng)然這僅僅是統(tǒng)計(jì)。最重要的是我們希望能夠?qū)@樣的關(guān)系尋找任意兩個(gè)人的手機(jī)號(hào)碼,我就可以知道他有沒有通話的行為發(fā)生。在這里面我可以看到通話的過程是什么,當(dāng)然我們也可以指定任何一個(gè)手機(jī)號(hào)碼,比如說我指定這個(gè)號(hào)碼,然后看一下他的通話路徑。我們快速地知道一個(gè)人的通話情況怎么樣。

從這個(gè)視角來講,我用PPT來表現(xiàn)一下這個(gè)過程。這張圖也是我當(dāng)時(shí)做的,做的是一條杜蕾斯的營銷賬號(hào)的傳播。這里面非常典型地顯示了傳播中的六度空間,你看到了大V在里面起到的作用。這么大的數(shù)據(jù)怎么來可視化呢?所以我們需要新的技術(shù),比如像這個(gè)技術(shù),我們只要一次顯示不出來,我可以不斷地追蹤,打開它顯示的情況,來看到它后邊顯示的路徑,我可以去追蹤這個(gè)人,當(dāng)然千萬不要追蹤到姚晨,一弄五千萬,我們也在探索可視化展示。從另外一個(gè)視角,我們可以看到在這里面我們?nèi)绾螌?duì)百萬級(jí)的通話記錄進(jìn)行追蹤,實(shí)時(shí)地可以去感知,或者做營銷、推薦,當(dāng)然我們也可以看到他在通話的次數(shù),以及通話的移動(dòng)空間網(wǎng)絡(luò),這是一個(gè)比特幣交易,發(fā)紅包都發(fā)給了誰,發(fā)了多少錢,什么時(shí)間發(fā)的,這些數(shù)據(jù)都通過我們的挖掘都可以做到。

這是我舉的一個(gè)例子,關(guān)于關(guān)系數(shù)據(jù)。你會(huì)發(fā)現(xiàn)過去傳統(tǒng)的市場研究更強(qiáng)調(diào)的是屬性特征,身高、體重,但是今天我們關(guān)心的是關(guān)系,關(guān)系數(shù)據(jù)是大數(shù)據(jù)最顯著的一個(gè)特征,特別是社會(huì)化媒體。而且關(guān)系的個(gè)性化推薦要強(qiáng)于基于它的屬性推薦,或者行為推薦,當(dāng)然了關(guān)系也可能是他行為的一部分。

第二個(gè)大數(shù)據(jù)分析的很重要特征還在什么地方呢?剛才我做了一個(gè)數(shù)據(jù),因?yàn)槲也恢涝趺唇忉?,我剛才把那個(gè)十八屆六中全會(huì)的文檔我想分析一下,不過算了,我還是用這個(gè)分析。今天我們經(jīng)??吹降氖俏谋荆^去對(duì)于市場研究來講,不怎么分析文本,即使開放題的文本也要重新做一個(gè)編碼。今天我們拿到一個(gè)文本可以做什么呢?我們可以看一下這個(gè)文本,對(duì)于文本來講,實(shí)際上我們現(xiàn)在的處理技術(shù)已經(jīng)非常成熟。甚至說在這里邊只要我讀取這個(gè)文本,我們看看這個(gè)文本,讀到剛才我的桌面上,然后我們?nèi)ミx擇一個(gè)文本,那個(gè)文本在哪兒,在這兒,我們用這個(gè)。誰知道什么原因嗎?有知道原因的嗎?讀出來不認(rèn)識(shí)。如果你不知道,說明你對(duì)互聯(lián)網(wǎng)不太親近,換句話說它是輸入的問題,因?yàn)榫W(wǎng)頁的東西跟我們的Excel不一樣。這時(shí)候讀進(jìn)來以后,我們連上它,我起一個(gè)名字吧,因?yàn)槲依戏治鑫⒉晕揖推鹨粋€(gè)w e i b o,我做一個(gè)這樣的分析執(zhí)行,我這塊用的是R語言,當(dāng)然我們知道還有很多其他的工具,所以在這邊大家通常發(fā)現(xiàn)李克強(qiáng)2014年工作回顧,各位代表現(xiàn)在我代表國務(wù)院向大會(huì)報(bào)告政府工作,請(qǐng)予審議,它能把中文分成一個(gè)一個(gè)的詞,過去的英文天生就帶著空格,今天的中文也可以分得很好了,如果在這里面分了詞以后,比方說第二列是詞性,什么是詞性?如果一個(gè)人寫東西老用名詞,說明這個(gè)人是專業(yè)人士。他這句話說完,我就把我的微博抓下來了,我發(fā)現(xiàn)沈老師還真的是專業(yè)人士。為什么?你會(huì)發(fā)現(xiàn)在這里邊,沈老師剛才忽悠了大家二十分鐘,你會(huì)發(fā)現(xiàn)我在忽悠什么,是不是在忽悠數(shù)據(jù)、網(wǎng)絡(luò)、社會(huì)、節(jié)點(diǎn)、結(jié)構(gòu)、方法、軟件、科學(xué)、數(shù)學(xué),這不就相當(dāng)于給沈老師打了標(biāo)簽嘛。如果這些標(biāo)簽有了,是不是你就可以通過搜索引擎,通過DSP就往我這兒投放。只不過這只是我說的內(nèi)容,你抽出關(guān)鍵詞來給我打標(biāo)簽,當(dāng)然標(biāo)簽有很多不同的標(biāo)簽方法,這只是可能的一種,因?yàn)槟阏f什么,我就給你打上標(biāo)簽了,況且他們這些人在監(jiān)控著我們行為數(shù)據(jù)的時(shí)候,這種標(biāo)簽真正能反映一個(gè)人很重要的一種特征,至少基于這幾個(gè)關(guān)鍵詞向我推薦關(guān)鍵詞、文章我是關(guān)心的。

最關(guān)鍵的是它不僅能分了詞,還能知道這里面的實(shí)體秘密。舉個(gè)例子,我們來看一下,如果在我們這里大量文章出現(xiàn),這是我那天下載了一篇文章,剛才我又寫了一段話,采用蘋果手機(jī)進(jìn)行微信報(bào)告。如果你在這里邊,你會(huì)發(fā)現(xiàn)我只要一回車,你會(huì)發(fā)現(xiàn)它從這段文章中立刻知道沈浩是一個(gè)Person Name,我從一篇文章中能知道誰在做什么事情,當(dāng)然我也知道他在哪兒做了什么事情。我還知道他什么時(shí)間做的,因?yàn)樗蠺ime,這些說明一篇文章里面我是可以知道誰跟誰的。這里面沈浩跟習(xí)近平一起出現(xiàn)了,是不是說明我們倆發(fā)生一次關(guān)系。有沒有想過把《紅樓夢(mèng)》分析一下,如果一段話里面說賈寶玉跟薛寶釵一起去后花園了,林黛玉跟賈寶玉去西花園了,這是不是說明他們倆發(fā)生了一次關(guān)系,這就是一個(gè)網(wǎng)絡(luò)圖。如果從數(shù)量上,我們就可以由此知道為什么最后賈寶玉是娶了誰,從這個(gè)角度我們是可以用語言進(jìn)行處理的。這里我用了一個(gè)APP的接口,讓它實(shí)現(xiàn)對(duì)中文語言的處理。

其實(shí)對(duì)于中文語言的處理,我們還可以做一個(gè)類似于我們經(jīng)常提到的情感分析。舉一個(gè)例子,假如說我有一百條文本,這一百條文本描述了一個(gè)人在產(chǎn)品中說的話,這一百個(gè)文本,我們說了你只要一回車,大家看到快速地完成了,這里面是概率問題,就是前邊的概率和后邊是一個(gè)正和負(fù),東西是送人的就不說了,今天才發(fā),你走了那么多天,這是差評(píng),明明寫著什么什么,這是差評(píng)。好評(píng)在哪兒呢?這一百句話,那些好評(píng)就是非常喜歡,很好的東西,所以我們希望對(duì)一篇文章能不能抽出關(guān)鍵詞,就代表這篇文章的意義。比如說他的關(guān)鍵詞,比如說他的那些帶有情感的詞能不能代表著他的情感的問題,這些都是我們看到,我們發(fā)現(xiàn)大數(shù)據(jù)可以分析什么了?可以分析文本了。這是我說的大數(shù)據(jù)分析的第二類數(shù)據(jù)。

大數(shù)據(jù)可以分析的第三類數(shù)據(jù)是什么呢?我們會(huì)發(fā)現(xiàn)在這里邊,我再舉一個(gè)例子,一直說網(wǎng)站怎么做,大家一直說網(wǎng)站怎么做分析,我舉一個(gè)它的案例。大家都知道,如果你是一家網(wǎng)站,你在提供給消費(fèi)者服務(wù),這種服務(wù)到底我們?cè)撊绾稳?shí)現(xiàn)這種知道這些人從哪兒來。我想提供一個(gè)網(wǎng)站服務(wù),比如說他們都到我們家來下載內(nèi)容,現(xiàn)在我想知道他們都是來自于哪兒的。這時(shí)候你看到,我只要下載這樣一個(gè)執(zhí)行,大家看到這是在線的執(zhí)行,大家看看這個(gè)操作的過程,實(shí)際上這是一個(gè)數(shù)據(jù)建模或者是一個(gè)流的過程,我再連接一個(gè)云端的數(shù)據(jù)庫,如果大家有耐心,我們時(shí)間上還可以的話,我們稍微等一下。

在這個(gè)過程中,像這樣一個(gè)建模是一個(gè)數(shù)據(jù)流的過程,這種流如果帶上云端,它就可以部署,當(dāng)然我也可以通過R這種代碼的方式讓它運(yùn)行得更快。我也是有點(diǎn)而太自信,我發(fā)現(xiàn)這塊的網(wǎng)絡(luò)有時(shí)候是沒有的。好,讀出來了,我們看看這個(gè)數(shù)據(jù)有多少??吹搅藛??我們下載了將近200個(gè)數(shù)據(jù),這個(gè)數(shù)據(jù)是什么呢?給出了IP的起始位置,以及終止位置,以及在這個(gè)位置上擁有多少個(gè)可分配的IP地址,這些地址屬于哪個(gè)國家,哪個(gè)城市,哪個(gè)地區(qū),以及這個(gè)機(jī)器的服務(wù)器經(jīng)緯度在哪。我們回過頭來看,是不是還會(huì)有一個(gè)數(shù)據(jù),這個(gè)數(shù)據(jù)實(shí)際上記錄了所有瀏覽我這個(gè)網(wǎng)頁,或者來我網(wǎng)站的人。這個(gè)里面是不是就有了它的IP地址,有沒有想過把IP地址通過一個(gè)數(shù)學(xué)的運(yùn)算把它變成一個(gè)數(shù)值,然后匹配剛才的那個(gè)位置,我們就知道這個(gè)IP地址是從哪塊請(qǐng)求的。在這個(gè)過程中,我們通過這樣一個(gè)建模,個(gè)我們只要計(jì)算這樣一個(gè)過程,實(shí)際上我們就可以看到在這個(gè)過程中,把四位數(shù)乘上一個(gè)常數(shù)變成一個(gè)數(shù)值,然后匹配,現(xiàn)在是在匹配的過程。

在匹配的過程中,實(shí)際上這是它的案例,我們通過這個(gè)案例就學(xué)會(huì)了原來IP地址是可以去尋找到任何一個(gè)訪問我網(wǎng)站的IP地址是什么,我會(huì)給這個(gè)IP地址打上一個(gè)標(biāo)簽,當(dāng)然我也可能是給一個(gè)瀏覽器打上標(biāo)簽,大部分的技術(shù)都是打的瀏覽器。對(duì)于我們來講,在電子商務(wù)很多的交易中,我想知道從這個(gè)服務(wù)器來的請(qǐng)求是不是安全,數(shù)據(jù)走到這兒,我們就可以在地圖上看到,這是什么呢?這是這家軟件供應(yīng)商的網(wǎng)站,它記錄了誰從我這兒下載了軟件,我是不是立刻就知道了。這個(gè)過程是可以做到實(shí)時(shí)在線的。你看到中國的時(shí)候,怎么今天下載的人這么多,是不是因?yàn)橛猩蚶蠋熀鲇屏艘幌拢蠹揖蛷倪@塊下載了,我就感知到我的客戶來源是什么地方。

這是我們看到的一個(gè)很重要的經(jīng)度、緯度。在經(jīng)緯度這個(gè)領(lǐng)域,大數(shù)據(jù)存在著第三種,也是我這段時(shí)間非常關(guān)心的,在這方面做了很多想法。首先我們可以看到這是一個(gè)圖,它應(yīng)該有一個(gè)背景出來,這個(gè)背景是我的學(xué)校,在傳媒大學(xué)有20個(gè)同學(xué),他們落在我的學(xué)校,我獲取他們的位置,你只要用我的APP,是不是它跟你要位置,你偷用我的WIFI,我是不是就知道你的位置了。你的手機(jī)也在跟基站握手,基站也知道你的位置。我這里面又有一個(gè)區(qū)域,這也是我們學(xué)校,在這個(gè)區(qū)域里我想知道哪些學(xué)生落在了這個(gè)區(qū)域里。這個(gè)能不能算出來?可以的。這時(shí)候我們通過一個(gè)算法流,其實(shí)我們就可以看到,我只要運(yùn)行這個(gè)過程,你會(huì)發(fā)現(xiàn)最后它就匹配出了最終有11個(gè)學(xué)生落在我這里面。當(dāng)然這個(gè)過程實(shí)際上是可以感知到的。我再次啟動(dòng)一個(gè)軟件,這個(gè)軟件是現(xiàn)在很多人在用的,也是一個(gè)有著比較先進(jìn)的想法,我們打開這個(gè)數(shù)據(jù),大家看到其實(shí)剛才我就是把學(xué)生匹配出來了。

在這里面大家可以看到,我立刻點(diǎn)擊這個(gè)點(diǎn),我們可以看到這就是剛才的軌跡,是不是立刻看到了這些人是誰,這是不是正好是我學(xué)校的軌跡,是不是落在這里面的,這樣實(shí)際上如何你配合上地圖,我們就可以立刻知道這真的是我們學(xué)校那些學(xué)生在操場上。大家想到?jīng)]有,如果這個(gè)能算意味著什么呢?是不是意味著你們其實(shí)不用簽到了,你只要落在我的區(qū)域里,我就可以算出誰落在我這個(gè)區(qū)域里了。我們知道很重要的是這個(gè)軌跡,如何在這個(gè)軌跡中匹配出落在這里的學(xué)生,當(dāng)然我也可以匹配出誰落在我選定的商圈,可以顯示出二環(huán)、三環(huán)有多少人。這時(shí)候我發(fā)現(xiàn)我可以知道一個(gè)點(diǎn),可以知道一個(gè)點(diǎn)的行動(dòng)軌跡,但是我好像沒有咱們這個(gè)樓的數(shù)據(jù)。所以這時(shí)候我們就需要去尋找,如果我們能夠找到這樣類似的數(shù)據(jù),比方說舉個(gè)例子,在這里面你可以看到,這里有比較大的幾十兆數(shù)據(jù),我們來看看這是什么,因?yàn)槁?lián)著網(wǎng),所以不帶地圖就比較好,這是中國的數(shù)據(jù),我們選擇北京會(huì)是什么樣呢?我們看看這是什么,實(shí)際上每一個(gè)記錄是一個(gè)建筑的標(biāo)志,所以這時(shí)候我們可以看到這里面各種各樣的建筑,這兒你認(rèn)識(shí)嗎?如果我們擁有更大的數(shù)據(jù),能不能圈出這些人落在我所限定的區(qū)域內(nèi)。這時(shí)候我們最重要的是如何找到這些位置的區(qū)域。如果我們能夠知道這些位置區(qū)域,我們又有消費(fèi)者的行為特征,那么它的那些數(shù)據(jù)點(diǎn)我們就知道他落在哪兒里,如果落在這里,當(dāng)然你知道他男女,你再去分析。所以在一些重大的事件中如何捕捉這種關(guān)系。這時(shí)候我們就可以知道如何從我們的數(shù)據(jù)終匹配出落在某個(gè)小區(qū)、某個(gè)商圈里每一個(gè)人的特征,如果沒有這個(gè)數(shù)據(jù),就需要我們自己去網(wǎng)上采集。這是我匹配出的兩條數(shù)據(jù),這是匹配出來落在這里面的人群。從這個(gè)角度,這也是我畫出的北京市每一條公交線路的數(shù)據(jù),當(dāng)然我們?nèi)绻堰@個(gè)東西放置在我們的運(yùn)行系統(tǒng)中,它可以更好地感知數(shù)據(jù)之間的關(guān)系,就像你看到的,在這個(gè)數(shù)據(jù)里我們可以看到這是一個(gè)有著百萬級(jí)的數(shù)據(jù),記錄了每一個(gè)人的位置點(diǎn)。但是這個(gè)反映了這是我們的位置點(diǎn),大家看到這是北京,這是一個(gè)大量數(shù)據(jù)的位置點(diǎn),在這個(gè)點(diǎn)上,我們?nèi)绻麚碛辛诉@些,我們可以通過匹配算法,想象一下在這個(gè)領(lǐng)域里,我們市場研究可以在哪些方面跟別的合作,無論是運(yùn)營商,還是互聯(lián)網(wǎng)的,還是像類似于其他的公司,然后提出我們的特質(zhì),我們所擁有的一些特性。在這里面這些點(diǎn)的位置信息我們叫做POR。

講到這兒我們就說了,大數(shù)據(jù)我沒有講傳統(tǒng)的身高體重,態(tài)度量表,我講的是關(guān)系,講的是文本,講的是空間,在這些數(shù)據(jù)中,最后可能需要你看得見。大數(shù)據(jù)一個(gè)最大的特征就是你要是看不見就瞎了。我們可以看到這個(gè)數(shù)據(jù)是我做的,是美國的交通事故數(shù)據(jù)庫,非常大,700兆。它就在地圖上顯示這些東西,這些通過我剛才的運(yùn)算已經(jīng)存起來了,我們?nèi)绻ゴ蜷_網(wǎng)頁,我們就可以看到這個(gè)網(wǎng)頁,當(dāng)你生成的時(shí)候,其實(shí)它可以推送到你的網(wǎng)站上,在你的網(wǎng)頁上如果你推送了,它就立刻顯示出了這個(gè)數(shù)據(jù)終的一些趨勢(shì),在那兒發(fā)生的交通事故,以及地理信息上的數(shù)據(jù)之間的合并、聚類等等,其實(shí)你也可以把它當(dāng)成消費(fèi)者的聚類和升量。這里面你也可以把它當(dāng)成是熱圖的方式呈現(xiàn),熱圖的方式呈現(xiàn),就是看到我們哪兒熱,哪兒冷,它不斷地打開,深入到街區(qū),你點(diǎn)開可以看到街景。這些東西我相信百度很容易就實(shí)現(xiàn)了,百度怎么能夠把所有的數(shù)據(jù)獲得經(jīng)緯度呢?這就向百度、阿里或者其他地方發(fā)出請(qǐng)求。比如說一家市場調(diào)查公司,如果我有十萬個(gè)被訪者的地址,一個(gè)API接口的請(qǐng)求,十萬個(gè)人的經(jīng)緯度就知道了。把這些人的位置跟我們?cè)L問的方式,我們就可以知道消費(fèi)者來自什么地方,他的代表性。

在這里面我們看到可視化是一個(gè)很重要的領(lǐng)域,包括實(shí)時(shí)看到我們數(shù)據(jù)的變化,以及我們可以看到亮點(diǎn),看到走勢(shì)、軌跡,以及它的不同區(qū)域的聚合,包括我們看到國內(nèi)的行政區(qū)域,包括特定的交通軌跡,我們?nèi)绻谶@里面代表著數(shù)據(jù)的身量,我們就可以感知到在這里面交通的典型區(qū)域。在這里我們有很多類似于這樣基于空間、地理的分析,如果這個(gè)能融合,我們至少會(huì)產(chǎn)生更好的一種大數(shù)據(jù)分析的思想。

講到這兒,我們做一個(gè)簡單的總結(jié),其實(shí)如何把一個(gè)人的行為,這個(gè)行為可能就是傳統(tǒng)的我們市場研究可以獲得的洞察,把他的社會(huì)關(guān)系融合在一起,如果還能夠落到他的位置上,知道他是重慶女孩,我們聚合這些東西,而且能夠感知到這個(gè)社會(huì),當(dāng)然也感知到一個(gè)具體的人,剛才說到了羅永浩這種具體的人,我們既可以去對(duì)個(gè)體進(jìn)行挖掘,包括精準(zhǔn)的個(gè)性化推送,也可以對(duì)群體進(jìn)行感知社會(huì),我用感知可以告訴你有時(shí)候大數(shù)據(jù)不需要精確。大數(shù)據(jù)時(shí)代已經(jīng)來臨,如何從海量數(shù)據(jù)終發(fā)現(xiàn)知識(shí),尋找隱藏在大數(shù)據(jù)終的模式、趨勢(shì)和相關(guān)性,揭示社會(huì)現(xiàn)象與社會(huì)發(fā)展規(guī)律,以及可能的商業(yè)應(yīng)用前景、都需要我們擁有更好的數(shù)據(jù)洞察力。盡管大數(shù)據(jù)有很多不同的,我相對(duì)絕對(duì),但是我希望我們市場研究熱情擁抱大數(shù)據(jù),謝謝大家!

王文利:時(shí)間剛剛好,非常感謝沈會(huì)長的精彩演講。沈老師說93%人類的行為是可以預(yù)測的,下面你預(yù)測一下我要干什么。

沈浩:宣布結(jié)束。

王文利:我們第七屆營銷與市場研究峰會(huì)到此結(jié)束。最后我希望大家跟我一起鼓四次掌,第一個(gè)掌聲是獻(xiàn)給誰呢?是獻(xiàn)給我們這三天來所有的演講嘉賓的精彩演講,正因?yàn)槟銈兊难葜v才使我們收獲滿滿。第二個(gè)掌聲是給我們的贊助商,正因?yàn)槲覀冑澲痰目犊饽遥攀刮覀兿硎芊浅:玫闹胁?、晚餐,還有很好的茶歇,還有抽獎(jiǎng)。第三個(gè)掌聲是獻(xiàn)給我們所有的工作人員,大家知道我們這一屆也是換屆的第一次,我們的工作人員也是非常辛苦的,基本上沒睡覺,為了我們?nèi)斓臅?huì)議,他們付出了很多,我們用我們熱烈的掌聲,再一次表示我們對(duì)他們的感謝!

沈浩:感謝傳媒大學(xué)的志愿者,我的學(xué)生,謝謝,謝謝大家!



?
友情鏈接
中國信息協(xié)會(huì)    國家統(tǒng)計(jì)局    涉外調(diào)查許可證辦理    中國數(shù)據(jù)分析師官網(wǎng)    APRC    ESOMAR    GRBN    
 
CMRA微信公眾號(hào)   CMRA微信號(hào)

關(guān)于協(xié)會(huì) | 會(huì)員專區(qū) | 招聘信息 | 聯(lián)系我們

地址:北京市東城區(qū)東四十條21號(hào)北京一商集團(tuán)大廈308室 電話:010-64087451,64087991

Copyright 2015-2025 www.5xia.com.cn All Rights Reserved 技術(shù)支持:中才智達(dá)

中國信息協(xié)會(huì)市場研究業(yè)分會(huì) 版權(quán)所有 京ICP備18038404號(hào)-4 京ICP備18038404號(hào)-5