時間不到半個小時,實(shí)際上還是比較緊張的。我的演講主題實(shí)際上是關(guān)注于大數(shù)據(jù)價值,前段時間有一本很著名的書,《爆發(fā)》,這本書的核心觀點(diǎn)是什么呢?當(dāng)時這本書的中文版出版的時候他們請我寫了一個推薦語,我說這是一個令人興奮的是,也是一個大數(shù)據(jù)的時代,數(shù)據(jù)科學(xué)讓我們越來越多的從數(shù)據(jù)中觀察到人類社會的復(fù)雜行為。這本書的核心觀點(diǎn)是說人類行為的93%是可預(yù)知的,一個人的行為和群體行為完全是不同的一回事情,所以什么是人類,當(dāng)我的利益受到傷害的時候,領(lǐng)導(dǎo)會拍著我的肩膀說,沈浩你要顧及人類的利益,難道我不是人類嗎?所以人類是什么呢?大數(shù)據(jù)時代,人類說的就是你,指名道姓的你。所以有人說什么是大數(shù)據(jù)挖掘,我說大數(shù)據(jù)挖掘就是抓本拉登,只要本拉登敢打電話敢發(fā)郵件,人類的導(dǎo)彈就過去了。有同學(xué)和我說女的特別愛看韓劇,我說這不用你挖掘,這是自然現(xiàn)象。有的時候和直覺不一樣的東西,越有商業(yè)價值,今天我們說的就是一個指名道姓的個體,可是我們傳統(tǒng)的市場統(tǒng)計是不關(guān)心一個個體,我們只關(guān)心是不是樣本。所以今天我們會發(fā)現(xiàn)傳統(tǒng)的研究,研究來研究去,最后得出來結(jié)論,叫做一方水土養(yǎng)活一方人。為什么呢?是自然因素。經(jīng)常有人問沈老師是哪人,我說我是上海人,他說上海人怎么可能這么能吃辣,我說誰說上海人不能吃辣,隨著商業(yè)的變化,我們不僅滿足他是哪的人,我們更關(guān)心誰是我們的客戶,誰是我們的VIP,我們已經(jīng)進(jìn)入追求自身利益最大化,但是隨著大數(shù)據(jù)時代的來臨,其實(shí)我們今天關(guān)注的是什么人呢?我們關(guān)注的是社會人,所以大數(shù)據(jù)時代是社會科學(xué)研究的春天到了,社會,什么是社會,社會就是研究人的,一個人不是社會,兩個人也不是社會,三個人是社會,為什么呢?中國那句老話,叫道生一,一生二,二生三,三生萬物,我只要把三個人的關(guān)系搞清楚,萬物可能就清楚了,如果真的滿足這樣的道理,那我們現(xiàn)在啟動一個軟件來看一下,我們怎樣表述三生萬物的思路,我啟動了一個工具,表達(dá)這樣一種分析的思想。在這個工具里面我們會發(fā)現(xiàn)如果有三個人,其中一個人和另外兩個人都有關(guān)系,那另外兩個人之間有沒有關(guān)系?怎么樣來預(yù)測呢?我們認(rèn)為應(yīng)該存在,當(dāng)然有同學(xué)說不應(yīng)該也許不是,是還是不是是概率問題,任何決策都是概率問題,所以我們認(rèn)為應(yīng)該是是一個概率問題,所以我們做出了不要小看這個模型,這就奠定了我們今天所有社交媒體的基本要素,當(dāng)你進(jìn)入谷歌、Facebook、推特、微博、微信的時候,你一進(jìn)去就會說,你是不是認(rèn)識這個人,因為獲得了你的通訊錄,認(rèn)為你們之間有關(guān)系,99%對你都是推薦正確的,也許真的這樣推薦,也可以把前女友推薦給了現(xiàn)在女友,這就是概率,在這個里面,我們發(fā)現(xiàn)其實(shí)如果他喜歡他他也喜歡他的話,其實(shí)我沒有說喜歡,但是我說喜歡你就會發(fā)現(xiàn)這個問題變得復(fù)雜了,如果這三個人都喜歡他,都喜歡的時候你會發(fā)現(xiàn),這時候我點(diǎn)擊一個算法,這個算法一點(diǎn)擊就有分?jǐn)?shù)了,這相當(dāng)于每人給你投了一票,所以在微博上不要隨便關(guān)注人,這個數(shù)學(xué)公式你是懂的,只是有可能你的投票不一定投一樣的權(quán)重,但是數(shù)學(xué)公式邏輯是一樣的,在這里面我們再一次拷貝一份,這個時候你會發(fā)現(xiàn)在這樣一個邏輯里面,如果我再存在一個人,如果再拿來一個人,這個時候重新計算分?jǐn)?shù)數(shù)據(jù)改變了,當(dāng)然這是正常的,A班的班長,B班的班長一定是最有影響力的,但是誰把A班B班勾搭在一起呢?顯然這個人更重要,所以如果從這個視角來講,我們換一個算法,也許這種算法可能就會得到另外一個不同的視角,這個人實(shí)際上就變成主要的,關(guān)系就是數(shù)據(jù),過去我們的數(shù)據(jù)都是身高體重畝產(chǎn)量、降雨量,對沈老師講課的滿意度,但是今天咱倆吃頓飯都是數(shù)據(jù),因為已經(jīng)被數(shù)據(jù)化了,人的社會生活被數(shù)據(jù)化了,而這種數(shù)據(jù)可能成為一種關(guān)系,無論你在微博上去轉(zhuǎn)發(fā)去點(diǎn)贊,哪怕你說了一句話,今天沈老師和忻總在上海吃了頓飯,也表示我和忻雷發(fā)生了關(guān)系,這種關(guān)系是可以捕捉的,如果我在這塊現(xiàn)在大家看到,我這里寫一句話,對于該小孩是不是誰的孩子,誰正在卸載,我瞎寫的一段話,如果我運(yùn)行這個程序,可以從文本中抽出十幾個,抽出誰,這樣就把我們兩個名字抽出來,想象一下你有沒有把紅樓夢分析一下,紅樓夢每一句話里面,賈寶玉和林黛玉他們?nèi)ズ蠡▓@了,是不是發(fā)生了一次關(guān)系,賈寶玉又是前廳找誰去了,那么整個八十回或者多少回,你發(fā)現(xiàn)這個過程他們倆可以建立方程,最后決定誰應(yīng)該嫁給誰,我們完成可以做到這種分析,你會說沈老師那這樣的分析只是模擬的數(shù)據(jù),是的,傳統(tǒng)的科學(xué)研究是我很難拿到數(shù)據(jù),我只能模擬,比方說我模擬一個社會現(xiàn)象,比方說我模擬兩千個節(jié)點(diǎn)的社會現(xiàn)象,兩千個節(jié)點(diǎn)的社會現(xiàn)象是什么呢?大家應(yīng)該能理解這個,這是不是就是一棵樹,叫做決策樹,樹有根有分支,樹在我們數(shù)學(xué)計算機(jī)科學(xué)非常重要,樹既也深度也有廣度,所以數(shù)據(jù)的存儲實(shí)際上搜索引擎也是數(shù),不過你看不清楚,也就是說其實(shí)這棵樹長什么樣,說實(shí)話這棵樹真的長成了這樣,但是你知道是有邏輯關(guān)系的,誰是校長,誰是副校長,副校長之間什么關(guān)系,是清楚的,但是你不清楚,如果獲取了這種關(guān)系的數(shù)據(jù),其實(shí)我很容易就可以搞清楚他們之間的邏輯關(guān)系,不過這個邏輯關(guān)系計算過程當(dāng)中,大家會發(fā)現(xiàn)一個特點(diǎn),已經(jīng)有大數(shù)據(jù)的味道了,為什么?這是一個兩千乘兩千的矩陣,對角線下面誰和誰有關(guān)系就是一。這個時候既然兩千乘兩千的矩陣能算,那兩萬乘兩萬呢?兩億乘兩億呢?地球是不是就連在一起了,因為在地球上你只要認(rèn)識一個人,就會認(rèn)識第二個人,就會認(rèn)識所有人。假如說這兩千個人是你的客戶,你該怎么營銷他們?這時候要通過計算來獲得數(shù)據(jù),如果有意刪除這些截點(diǎn),你會發(fā)現(xiàn)只要有意攻擊網(wǎng)絡(luò),網(wǎng)絡(luò)立刻分崩離析,如果這個網(wǎng)絡(luò)是艾滋病的傳播網(wǎng)絡(luò)呢?SARS傳播網(wǎng)絡(luò)呢?如果是一個基因結(jié)構(gòu)呢?現(xiàn)在我們拿到了一個數(shù)據(jù),這是結(jié)構(gòu)化數(shù)據(jù),我們更關(guān)心的是這個轉(zhuǎn)發(fā)里面到最后,你會發(fā)現(xiàn)這里面其實(shí)沒什么內(nèi)容,這是雅安地震的時候,紅十字會發(fā)了微博讓大家共同抗擊災(zāi)害,結(jié)果大家都評論讓它滾,當(dāng)時我把評論抓下來想數(shù)數(shù)有多少個滾,這事很簡單,主要是想知道什么人在里面說滾,有沒有什么團(tuán)伙在里面說滾,所以在這個時候拿到這個數(shù)據(jù),我們現(xiàn)在要干什么?是不是要把所有的數(shù)據(jù)拿出來,這是一個表達(dá),通過數(shù)學(xué)的工具把這些滾拿出來,我們拿到大概93萬個數(shù),這些人一起出現(xiàn)了一次,回過頭來說,去超市買東西,這些東西一起被購買就是一個購物數(shù)據(jù),買書是不是一起買就是購物數(shù)據(jù),這是典型的大數(shù)據(jù)交易,達(dá)到這個點(diǎn)以后,其實(shí)這個東西我們可以建立一個關(guān)聯(lián)規(guī)則,我就不運(yùn)算了,在這里面關(guān)聯(lián)規(guī)格我們立刻知道這個作業(yè)本一發(fā),韓紅就轉(zhuǎn),作業(yè)本一發(fā)馮大家子就轉(zhuǎn),這就是規(guī)格,把規(guī)格生成一套機(jī)器語言,搜這個買這本書的人就可以推薦什么書,這就是我們建立的個性化推薦規(guī)則,這個規(guī)則我最想知道93萬次傳播到底什么途徑,這里面我們要建立一個數(shù)據(jù)流,傳統(tǒng)的市場研究或者這個領(lǐng)域大家有沒有感覺到,老說大數(shù)據(jù)挖掘,大數(shù)據(jù)挖掘到底長什么樣,我們已經(jīng)不看數(shù)據(jù)了,我們已經(jīng)走入流的狀態(tài),數(shù)據(jù)流,數(shù)據(jù)流動到什么程度,數(shù)據(jù)流到這兒了,所以在這個里面,如果流出來你看不懂,但是我可以立刻啟動把數(shù)據(jù)流從一個工具流出來以后,推送給另外一個數(shù)據(jù)流,這個數(shù)據(jù)流就是我們看到的一種,從這塊生成的數(shù)據(jù)就可以只要輸出這個數(shù)據(jù)流,相當(dāng)于執(zhí)行了,相當(dāng)從這個節(jié)點(diǎn)開始,數(shù)據(jù)流流到這兒了,剛才我們說了這個轉(zhuǎn)發(fā)當(dāng)中誰參與轉(zhuǎn)發(fā)了呢?這就是我們看到的那些轉(zhuǎn)發(fā)的微博,通過這個分析以后,立刻就看到在這個轉(zhuǎn)發(fā)人群當(dāng)中,誰在參與轉(zhuǎn)發(fā)呢?其實(shí)我們立刻就可以知道一個叫寧財神的人,這是羅永浩,從大道理來講,在微博上任何人的轉(zhuǎn)發(fā)都可以捕捉到,不要隨便轉(zhuǎn)發(fā),你轉(zhuǎn)發(fā)當(dāng)中你所處的作用和地位我們都知道,我直接指名道姓地說這些人是什么問題,在這里面我們知道了二方關(guān)系、三方關(guān)系、四方關(guān)系,特別是你會發(fā)現(xiàn)在這樣的節(jié)點(diǎn)當(dāng)中,那頭是左小詛咒,這頭是羅永浩,這個網(wǎng)絡(luò)是聯(lián)通的,不應(yīng)該是分裂的,因為剛才我把不加V的人都去掉了,這些人都是加V的,但是都是加V的人我也發(fā)現(xiàn)一個問題,羅永浩當(dāng)時的錘子手機(jī)和左小詛咒,其實(shí)他們倆早就認(rèn)識了,誰把他們倆放在一起,不加V的人把兩個加V的人勾搭在一起,是我們關(guān)注的對象。想象一下這個背景圖,如果這是上海市,是不是智慧交通就知道了,城市的智能管理就有了,我們立刻感知到了這個社會,所以今天在大數(shù)據(jù)領(lǐng)域我們知道社會,我剛才說了,其實(shí)大數(shù)據(jù)很重要的就是解決社會問題,大數(shù)據(jù)是政府的問題,我們沒有理由要求企業(yè)開放數(shù)據(jù),但是我們要求政府開放數(shù)據(jù),在這里面,大數(shù)據(jù)有四個領(lǐng)域,數(shù)據(jù)科學(xué)、空間地理科學(xué)、網(wǎng)絡(luò)科學(xué)、可視化技術(shù)。數(shù)據(jù)科學(xué)主要是關(guān)于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的挖掘、文本挖掘、語義挖掘、情感挖掘、意見挖掘,還有一個領(lǐng)域就是剛才我說的網(wǎng)絡(luò)科學(xué),關(guān)系可以讓你更好地挖掘,而且有一種說法,所有的數(shù)據(jù)其實(shí)都是圖,換句話說,所有的數(shù)據(jù)都是二維表,所有的二維表都是矩陣,現(xiàn)在如何從圖的視角看關(guān)系,關(guān)系的演化,特別是大規(guī)模的尺度。另外就是現(xiàn)在的消費(fèi)者數(shù)據(jù)可以分成四類,一類是每天走到哪的行蹤,是位置數(shù)據(jù),還有一類就是每天各種支付行為產(chǎn)生的數(shù)據(jù),還有每天在社交網(wǎng)絡(luò)的心路歷程,還有一類就是你到處玩,看電視、看影視劇各種各樣的娛樂數(shù)據(jù),這些數(shù)據(jù)一旦聚合,我們所產(chǎn)生的研究隨著大數(shù)據(jù)存儲技術(shù)、云技術(shù)的落實(shí),一切大數(shù)據(jù)挖掘一切從開源開始,所以我們的技術(shù)就伴隨著政府開放大數(shù)據(jù)、以及微軟各種各樣的統(tǒng)計軟件,所以我們看到各種各樣的分析,這些都是我曾經(jīng)說的。
最后我講到一點(diǎn),其實(shí)在大數(shù)據(jù)領(lǐng)域,未來的發(fā)展,特別是在我們市場和政府這塊,政府我們知道我們擁有每個人的軌跡,無論是你ID還是Wifi還是IP地址,最后一定落在一個社會的地理信息區(qū)域,在這個區(qū)域里,誰落在這個區(qū)域內(nèi),其實(shí)我們完全可以看到整個城市的交通、汽車軌跡、人的軌跡。最后一點(diǎn),這是我們學(xué)校的地圖,我點(diǎn)了二十個學(xué)生,貢獻(xiàn)了位置數(shù)據(jù),我設(shè)定了一個區(qū)域,這個區(qū)域可以精確到今天的辦公室,我通過算法就可以立刻圈出什么人落在這個區(qū)域內(nèi),落在這個區(qū)域就可以落在任何區(qū)域,可以看到任何一個樓宇建筑內(nèi),看到二環(huán)三環(huán)內(nèi),等等這些東西就是位置數(shù)據(jù),將來的大數(shù)據(jù)可以做到如果我知道你的社交屬性,關(guān)系數(shù)據(jù),把關(guān)系落在你進(jìn)入了上海,落在了上海交大這棟樓里面,我就知道你的行動軌跡,再加上你的消費(fèi)屬性,這些整合就會活生生重現(xiàn)一個人的大數(shù)據(jù)社會行為,這種數(shù)據(jù)會產(chǎn)生智慧足跡,對企業(yè)的選址,將來的智慧城市智慧交通物聯(lián)網(wǎng)都會產(chǎn)生極大的影響。大數(shù)據(jù)的作用非常大,怎么強(qiáng)調(diào)大數(shù)據(jù)都不為過,沈老師是典型的大數(shù)據(jù)擁抱者,我們先熱情擁抱大數(shù)據(jù),我們中國市場研究行業(yè)所謂的小數(shù)據(jù),我們先熱情擁抱大數(shù)據(jù),因為只有了解大數(shù)據(jù),我們才知道如何保護(hù)那些可能產(chǎn)生的隱私問題。
最后總結(jié)一句話,大數(shù)據(jù)時代已經(jīng)來臨,我們生活在這當(dāng)中,就不得不與數(shù)據(jù)打交道,數(shù)據(jù)一定會找到你一定會覆蓋我們,大數(shù)據(jù)時代已經(jīng)來臨,如何從海量數(shù)據(jù)當(dāng)中尋找知識揭示社會現(xiàn)象以及可能的商業(yè)應(yīng)用前景都需要我們擁有更好的數(shù)據(jù)洞察力,其實(shí)這句話說實(shí)話,我是給大數(shù)據(jù)時代寫的推薦語,這本書非常流行。不過這句話其實(shí)我十年前就寫好了,我當(dāng)時寫的是數(shù)據(jù)時代已經(jīng)來臨了,如何從海量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)知識,尋找隱藏在數(shù)據(jù)當(dāng)中的模式趨勢和相關(guān)性,以及可能的商業(yè)用途,我忘了加大字了,我后來寫推薦語的時候,我加了一句話,叫揭示社會現(xiàn)象和社會發(fā)展規(guī)律,這是大數(shù)據(jù)來了以后,所帶來的大數(shù)據(jù)對于社會治理,對于社會人的理解,所以美國啟動大數(shù)據(jù)戰(zhàn)略,核心問題是反恐,實(shí)際上是因為911之后才啟動了大數(shù)據(jù)戰(zhàn)略,帶動了整個城市和社會治理,帶動了商業(yè)和商業(yè)競爭力,因為有了數(shù)據(jù),全球戰(zhàn)略和全球競爭有了優(yōu)勢,所以我們傳統(tǒng)的市場研究,結(jié)合今天的大數(shù)據(jù),一定在這一塊會大有作為,謝謝大家!
|