吳長江:各位下午好,下面我給大家介紹一下我們公司在大數(shù)據(jù)新領(lǐng)域文本分析這一塊的經(jīng)驗(yàn)。我們主要專注于文本分析,包括成熟的文本分析系統(tǒng)、龐大的詞庫資源、高效的爬蟲系統(tǒng)、文本分析可視化系統(tǒng)。在文本分析這一塊它是蠻復(fù)雜的,為什么呢?是有幾大方面,我自己個(gè)人,第一個(gè)除了具有大數(shù)據(jù)特性之外,它還有它自己的特點(diǎn),它的復(fù)雜度太多了,第一個(gè)記錄數(shù)據(jù)里面有5%是結(jié)構(gòu)化數(shù)據(jù),95%是非結(jié)構(gòu)化數(shù)據(jù),這樣一個(gè)空間就給了復(fù)雜度太多的可能。第二我們?cè)谧稣{(diào)研的時(shí)候,我們往往看分析的長度,對(duì)于文本分析是基于G和T來做判斷的。另外是它的高維,從分析的角度來講,還是從可視化的角度來講,還是算力的角度來講,都是比較大的問題,對(duì)于一些關(guān)鍵點(diǎn)并沒有非常完美的方案,更多是不同技術(shù)的嵌套和疊加,在應(yīng)用的時(shí)候基本主流分析方法都已經(jīng)納入進(jìn)去了,我們也試著把圖像分析里面常用的CNN也納入到我們體系里面去,市場的效果也不錯(cuò)。
文本分析這一塊它從影響的方面來講,包括它的領(lǐng)域、語言,以及它在跟空間、跟時(shí)間的變化來講還是非常多的,在座的做工程性項(xiàng)目的時(shí)候,交付的時(shí)候,垂直領(lǐng)域的這些支付是非常關(guān)鍵,它直接影響到最基礎(chǔ)的東西。對(duì)于文本分析這一塊我的感覺是說,分成五大方面,第一是算法,算法賦予整個(gè)系統(tǒng)思維的能力,第二個(gè)就是語調(diào),訓(xùn)練語調(diào),是給這個(gè)系統(tǒng)判別能力,第三個(gè)就是可視化,可視化這一塊非常重要,它賦予這個(gè)系統(tǒng)溝通能力。另外還有一個(gè)算力,它的設(shè)備是非常不錯(cuò)的,在這些點(diǎn)上都有很多可以創(chuàng)新的地方,我就找了一個(gè)更是跟今天會(huì)議場景的一些點(diǎn)做了融合,第一是云詞網(wǎng),第二個(gè)是與用戶畫像大數(shù)據(jù)的聯(lián)合分析。下面演示一下,這個(gè)大家很熟悉,這是一個(gè)云數(shù)云詞網(wǎng),這個(gè)云詞很漂亮,是我們項(xiàng)目里面拿出來的時(shí)間切片數(shù)據(jù),看的話就感覺有一些問題,第一很客觀,第二個(gè)可以用它自己的顏色做區(qū)隔,它們都是斷頭數(shù),這張圖片所攜帶的信息是非常有限的,更多是詞的本身和詞的量級(jí)信息。第二個(gè)當(dāng)這么多信息一下送到你面前的時(shí)候,人在進(jìn)行處理或者短暫的記憶都會(huì)有很大的困難,所以我們做了云詞網(wǎng),我們數(shù)據(jù)的來源是從電商上抓取的,以某種功能為特征來去細(xì)分的抓取數(shù)據(jù),它的應(yīng)用場景有很多。假設(shè)這個(gè)是護(hù)膚品,有的企業(yè)想做一個(gè)價(jià)格是在一百到兩百之間的產(chǎn)品,他想了解這個(gè)產(chǎn)品銷量單價(jià)具體分布,以及其他的產(chǎn)品特性有哪些,這個(gè)是通過文本分析得到的數(shù)據(jù)。這里來看這一些數(shù)據(jù),我不知道大家能不能看得清楚,前面L是做的分層,這個(gè)就是單價(jià),單價(jià)就是它的標(biāo)簽,標(biāo)簽下面又做了分類,后面的幾個(gè)數(shù)字是指SKU的數(shù)量,單價(jià)在100到200之間SKU是有86個(gè),這個(gè)可以展現(xiàn)它有品牌,單價(jià)的分布是什么樣子以及月銷量,包括產(chǎn)品的特性、口碑、適用場景,這些分類是通過文本分析的方式來去做的??吹竭@兒之后我們的信息還是不到位的,再往下看想了解一下到底是哪些品牌,這個(gè)是對(duì)品牌的細(xì)分,本土品牌在這里有49個(gè),主要是這三個(gè)品牌,顆粒度在這里看到品牌,具體做項(xiàng)目的時(shí)候是要看到SKU是什么樣子,這個(gè)SKU后面具體的分類信息是什么。這個(gè)展示頁比較窄,我們可以做一下調(diào)整,這是單價(jià)的情況,然后看月銷,月銷分為三個(gè)細(xì)節(jié),再往下可以做細(xì)分。然后再看功效,功效下面又做了第二組分類,再往下面產(chǎn)品機(jī)理分為這些內(nèi)容,從信息上進(jìn)行了規(guī)整,在展示上可以分為上陣和下陣,同時(shí)在顆粒度方面最細(xì)的可以展示到SKU的信息,這個(gè)系統(tǒng)它的柔性還是比較大的,這是我們可視化的一種方式。這是另外一種展示方式,就是解析這些品牌以及具體屬性之間的關(guān)系,這個(gè)里面會(huì)出現(xiàn)一些中心點(diǎn)、副中心點(diǎn),對(duì)于競爭的觀察來講,會(huì)看他們之間的距離有哪些,品牌之間的特點(diǎn)有哪些,可以看全局?jǐn)?shù)據(jù),也可以看切片數(shù)據(jù),如果對(duì)哪個(gè)感興趣的就可以把鼠標(biāo)放在這個(gè)地方,然后就有局部的展示,也可以進(jìn)行其他更有趣的操作,這就是我們?cè)诳梢暬矫娴南到y(tǒng)展示。我們做文本分析以后要了解它背后是什么樣的一些人,僅僅用文本分析的數(shù)據(jù)是無法達(dá)到這樣的目的,我們把文本分析也和搜索數(shù)據(jù)、地理位置數(shù)據(jù)結(jié)合在一起,可以對(duì)這個(gè)用戶進(jìn)行畫像。維度是很多的,包括基本屬性、消費(fèi)場景、位置屬性、信用屏風(fēng)和興趣愛好,這個(gè)人他的需求是什么,競爭態(tài)勢是什么,這些消費(fèi)者他是什么樣的人,這樣再去做營銷建議的時(shí)候,就更加能夠把這些信息整合起來,提供的信息更加實(shí)用。
下面再看一下文本分析在線調(diào)研系統(tǒng)的結(jié)合,我們公司有自己的在線調(diào)研系統(tǒng),它的特點(diǎn)可以滿足各類應(yīng)用場景,主要想講的是語音問卷,我們?cè)谧鰡柧淼臅r(shí)候,往往會(huì)有一些開放題,如果在線的情況下他去敲,他的耐性是不夠的,肯定會(huì)有很多信息的流失,如果給他另外的一種方式,比如說去錄音,這樣收集的信息就會(huì)多一些,我們的頁面可以采集他的語音,然后進(jìn)行語音識(shí)別,最后可以實(shí)現(xiàn)自動(dòng)編碼。我分享一下我們做下來的經(jīng)驗(yàn),自填答卷同樣的被訪者,單題人均編碼總數(shù)是1.9個(gè),而語音答題單體編碼量達(dá)到了2.6個(gè)。第二個(gè)就是對(duì)于我們來講,有一個(gè)問題是在語音解析、語音識(shí)別這一塊,我們是用語音識(shí)別的HM做的工作,這部分工作對(duì)于后面分析的影響是比較大的,第一不同廠家后面的識(shí)別率是不一樣的,如果你做這一塊東西的時(shí)候,可以做一些對(duì)比,看哪些領(lǐng)域和哪種語音識(shí)別系統(tǒng)更加貼合,要做這個(gè)測試,我們測試下來,除了跟廠家之外,還跟題目類型、調(diào)研行業(yè)很有關(guān)系。這個(gè)展示我們是做了這些類型產(chǎn)品的測試,我們看到桶裝水是最高的,游戲是最低的,包括智能家居,我們判斷說越熟知的品類識(shí)別率越高。另外是回答的內(nèi)容,比如說是什么品牌,它的識(shí)別率是蠻低的,再往上是什么時(shí)候在哪里,就會(huì)高一些,還有喜歡不喜歡這樣題目的識(shí)別,語音識(shí)別和文本識(shí)別還是很不一樣的,文本越長的識(shí)別率就會(huì)越高,我所要介紹的內(nèi)容大致就是這么多,謝謝大家。
主持人:感謝吳總,接下來有請(qǐng)浩頓英菲市場信息咨詢有限公司合伙人李光明先生,為我們發(fā)表題為《用戶共創(chuàng),助力品牌新方向》的主旨演講。
|