各位領(lǐng)導(dǎo)、各位來(lái)賓,謝謝有這個(gè)機(jī)會(huì)讓我來(lái)分享這個(gè)題目。我目前為止是在阿里巴巴和第一財(cái)經(jīng)同時(shí)做兩件不一樣的事情,在阿里做的事情其實(shí)是剛才講的與淘寶的指數(shù)有一些關(guān)系,我們想把阿里代表著中國(guó)零售業(yè)11%多的數(shù)據(jù),通過(guò)很多的統(tǒng)計(jì)分析數(shù)據(jù)挖掘的方式,去發(fā)揮社會(huì)價(jià)值,第一財(cái)經(jīng)有一個(gè)數(shù)據(jù),大家也關(guān)注到了,通過(guò)一個(gè)數(shù)據(jù)頻道向外輸出,我是對(duì)接比較底層的數(shù)據(jù)挖掘、技術(shù)方面的事情。
同時(shí)我們?cè)诘谝回?cái)經(jīng)做了一個(gè)機(jī)器寫文章這樣一個(gè)項(xiàng)目,這個(gè)項(xiàng)目也是在大數(shù)據(jù)背景下產(chǎn)生出來(lái)的,特別是今天有很多是做統(tǒng)計(jì)的,特別是在市場(chǎng)研究領(lǐng)域,其實(shí)很有趣的事情,通過(guò)數(shù)據(jù)能不能講述很多故事出來(lái),通過(guò)我們知道的很多的輿情,通過(guò)官方發(fā)布的一些文件,我們能不能總結(jié)出一些有趣的解讀或者有趣的延伸。同時(shí)我在介紹的是一個(gè)數(shù)據(jù)產(chǎn)品涉及到整個(gè)過(guò)程當(dāng)中,從原始的數(shù)據(jù),結(jié)構(gòu)化的非結(jié)構(gòu)化的,很臟很亂的數(shù)據(jù),怎么樣經(jīng)過(guò)一步一步的清洗,最后變成大家可以讀的文字,可以讀的文章,這樣一個(gè)過(guò)程。
這是今天的演講綱要,項(xiàng)目背景、技術(shù)、細(xì)節(jié)以及未來(lái)的展望。
我們做這個(gè)事情有三個(gè)方面的背景,第一個(gè)方面,因?yàn)榧夹g(shù)的發(fā)展,因?yàn)槲冶旧磉^(guò)去將近二十年都在技術(shù)領(lǐng)域,目睹了爭(zhēng)奪大數(shù)據(jù)人工智能,以及人工智能技術(shù)還有數(shù)據(jù)挖掘技術(shù)的發(fā)展。簡(jiǎn)單來(lái)講,其實(shí)人工智能數(shù)據(jù)挖掘的想法,在很早的時(shí)候就有了,在五十年代,那些MIT的教授在設(shè)想未來(lái)智能化時(shí)代的時(shí)候,就想到了計(jì)算機(jī)有一天可能會(huì)像人腦一樣分析事情。但是后來(lái)只停留在概念階段,大概因?yàn)榧兇獾姆椒ㄊ遣荒芙鉀Q問(wèn)題的,一定要有數(shù)據(jù)支撐,經(jīng)歷了好幾十年的,當(dāng)然方法也在發(fā)展,但是更重要的是,當(dāng)數(shù)據(jù)積累到一定程度的時(shí)候,現(xiàn)在其實(shí)是大數(shù)據(jù),其實(shí)還是提供了一個(gè)從存儲(chǔ)到計(jì)算這樣一個(gè)環(huán)境,但是人工智能才是把數(shù)據(jù)轉(zhuǎn)化價(jià)值發(fā)揮出來(lái),然后利用數(shù)據(jù)價(jià)值解決一些問(wèn)題。
這塊無(wú)論在美國(guó)還是在中國(guó),在全球市場(chǎng)上炒的蠻厲害的領(lǐng)域,也有一些相應(yīng)的產(chǎn)品出現(xiàn)。
第二個(gè)方面,因?yàn)槲覀冊(cè)诘谝回?cái)經(jīng),有那么多的記者編輯,記者編輯在大數(shù)據(jù)時(shí)代,或者DT時(shí)代,面臨很多的壓力,首先就是資訊的源頭比以前多了N多倍,同時(shí)要寫出有份量的,或者說(shuō)有洞察力的文章,單純靠以前那種拍腦袋或者憑經(jīng)驗(yàn)已經(jīng)不夠了,數(shù)據(jù)在這個(gè)過(guò)程當(dāng)中會(huì)扮演非常重要的角色。還有阿里和一財(cái)?shù)耐顿Y入股關(guān)系,導(dǎo)致一些技術(shù),特別是數(shù)據(jù)方面的技術(shù),在這里沉淀,在與媒體相關(guān)的數(shù)據(jù)新聞?lì)I(lǐng)域沉淀。
其實(shí)我在做這個(gè)事情的過(guò)程當(dāng)中,不知道大家有多少人學(xué)文科的有多少人學(xué)理科的,我是理科生,理科生思考問(wèn)題的時(shí)候比較理科。但是我們的客戶,我們的用戶都是文科生,都是一財(cái)?shù)挠浾呔庉嫞鋵?shí)這個(gè)過(guò)程當(dāng)中,問(wèn)到一個(gè)最大的問(wèn)題,機(jī)器到底能寫出什么東西,這是我們經(jīng)常被問(wèn)到的一個(gè)問(wèn)題,對(duì)于寫作來(lái)說(shuō),特別是對(duì)于文科生來(lái)講,寫作是專業(yè),在這個(gè)過(guò)程當(dāng)中,其實(shí)有一個(gè)很大的發(fā)揮空間,然后自由發(fā)揮的過(guò)程,其實(shí)對(duì)于數(shù)據(jù)技術(shù)也好,或者說(shuō)人工智能也好,講究的是在一定的約束條件下的一個(gè)問(wèn)題解決方案,大家如果學(xué)過(guò)簡(jiǎn)單的數(shù)學(xué)的話,如果一個(gè)問(wèn)題約束條件沒(méi)有,光要做一些事情,那個(gè)事情有無(wú)窮多解,像寫作,為什么同樣寫一個(gè)東西,同樣一個(gè)題目出來(lái)幾百萬(wàn)篇不一樣的文章,在沒(méi)有約束的情況下,這是非常多樣化的事情,但是技術(shù)要解決的問(wèn)題,是一個(gè)有約束的問(wèn)題,有約束才能找出一個(gè)最優(yōu)解,所以在這個(gè)過(guò)程當(dāng)中,我們?cè)谀膫€(gè)地方相遇了,就是能夠用邏輯或者說(shuō)用約束加上目標(biāo)函數(shù)能夠表達(dá)的寫作場(chǎng)景,我們就有可能把這樣的文章寫出來(lái),待會(huì)兒可以看一些案例。
我們產(chǎn)品叫做DT稿王,一個(gè)很好玩的名字,我們認(rèn)為是DT時(shí)代,給寫稿技術(shù)的一種呈現(xiàn),我們想解決這個(gè)里面的媒體還有一些商業(yè)機(jī)構(gòu),最后也許到寫作愛(ài)好者,他們?cè)趯懽鬟^(guò)程當(dāng)中的一些問(wèn)題,一些痛點(diǎn),簡(jiǎn)單地講,機(jī)器人干的事情,最好讓機(jī)器人干,比如說(shuō)你在這里抄一點(diǎn),那里拷貝一點(diǎn),無(wú)數(shù)個(gè)元素,這是機(jī)器最擅長(zhǎng)干的事情,應(yīng)該由機(jī)器來(lái)干。另外就是人干不了的事情,機(jī)器應(yīng)該嘗試來(lái)干,比如說(shuō)我們要從幾十萬(wàn)條微博當(dāng)中總結(jié)出來(lái)最重要的幾條,最重要的一些信息,機(jī)器干這個(gè)事情比較好,我們朝這個(gè)方面的定位在努力。
我們先看一下機(jī)器人能夠?qū)懯裁礀|西,目前我們能夠?qū)懭N文章。第一種就是簡(jiǎn)單的數(shù)字講故事,這也適合在座的工作領(lǐng)域,統(tǒng)計(jì)領(lǐng)域有很多數(shù)據(jù),這些數(shù)據(jù)人要能讀出來(lái),帶有一定的邏輯讀出來(lái),需要把數(shù)據(jù)轉(zhuǎn)換成故事,這個(gè)是邏輯可以講通的,只要數(shù)據(jù)的條件數(shù)據(jù)的維度和數(shù)據(jù)的意義和內(nèi)涵,以及代表的邏輯能夠整理出來(lái),這個(gè)故事是可以講出來(lái)的,這是一個(gè)進(jìn)出口的一個(gè)數(shù)據(jù),根據(jù)這個(gè)表格我們可以寫一句話,而且根據(jù)這個(gè)表格后面推導(dǎo)出一些定性的描述,這是第一種。
這個(gè)更有趣一點(diǎn),這是一個(gè)二級(jí)市場(chǎng),數(shù)據(jù)五秒鐘就有一次更新,但是人又不可能隨時(shí)盯著這個(gè)數(shù)據(jù)看,而且即使看,背后的邏輯也不知道,我們做的事情就是根據(jù)這些高頻數(shù)據(jù),加上一些分析邏輯,加上一些預(yù)判條件,把一切重要的從新聞的角度,重要的一些異常的信息給報(bào)道出來(lái),這是一種蠻好的寫作場(chǎng)景,左邊是一些收盤的數(shù)據(jù),還有換手率的報(bào)告,這是我們每一分鐘看A股市場(chǎng),看哪只股票有重大的波動(dòng),這個(gè)可以做的蠻好的,這是第二種數(shù)據(jù)能寫的。
第二個(gè)方面是信息的提取,或者說(shuō)重要信息的總結(jié)功能,這里舉了一個(gè)例子,上市公司公告,這也是一個(gè)特別大的數(shù)據(jù),而且特別復(fù)雜,每天都有很多上市公司公告發(fā)布,我們就要判斷哪些公告是有價(jià)值的,判斷出來(lái)有價(jià)值以后,能不能寫一個(gè)摘要出來(lái),就是這樣一個(gè)場(chǎng)景,其實(shí)做好這個(gè)事情也是非常有難度的,這種場(chǎng)景是機(jī)器干的還不錯(cuò)的,像前面講的給你幾十萬(wàn)條微博,總結(jié)重要的微博,機(jī)器干這個(gè)事情比較適合。
另外就是真正反映機(jī)器水平的稿件,叫做多種信息關(guān)聯(lián),剛才提到了CPI的報(bào)告,這是六月份的CPI的報(bào)告,CPI肯定有一個(gè)簡(jiǎn)單的數(shù)據(jù)報(bào)告,這是一個(gè)數(shù)據(jù)講故事的寫法,最后一段引用統(tǒng)計(jì)局一段評(píng)論,這段評(píng)論中間透露出一些不但是數(shù)字的信息,還有一些定量的信息,比如說(shuō)在哪些豬肉市場(chǎng)、蔬菜市場(chǎng)的一些影響。接下來(lái)的是我們?cè)谖⒉┪⑿派?,還有通過(guò)一些現(xiàn)代的調(diào)研所收集到的在那一段時(shí)間之內(nèi)的很多的經(jīng)濟(jì)學(xué)家還有觀察家、意見(jiàn)領(lǐng)袖,他們對(duì)中國(guó)經(jīng)濟(jì)的看法,我們不能把所有收集的數(shù)據(jù)列上去,之間有關(guān)聯(lián)的強(qiáng)弱,在這個(gè)過(guò)程當(dāng)中是一個(gè)機(jī)器要學(xué)習(xí)要匹配的過(guò)程,所以這樣的話我們通過(guò)一種計(jì)算的辦法,匹配出來(lái),再加上一些過(guò)渡,不文章自動(dòng)生成出來(lái),這個(gè)文章從去年十一月份開始,每個(gè)月都在生成,現(xiàn)在編輯看都不看就發(fā)了,發(fā)在一財(cái)網(wǎng)上面,最近我們發(fā)現(xiàn)評(píng)論還蠻多的,有很多人評(píng)論,六月份的CPI可能比較熱,沒(méi)有人抱怨這是機(jī)器寫的,這個(gè)還蠻有意思的事情。
還有一個(gè)是多種信息的關(guān)聯(lián),這個(gè)場(chǎng)景是這樣的,根據(jù)我們收集到的公告和行情的數(shù)據(jù),我們可以對(duì)歷史進(jìn)行一個(gè)回測(cè),我們知道哪種公告對(duì)股市的影響是最大的,這樣的話我們可以選擇去報(bào)哪一類公告,同時(shí)我們把歷史的表現(xiàn)同時(shí)在歷史當(dāng)中與它最接近的那些公司,或者那些板塊的一些表現(xiàn)給報(bào)道出來(lái),這樣的話達(dá)到一種通過(guò)公告通過(guò)市場(chǎng)關(guān)聯(lián)公告這樣一個(gè)連鎖關(guān)聯(lián)分析,產(chǎn)生這樣一個(gè)稿件,我們覺(jué)得這個(gè)挺有意思的,我們希望在這當(dāng)中繼續(xù)發(fā)展,變成親友參考價(jià)值的文章。
其實(shí)我們的技術(shù)整個(gè)數(shù)據(jù)產(chǎn)生其實(shí)是為了實(shí)現(xiàn)上面的那些案例,講到機(jī)器人寫作,很多人都覺(jué)得是帶有一種科幻色彩看這個(gè)事情,但是對(duì)于我們來(lái)講,這是一個(gè)實(shí)打?qū)嵉臄?shù)據(jù)產(chǎn)品、數(shù)據(jù)項(xiàng)目,把各個(gè)公開信息源的,宏觀的、市場(chǎng)的、公告的、公關(guān)公司的、社交媒體的各大類數(shù)據(jù),以最快的速度收集過(guò)來(lái),進(jìn)行解析、挖掘,最后根據(jù)各種不同寫作場(chǎng)景做出來(lái),在這個(gè)過(guò)程當(dāng)中,目前用到最多的技術(shù)就是信息提取,現(xiàn)在的數(shù)據(jù)源大部分是文本類的,即使有數(shù)字,數(shù)字也是嵌在文字當(dāng)中的,我們有很多信息提取,包括重要信息提舉的技術(shù)。這方面就不展開了。
另外還有一套,剛才講到的數(shù)據(jù)之間怎么樣進(jìn)行關(guān)聯(lián),講到數(shù)據(jù),如果要能夠發(fā)現(xiàn)一些新的東西,很多時(shí)候要通過(guò)這種數(shù)據(jù)之間的關(guān)聯(lián),像前面介紹的,大家知道所謂大數(shù)據(jù)挖掘,最典型的就是沃爾瑪?shù)钠【坪湍虿粷竦陌咐?dāng)中發(fā)揮出來(lái)數(shù)據(jù)挖掘?qū)ふ谊P(guān)聯(lián),和以前的推理有很大的不一樣,我們?cè)谶@個(gè)過(guò)程當(dāng)中在構(gòu)建一套基于金融數(shù)據(jù)或者基于宏觀、微觀數(shù)據(jù)的關(guān)聯(lián)架構(gòu),關(guān)聯(lián)算法進(jìn)行開發(fā)。我們開發(fā)了一個(gè)產(chǎn)品,DT稿王這個(gè)產(chǎn)品以后上線,有很多編輯在使用。目前一財(cái)?shù)碾娨暪?jié)目走馬燈有一部分稿件是我們提供的,生成以后自動(dòng)發(fā)布到后臺(tái),編輯看一下之后發(fā)布。第二個(gè)就是第一財(cái)經(jīng)7×24小時(shí)的看板,全球的重要財(cái)經(jīng)信息,我們也提供很多稿件。
另外一個(gè)方面就是第一財(cái)經(jīng)的快新聞,主要是與公司相關(guān)的公告報(bào)道,我們還在建設(shè)過(guò)程當(dāng)中,很有可能變成一個(gè)流量入口,我們會(huì)原創(chuàng)性的生成很多數(shù)據(jù)。另外一財(cái)成立了新媒體,一把中國(guó)的希望財(cái)經(jīng)信息向海外報(bào)道,稿件的呈現(xiàn)形式是英文的,關(guān)于市場(chǎng)的關(guān)于公告的很多稿件也是DT稿王生成的。
我們是從媒體的角度做自動(dòng)寫作這樣一件事情,希望在媒體領(lǐng)域發(fā)揮很大的效率,一方面把這些編輯記者的一些寫作邏輯在這里面實(shí)現(xiàn),同時(shí)媒體從互聯(lián)網(wǎng)的途徑來(lái)講,應(yīng)該是要獲取流量的,從流量獲取角度我們希望這種自動(dòng)寫稿的方式,能夠提供更多的線索還有素材。
第二個(gè)階段,能夠幫助一些分析師進(jìn)行預(yù)判,把這些分析邏輯用文本的形式用分析報(bào)告的形式體現(xiàn)出來(lái)。
第三個(gè)階段,我們想更多的走向商業(yè)化的場(chǎng)景,在電商的環(huán)節(jié)在自媒體的環(huán)節(jié)提供自助寫稿或者輔助寫稿的方式。
這是未來(lái)的規(guī)劃,1.0時(shí)代我們做定制化的寫作平臺(tái),與此對(duì)應(yīng)的我們使用的人工智能技術(shù)多數(shù)是一種簡(jiǎn)單邏輯的描述,來(lái)描述稿件結(jié)構(gòu),客戶群的話希望是一些媒體機(jī)構(gòu),因?yàn)樗麄兊膶懽鲌?chǎng)景非常集中,他們的需求非常集中。
第二個(gè)階段我們希望是開放式的智能寫作平臺(tái),這樣一個(gè)平臺(tái)能夠幫很多的編輯自己創(chuàng)建寫作場(chǎng)景。
第三個(gè)階段,是一個(gè)寫作助手,我們可以延伸到一些寫字愛(ài)好者,把他們利用的技術(shù)用到深入學(xué)習(xí),可以幫助這些寫字愛(ài)好者,幫助他們寫作。
我希望這樣的一個(gè)PPT能夠給大家一些思路,也希望如果你們有很多數(shù)據(jù),希望數(shù)據(jù)能夠產(chǎn)生相應(yīng)的內(nèi)容,我們也可以一起合作做這個(gè)事情。我預(yù)計(jì)在將來(lái),機(jī)器靠自己的邏輯,協(xié)助人進(jìn)行寫作,謝謝大家!

|