很有幸在這里分享一下我們的研究成果,今天的主題是自主算法助力中國(guó)基因大數(shù)據(jù)走向精準(zhǔn)醫(yī)療?,F(xiàn)在醫(yī)療已經(jīng)走向精準(zhǔn)醫(yī)療的時(shí)代,現(xiàn)在大家都知道,每個(gè)人生老病死和基因有關(guān)系,精準(zhǔn)醫(yī)療的概念和以往的醫(yī)療不一樣的概念就是是針對(duì)于病癥,同樣的病癥開(kāi)一樣的藥,有的人吃了藥好了,有的人吃了藥病沒(méi)有好?;蜥t(yī)療根據(jù)每個(gè)人的基因信息進(jìn)行有針對(duì)性的診斷和治療,同樣的人根據(jù)不同的基因信息,醫(yī)生開(kāi)不同的藥方。這就有前提了,我們首先準(zhǔn)確知道個(gè)人的基因信息,基因大數(shù)據(jù)真的很大,是所有你用大數(shù)據(jù)當(dāng)中最大的大數(shù)據(jù),和其他所有的行業(yè)都有顯著的區(qū)別,就是數(shù)據(jù)量真的特別大,如果做基因組測(cè)序,拿到的文件有三四百G,如果要把每個(gè)人的各個(gè)器官測(cè)一下,而且要反映一下動(dòng)態(tài)變化,至少產(chǎn)生的數(shù)據(jù)量是每天十T以上,除了我們?nèi)说募?xì)胞以外,我們?nèi)松砩嫌泻芏辔⑸?,這些微生物也有自己的基因組,而且在變化,基因大數(shù)據(jù)真的極端的龐大,現(xiàn)在已經(jīng)有很高的技術(shù)可以進(jìn)行全基因組測(cè)序,這都不是什么問(wèn)題,這會(huì)產(chǎn)生海量的數(shù)據(jù),但是產(chǎn)生的海量數(shù)據(jù)真的能夠指導(dǎo)醫(yī)療實(shí)踐嗎?我們首先來(lái)看一下,整個(gè)基因大數(shù)據(jù)產(chǎn)生的過(guò)程,DNA,基因組DNA,現(xiàn)在的技術(shù)怎么做,打斷成無(wú)數(shù)的小片斷,之后進(jìn)行大規(guī)模的平行測(cè)序,一次可以測(cè)序幾億個(gè)DNA,你拿到的小片斷的DNA數(shù)據(jù),一般人根本沒(méi)有辦法,第一步就是要把這些多的小片斷,每個(gè)小片斷向人的標(biāo)準(zhǔn)基因組進(jìn)行比對(duì),于是這個(gè)計(jì)算量是極其恐怖的。2009年權(quán)威的生物學(xué)雜志說(shuō),如果用傳統(tǒng)的序列比對(duì)算法,要用超級(jí)計(jì)算機(jī)算上幾天,顯然這樣的成本是不可接受的,所以人們不斷開(kāi)發(fā)一些快速理論算法做這樣一些事情,可以節(jié)省很多計(jì)算資源。這些算法的設(shè)計(jì)思想都是一樣的,大幅度提高速度,犧牲一點(diǎn)點(diǎn)精度,犧牲1%、2%的精度,換取幾百倍幾千倍的速度提升,這我們做科研沒(méi)有,但是如果做到醫(yī)療方面,1%、2%的誤差就會(huì)導(dǎo)致非常致命的結(jié)果,這和其他的大數(shù)據(jù)不一樣,比如說(shuō)企業(yè)決策,稍微錯(cuò)一點(diǎn),可能問(wèn)題不是特別大,后面有糾偏機(jī)會(huì),或者說(shuō)這個(gè)風(fēng)險(xiǎn)我是可以承擔(dān)的,就算失敗了,風(fēng)險(xiǎn)是可以承擔(dān)的,但是對(duì)于一個(gè)病人,尤其是危重病人,根本沒(méi)有機(jī)會(huì)有第二次機(jī)會(huì)給他治療,所以說(shuō)這種致命的結(jié)果,將往往造成非常大的悲劇,這樣的悲劇已經(jīng)實(shí)實(shí)在在的發(fā)生了。
現(xiàn)在用二代次序技術(shù),最廣泛使用的二代測(cè)序技術(shù),在臨床經(jīng)驗(yàn)上面是無(wú)創(chuàng)產(chǎn)檢,究竟準(zhǔn)不準(zhǔn)呢?做的人都說(shuō)準(zhǔn),但是實(shí)際上我們有權(quán)威的醫(yī)學(xué)文獻(xiàn)報(bào)道,這個(gè)診斷錯(cuò)誤是在0.1%—0.2%,看起來(lái)錯(cuò)誤率不高,但是唐氏綜合癥的發(fā)生率是萬(wàn)分之五到萬(wàn)分之六,一個(gè)診斷技術(shù)的錯(cuò)誤率比發(fā)病率還要高,這樣的診斷技術(shù)和不診斷有什么區(qū)別。
我們?cè)倏匆幌氯ツ?,美?guó)ACMG發(fā)布的基因測(cè)序結(jié)果,美國(guó)ACMG是美國(guó)基因檢測(cè)行業(yè)的標(biāo)準(zhǔn)制定者,非常權(quán)威的機(jī)構(gòu)。組織了一次次序的此時(shí),找了57個(gè)病人,患了什么病都是非常清楚的,把他們的全基因組進(jìn)行了測(cè)序,希望從中找到他們的致命突變,看看二代測(cè)序技術(shù)能不能用于診斷,但是依然沒(méi)有找到基因突變,不該找到的突變找到了一大堆,這個(gè)案例里面假隱性率是百分之百,這篇文章里面研究者仔細(xì)分析了57個(gè)平均究竟是什么原因使得致病突變沒(méi)有被檢測(cè)出來(lái),除了七個(gè)基因是因?yàn)閷?shí)驗(yàn)誤差導(dǎo)致的以外,其他的五十個(gè)都是由于算法不準(zhǔn)確導(dǎo)致的,因?yàn)樗惴ǔ隽苏`差,導(dǎo)致該查出來(lái)的沒(méi)有查出來(lái),不該查出來(lái)的查了一大堆。這個(gè)東西如果真的用于臨床診療,我們舉一個(gè)喬布斯的例子,喬布斯死于胰腺癌,他患了癌癥之后,他說(shuō)把基因組測(cè)序了,因?yàn)槲抑阑蚪M有哪個(gè)地方發(fā)生了突變,就可以找到合適的藥物進(jìn)行治療,我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人,結(jié)果這兩條他都沒(méi)實(shí)現(xiàn),結(jié)果喬布斯花了十萬(wàn)美元把基因組測(cè)序之后,并未分析出任何有價(jià)值的結(jié)論,這就是現(xiàn)在整個(gè)基因測(cè)序行業(yè)非常大的問(wèn)題,不準(zhǔn)確。
除此之外,我們還會(huì)看到另外一個(gè)方面的威脅,就是中國(guó)的基因信息流失已經(jīng)造成了中國(guó)國(guó)家安全的嚴(yán)重威脅。我們首先從一個(gè)大家十幾年的例子來(lái)看,找到了2002年4月12號(hào)的時(shí)候中國(guó)產(chǎn)經(jīng)新聞報(bào)的報(bào)道,美國(guó)研究機(jī)構(gòu)出錢(qián)在中國(guó)人身上進(jìn)行研究實(shí)驗(yàn),把研究結(jié)果送回美國(guó)研究,研究最適合做基因武器研究。中國(guó)人必須保護(hù)中國(guó)人自己的基因資源。2003年發(fā)生了非典,這個(gè)大家都知道,中國(guó)是情況非常嚴(yán)重,差點(diǎn)就控制不住了。2003年4月13號(hào),香港大公報(bào)報(bào)道,俄羅斯醫(yī)學(xué)院院士聲稱(chēng),非典型肺炎是一種生化武器,并不是空穴來(lái)風(fēng)的,現(xiàn)在生物信息學(xué)已經(jīng)可以告訴大家,非典型肺炎的病毒并不來(lái)自于自然變異,而是來(lái)自于人工合成。在九十年代,曾經(jīng)參與過(guò)許多美國(guó)在中國(guó)進(jìn)行的人體基因?qū)嶒?yàn)的童增2003年出版了一本書(shū),《最后一道防線:中國(guó)人基因流失的憂思錄》。經(jīng)過(guò)了非典之后,中國(guó)基因信息流失情況什么樣呢。
2012年12月10日,某中國(guó)測(cè)序公司的測(cè)序量占到了全世界的一半以上,中國(guó)已經(jīng)成為世界上最大的基因研究國(guó)家。2013年8月5號(hào),人民日?qǐng)?bào)報(bào)道,某國(guó)內(nèi)基因測(cè)序公司占據(jù)全球40%的基因測(cè)序份額。但是所有成果基因數(shù)據(jù)提交美國(guó)、日本、歐盟的相應(yīng)基因數(shù)據(jù)庫(kù),以前泄露的只是部分基因,現(xiàn)在泄露的是全基因組,一點(diǎn)隱私都沒(méi)有了,甚至是花中國(guó)人的錢(qián)給外國(guó)主動(dòng)送上隱私,與此同時(shí),歐美對(duì)自己的臨床基因數(shù)據(jù)卻不向中國(guó)開(kāi)放,是嚴(yán)格禁止中國(guó)人獲取。這一切都是因?yàn)槿绻麤](méi)有自己的核心算法,機(jī)器可以買(mǎi),但是這么多的基因大數(shù)據(jù)沒(méi)有辦法有效分析,就必將受制于人。我相信在座的每一位都不相信自己的基因數(shù)據(jù)被國(guó)外獲取,有一天可能他們會(huì)針對(duì)你個(gè)人基因?qū)δ阕约哼M(jìn)行精準(zhǔn)打擊。
面對(duì)傳統(tǒng)算法不準(zhǔn)確不安全的現(xiàn)實(shí),我們?cè)趺崔k?其實(shí)中國(guó)在自主發(fā)展道路上,在很多方面都有這樣的尷尬,比方說(shuō)天氣預(yù)報(bào),以前中國(guó)沒(méi)有自己的超級(jí)計(jì)算機(jī),沒(méi)有自己的氣象預(yù)報(bào)算法,把中國(guó)收集到的氣象數(shù)據(jù),交給美國(guó)人,用美國(guó)的方法進(jìn)行分析,這曾經(jīng)一度是中國(guó)的一個(gè)很恥辱的事情,那現(xiàn)在大家知道,中國(guó)有了自主的超算,已經(jīng)雄踞榜首,中國(guó)也有了自己的算法,對(duì)中國(guó)的氣象水文數(shù)據(jù)進(jìn)行分析,現(xiàn)在中國(guó)的氣象預(yù)報(bào)已經(jīng)走在了世界的前列,現(xiàn)在精準(zhǔn)醫(yī)療呢?完全是一樣的,只不過(guò)現(xiàn)在把中國(guó)的基因數(shù)據(jù)交給美國(guó)人,用美國(guó)的方法進(jìn)行分析,現(xiàn)在我們是可以怎么做呢?超算我們已經(jīng)有了,我們需要解決自己的算法問(wèn)題,而且要解決國(guó)外算法不準(zhǔn)確的問(wèn)題,現(xiàn)在已經(jīng)有了,我們自己開(kāi)發(fā)了高精度的算法,稱(chēng)之為FANSe系列,現(xiàn)在我們使用的第三代,主要解決的就是傳統(tǒng)的測(cè)序算法里面不精確不安全的問(wèn)題,這個(gè)系列算法是目前完全由中國(guó)自主開(kāi)發(fā)的算法,而且是唯一一個(gè)錯(cuò)誤率可以忽略不計(jì),而且可以保持非常高的速度,我們與天和二號(hào)有合作,我們計(jì)算了一下,用天和二號(hào)全部的CPU算率,一個(gè)月之內(nèi)分析完全中國(guó)十三億人的基因組,準(zhǔn)確度怎么樣,這是一個(gè)已經(jīng)發(fā)表的研究結(jié)果,我們驗(yàn)證了1994個(gè)位點(diǎn),假陰性率0%,假陽(yáng)性率0%,目前為止仍然沒(méi)有希望發(fā)現(xiàn)一個(gè)錯(cuò)誤。這種精度是極其可怕的,也就是說(shuō)可以讓一切的算法相形見(jiàn)絀,這樣的算法我們有信心用于臨床對(duì)患者進(jìn)行診斷,這是我們?nèi)ツ曜龅臏y(cè)試,對(duì)于肺癌患者進(jìn)行了FANSe檢測(cè),如果這基因有突變,可以適用各種靶向藥,吃了以后可以非??斓暮闷饋?lái),如果基因沒(méi)有突變,就不適合用基因靶向藥,吃不上靶向藥不但沒(méi)有療效,而且會(huì)引起很?chē)?yán)重的負(fù)作用。我們用全基因組測(cè)序的方法進(jìn)行檢測(cè),從全基因測(cè)序里面分析基因突變,找了十二個(gè)病人,傳統(tǒng)算法的分析結(jié)果是三個(gè)病人有突變,九個(gè)沒(méi)有突變,用FANSe計(jì)算,分析有六個(gè)病人有基因突變,實(shí)際情況進(jìn)行驗(yàn)證之后發(fā)現(xiàn),就是FANSe算出來(lái)的六個(gè)人真的有基因突變,而剩下的六個(gè)沒(méi)有。我們看一下這三個(gè)人,如果有傳統(tǒng)的算法,他們就將錯(cuò)失靶向治療的機(jī)會(huì),對(duì)于他們來(lái)講治療效果是天差地別的,這是去年我們另外一個(gè)案例,一個(gè)胰腺癌病人,已經(jīng)到了晚期,去了多家公司做測(cè)序,都說(shuō)沒(méi)有致癌突變,不適合用任何的靶向藥,醫(yī)生沒(méi)有辦法,只能看著器官衰竭下去,結(jié)果到了最后,家屬找到我們,想讓我們給他再做一次次序,分析一下究竟有沒(méi)有突變,可以不可以靶向藥,我們做了測(cè)序,結(jié)果發(fā)現(xiàn)有KRAS突變,并且有可用的靶向藥。同樣是胰腺癌病人,如果喬布斯可以多活幾年,到現(xiàn)在結(jié)果可能完全不一樣。
這么精確的算法,在整個(gè)世界科學(xué)界上面,可以說(shuō)也是立下的汗馬功勞,2013年的時(shí)候在北京開(kāi)了一次內(nèi)部會(huì)議,是人類(lèi)蛋白質(zhì)組計(jì)劃開(kāi)的會(huì)議,那次會(huì)議上面,我們的FANSe算法和世界上最大的基因公司的傳統(tǒng)算法進(jìn)行了一次面對(duì)面的PK,下面坐了一排專(zhuān)家,FANSePK掉了眾多的外國(guó)傳統(tǒng)算法,被人類(lèi)蛋白質(zhì)組計(jì)劃定為核心算法,同時(shí)被定為2014年首要突出貢獻(xiàn)。人類(lèi)蛋白質(zhì)組計(jì)劃是人類(lèi)基因組計(jì)劃后續(xù)的計(jì)劃,我們給這個(gè)計(jì)劃提供了核心的支柱算法。
因?yàn)檎麄€(gè)算法全部是自主開(kāi)發(fā)的,有非??煽氐奶匦?,我們知道每個(gè)細(xì)節(jié),對(duì)于不同的醫(yī)學(xué)或者是科研新應(yīng)用,我們可以開(kāi)發(fā)后端的許多模塊,是可以很好拓展,并且基礎(chǔ)在我們這里,后續(xù)的所有的模塊和應(yīng)用全部可以基于這樣一個(gè)非常穩(wěn)健和準(zhǔn)確的基礎(chǔ)進(jìn)行開(kāi)發(fā),并且后續(xù)所有的東西都可以開(kāi)發(fā),因此就形成了一個(gè)完全自主,并且有極佳拓展性的新的生態(tài)系統(tǒng)。
這個(gè)生態(tài)系統(tǒng)和云端計(jì)算結(jié)合以后有怎樣的一種效果呢?
這是我們2014年提出來(lái)的高精度云端測(cè)序方案,取來(lái)樣本之后,在本地化測(cè)序已經(jīng)很多了,測(cè)序完了之后,海量的數(shù)據(jù)進(jìn)行算法進(jìn)行壓縮和上傳,到了云端用FANSe系統(tǒng)進(jìn)行全自動(dòng)高精度分析,之后得到了一個(gè)簡(jiǎn)明報(bào)告。我們?cè)囍匆幌乱粋€(gè)實(shí)際案例,2015年西安有一個(gè)病人突發(fā)病毒感染,醫(yī)生不知道怎么辦,這個(gè)病人也很著急,他們找到我們,當(dāng)時(shí)系統(tǒng)剛剛建立起來(lái),我說(shuō)我們可以試試看,于是他進(jìn)行了一次與時(shí)間賽跑的過(guò)程,從1月23號(hào)晚上8點(diǎn)鐘進(jìn)行血清分離,24號(hào)下午兩點(diǎn)測(cè)序完成,兩個(gè)小時(shí)的云平臺(tái)分析之后得出來(lái)的結(jié)論是他感染的病毒是猴痘病毒,這個(gè)病毒在中國(guó)非常罕見(jiàn),醫(yī)生沒(méi)有經(jīng)驗(yàn)很正常,他以前在法國(guó)留學(xué)剛回來(lái),這個(gè)病在歐洲相對(duì)比較多一點(diǎn),這都可以解釋了,醫(yī)生就按猴痘病毒來(lái)治,一個(gè)月之后這個(gè)病人就康復(fù)出院了,從這個(gè)例子我們可以看出,對(duì)于這些疑難雜癥,病人可以及時(shí)得到準(zhǔn)確的情報(bào),從而得到及時(shí)有效的治療,對(duì)于國(guó)家安全方面來(lái)講,可以有效防止疫情擴(kuò)散,非典的時(shí)候用了三個(gè)月的時(shí)間才搞清楚非典是由什么病毒引起的,但是那個(gè)時(shí)候非典已經(jīng)傳播到全國(guó)各個(gè)城市了,2013年的H7N9禽流感,即便用當(dāng)時(shí)最先進(jìn)的技術(shù),也花了一個(gè)多星期才檢測(cè)出了H7N9,也是造成了非常大的損失。在公共衛(wèi)生領(lǐng)域,如果你能夠把檢測(cè)的時(shí)間縮短到七天以?xún)?nèi),就不會(huì)造成全國(guó)性大范圍的毀滅性的打擊,像非典這種,如果可以縮短到兩天以?xún)?nèi),甚至不會(huì)給周?chē)鷰?lái)什么樣的影響?,F(xiàn)在我們已經(jīng)可以做到十九個(gè)小時(shí),其中十八個(gè)小時(shí)在測(cè)序,一個(gè)小時(shí)在分析,而且基于云端的數(shù)據(jù)分析模式,可以服務(wù)于全國(guó)各個(gè)地方,乃至全世界各個(gè)地方的人,為他們提供及時(shí)準(zhǔn)確的基因信息服務(wù)。成果在去年年底的時(shí)候被TED邀請(qǐng)?jiān)谖靼沧隽艘淮窝葜v。
我們的核心是精準(zhǔn)可控不再受制于人,與可穿戴設(shè)備結(jié)合,和遠(yuǎn)程醫(yī)療服務(wù)可以結(jié)合,與社交互動(dòng)可以結(jié)合,與公共衛(wèi)生公共安全也是可以緊密結(jié)合的。
因此,精準(zhǔn)自主算法可以助力中國(guó)基因數(shù)據(jù)成為真正的大數(shù)據(jù),為精準(zhǔn)醫(yī)療應(yīng)用鋪平道路,謝謝大家!
|