若論近30年人類(lèi)生物醫(yī)學(xué)基礎(chǔ)研究,遺傳密碼的測(cè)量必定是最耀眼的成果之一。人類(lèi)代代繁衍,靠什么實(shí)現(xiàn)遺傳?遺傳信息儲(chǔ)存在哪里?它們是什么樣子?
我們知道,遺傳信息儲(chǔ)存在DNA(脫氧核糖核酸)里,長(zhǎng)長(zhǎng)的DNA序列由四種堿基A、G、C、T排列組成,不同的序列段記載不同的信息。有些段落含有制造蛋白質(zhì)的信息,這些段落就是我們常說(shuō)的基因。一整套人類(lèi)DNA序列被稱(chēng)作“人類(lèi)基因組”,它不僅包含所有人類(lèi)基因,還包含大量不用來(lái)編碼蛋白質(zhì)的其他有用信息。DNA在每個(gè)細(xì)胞的細(xì)胞核里組成染色體,DNA要釋放的信息先轉(zhuǎn)錄產(chǎn)生mRNA(信使核糖核酸),mRNA再翻譯制造蛋白質(zhì)進(jìn)而完成各種生物學(xué)功能,這就是著名的“中心法則”。
一個(gè)人的遺傳密碼到底有多長(zhǎng)?約30億個(gè)字符。如果一頁(yè)打上3000個(gè)遺傳密碼,用A4紙打印出來(lái)裝訂成書(shū),厚度能達(dá)到約100米,有30多層樓那么高。20世紀(jì)90年代初,“人類(lèi)基因組計(jì)劃”正式啟動(dòng),開(kāi)啟人類(lèi)在分子水平上認(rèn)識(shí)自身遺傳密碼的新航程。2001年,人類(lèi)基因組精細(xì)圖譜及其初步分析結(jié)果發(fā)布,使我們看到由四種符號(hào)組成的一維人類(lèi)遺傳密碼的真實(shí)面貌。人類(lèi)基因組研究促成基因檢測(cè)等一系列新技術(shù)出現(xiàn),還帶來(lái)基因診斷、基因治療、靶向藥物等醫(yī)學(xué)新手段,生物醫(yī)學(xué)進(jìn)入建立在基因組大數(shù)據(jù)基礎(chǔ)上的精準(zhǔn)醫(yī)學(xué)時(shí)代。
在分子水平上認(rèn)識(shí)人類(lèi)生命活動(dòng)
“人類(lèi)基因組計(jì)劃”不僅找到了各種人類(lèi)基因,積累了大量基因組數(shù)據(jù),還積累了由基因組轉(zhuǎn)錄出來(lái)的各種RNA(核糖核酸)數(shù)據(jù),以及由mRNA翻譯產(chǎn)生的各種蛋白質(zhì)數(shù)據(jù)。RNA的集合稱(chēng)為轉(zhuǎn)錄組,蛋白質(zhì)的集合稱(chēng)為蛋白質(zhì)組,機(jī)體所有代謝產(chǎn)物組成代謝組,此外還有表觀(guān)遺傳組等。通過(guò)大數(shù)據(jù)研究這些“組”及其相互關(guān)系的工作即稱(chēng)“組學(xué)大數(shù)據(jù)”研究,組學(xué)大數(shù)據(jù)的介入成為當(dāng)代生物醫(yī)學(xué)發(fā)展的典型特征。
有了這些大數(shù)據(jù),就能夠從分子水平上了解人體生長(zhǎng)、發(fā)育、正常生理活動(dòng)的本質(zhì)和基礎(chǔ),還能夠通過(guò)對(duì)健康人和病人組學(xué)大數(shù)據(jù)的比較找到各種疾病在分子水平的病因。我們已經(jīng)知道,約有6000種以上的人類(lèi)疾患是由各種基因突變引起的,比如有人估計(jì)與癌癥相關(guān)的原癌基因約有上千個(gè)。大數(shù)據(jù)的分析還帶來(lái)很多與疾病相關(guān)的新發(fā)現(xiàn),比如發(fā)現(xiàn)人類(lèi)基因組中不編碼蛋白質(zhì)的序列(非編碼序列)的突變也可能導(dǎo)致疾病。
更多的疾病是環(huán)境(包括致病微生物)與人類(lèi)基因及其產(chǎn)物相互作用的結(jié)果。在醫(yī)學(xué)領(lǐng)域,由于組學(xué)大數(shù)據(jù)的應(yīng)用,人們也開(kāi)始關(guān)心其他相關(guān)數(shù)據(jù)的搜集、整理,共同形成醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)。比如,記載病人基本情況的電子病歷,可穿戴設(shè)備測(cè)量的生理指標(biāo),超聲、核磁、CT等影像數(shù)據(jù)以及各種環(huán)境大數(shù)據(jù)等。當(dāng)今人類(lèi)面臨的人口、健康、食物、環(huán)境、資源等重大問(wèn)題都同生物醫(yī)學(xué)大數(shù)據(jù)密切相關(guān),研究生物醫(yī)學(xué)大數(shù)據(jù)對(duì)人類(lèi)健康與可持續(xù)發(fā)展具有重要意義。
為診斷治療帶來(lái)新技術(shù)新方法
當(dāng)我們知道了人類(lèi)全部基因在染色體上的位置、它們的序列特征及其表達(dá)規(guī)律和產(chǎn)物特征,就可以有效判定各種疾患的分子機(jī)制,進(jìn)而發(fā)展合適的診斷和治療手段。生物醫(yī)學(xué)大數(shù)據(jù)研究為生物醫(yī)學(xué)發(fā)展提供前所未有的機(jī)遇,為疾病診斷與治療帶來(lái)許多新技術(shù)、新方法,如基因診斷、基因治療、靶向藥物等。
基因診斷。伴隨基因組大數(shù)據(jù)的收集、分析,人們發(fā)現(xiàn)很多疾病包括腫瘤是基因突變?cè)斐傻?,研究人員把遺傳密碼的變化記錄下來(lái)并保存到數(shù)據(jù)庫(kù)中,然后通過(guò)測(cè)序或基因芯片檢查病人基因是否發(fā)生了這種變化,以幫助疾病確診,這就是基因診斷。不同人得了同一種疾病,基因檢測(cè)可能會(huì)發(fā)現(xiàn)他們基因突變的位點(diǎn)完全不同,因此對(duì)同種藥物的反應(yīng)也不同,必須因人而異地制定醫(yī)療方案,這種個(gè)性化治療更加精準(zhǔn)。
基因治療。即將正常外源基因通過(guò)基因轉(zhuǎn)移技術(shù)插入病人的適當(dāng)受體細(xì)胞中,使外源基因制造的產(chǎn)物得以糾正或補(bǔ)償因基因變異或基因表達(dá)異常引起的疾病。目前,基因治療的對(duì)象已經(jīng)由單基因遺傳病逐步拓展到惡性腫瘤、感染性疾病、心血管疾病、自身免疫性疾病、代謝性疾病等重大疾病。
靶向藥物。當(dāng)我們知道哪些基因序列變化會(huì)導(dǎo)致疾病,就可以通過(guò)測(cè)量局部基因序列來(lái)鑒定導(dǎo)致疾病的基因。比如,特定基因的突變可引起癌癥,這些突變了的基因就是腫瘤治療的目標(biāo),也就是“靶向”,針對(duì)這些靶向設(shè)計(jì)的藥物就是靶向藥物,靶向藥物的治療目標(biāo)是具體的、精確的。比如,赫賽汀就是以特定基因?yàn)榘邢蛟O(shè)計(jì)的乳腺癌治療藥物。
人類(lèi)有望進(jìn)入精準(zhǔn)醫(yī)學(xué)時(shí)代
基因組研究不斷深入和基于大數(shù)據(jù)的新方法、新技術(shù)投入應(yīng)用,將使醫(yī)療更加精準(zhǔn)有效,人類(lèi)有望進(jìn)入精準(zhǔn)醫(yī)學(xué)時(shí)代。
精準(zhǔn)醫(yī)學(xué)是組學(xué)大數(shù)據(jù)與醫(yī)學(xué)的結(jié)合。精準(zhǔn)醫(yī)學(xué)在使疾病診斷更加準(zhǔn)確、治療更加有效的同時(shí),還能為醫(yī)療體系帶來(lái)更加重要、更為本質(zhì)的變化。尤其是,幫助人們?cè)跊](méi)有發(fā)病的情況下根據(jù)基因組序列的變化預(yù)測(cè)疾病發(fā)生的潛在風(fēng)險(xiǎn),從而能對(duì)任何個(gè)人在其成長(zhǎng)任何時(shí)期進(jìn)行健康評(píng)估、預(yù)測(cè),并制定相應(yīng)干預(yù)方案,進(jìn)而做到健康保障。所以,精準(zhǔn)醫(yī)學(xué)的長(zhǎng)遠(yuǎn)意義是使醫(yī)療關(guān)口前移:從診斷治療到健康保障。當(dāng)前的醫(yī)療體系以病人為主體,以疾病診斷治療為目的。將來(lái)的醫(yī)療體系則是面對(duì)所有社會(huì)成員,對(duì)社會(huì)成員整個(gè)生命周期進(jìn)行監(jiān)測(cè),從而實(shí)現(xiàn)以健康評(píng)估、健康預(yù)測(cè)和健康干預(yù)為目標(biāo)的健康保障。
實(shí)現(xiàn)精準(zhǔn)是目標(biāo),我們現(xiàn)在離這一目標(biāo)還有很大距離,存在多方面巨大挑戰(zhàn)。比如人類(lèi)基因組解譯的挑戰(zhàn)。人類(lèi)基因組上編碼蛋白質(zhì)的區(qū)域,也就是基因,只占一小部分,不超過(guò)整個(gè)基因組的3%,其余97%左右的DNA序列統(tǒng)稱(chēng)為非編碼DNA。近年來(lái)大量研究表明,占人類(lèi)基因組97%的非編碼序列具有重要的生物學(xué)功能,且與人類(lèi)疾病直接相關(guān)。迄今為止,我們對(duì)這些非編碼序列以及相關(guān)的非編碼基因和非編碼RNA的功能只有很少了解。在這種情況下,實(shí)現(xiàn)精準(zhǔn)是困難的。
再比如大數(shù)據(jù)挖掘的挑戰(zhàn)。生物醫(yī)學(xué)相關(guān)的大數(shù)據(jù)不僅數(shù)量大,而且是多尺度、異質(zhì)化、高度復(fù)雜的。這些數(shù)據(jù)小到分子、細(xì)胞,大到器官、整體,尺度相差甚遠(yuǎn);這些數(shù)據(jù)有的是數(shù)字、符號(hào),如基因組數(shù)據(jù);有的是波形,如心電、腦電;有的是圖像,如超聲、核磁、CT。同時(shí),生命活動(dòng)和疾病發(fā)生是動(dòng)態(tài)的,往往不是由一個(gè)基因決定,可能有多個(gè)基因參與。因此,大數(shù)據(jù)解析還必然涉及復(fù)雜網(wǎng)絡(luò)。面對(duì)如此復(fù)雜的數(shù)據(jù)挖掘,人工智能技術(shù)將成為從海量、復(fù)雜的生物醫(yī)學(xué)大數(shù)據(jù)中獲取生命活動(dòng)知識(shí)的有效工具。
基因組大數(shù)據(jù)發(fā)展路上的各種挑戰(zhàn),其實(shí)也為科學(xué)技術(shù)原始創(chuàng)新提供巨大機(jī)遇?,F(xiàn)在作為臨床分子標(biāo)記的只是占人類(lèi)基因組約3%的編碼序列,如果把97%的非編碼序列中與疾病相關(guān)的分子標(biāo)記都挖掘出來(lái),將會(huì)增加無(wú)數(shù)新的分子標(biāo)記和藥物設(shè)計(jì)的靶標(biāo)。
精準(zhǔn)醫(yī)學(xué)是我們向往的目標(biāo),實(shí)現(xiàn)它還有很長(zhǎng)的路要走。人類(lèi)通過(guò)不斷努力,遺傳密碼逐步破譯,人類(lèi)醫(yī)學(xué)必將更加精準(zhǔn)。期待這一天早日到來(lái)。
(作者為中國(guó)科學(xué)院生物物理所研究員、中國(guó)科學(xué)院院士)
關(guān)鍵詞: 基因組大數(shù)據(jù) 精準(zhǔn)醫(yī)學(xué)