人類基因組計(jì)劃的現(xiàn)狀
人類基因組計(jì)劃(human genome project,HGP)旨在闡明人類基因組的結(jié)構(gòu)、組成、全部3×109核苷酸的序列以及基因在染色體上的定位及其功能,從而破譯人類全部遺傳信息。美國于1990年正式啟動(dòng)HGP,估計(jì)到2003年完成人類基因組全部序列的研究。目前,HGP已成為范圍的合作項(xiàng)目。本文就HGP以及由HGP延伸而來的后基因組計(jì)劃(post-genome project)的發(fā)展現(xiàn)狀作一綜述。
關(guān)鍵詞:人類基因組 基因克隆 基因組學(xué) 結(jié)構(gòu)基因組 功能基因組
人類基因組計(jì)劃(human genome project,HGP)是由美國科學(xué)家、諾貝爾獎(jiǎng)獲得者Renato dulbecco于1986年在雜志《Science》上發(fā)表的文章中提出的,旨在闡明人類基因組脫氧核糖核酸(DNA)3×109核苷酸的序列,闡明所有人類基因并確定其在染色體的位置,從而破譯人類全部遺傳信息。美國于1990年正式啟動(dòng)人類基因組計(jì)劃,估計(jì)到2003年完成人類基因組全部序列測(cè)定。歐共體、日本、加拿大、巴西、印度、中國也相繼提出了各自的基因組研究計(jì)劃[1]。由于各國政府和科學(xué)家的共同努力,HGP目前已在為范圍的合作項(xiàng)目;隨著數(shù)理化、信息、材料等學(xué)科的滲透和工業(yè)化管理模式的引進(jìn),HGP已真正成為生命科學(xué)領(lǐng)域的科學(xué)工程,基因組(genomics)作為一門新興學(xué)科也應(yīng)運(yùn)而生。
與此同時(shí),科學(xué)界也在思索人類基因組計(jì)劃完成后的下一步工作,因此就有了“后基因組計(jì)劃”(post-genome project)的提法。大多數(shù)科學(xué)家認(rèn)為原定于2003年所完成的人類基因組計(jì)劃只是一個(gè)以測(cè)序?yàn)橹鞯慕Y(jié)構(gòu)基因組學(xué)(structural genomics)研究,而所謂的“后基因組計(jì)劃”應(yīng)該是對(duì)基因功能的研究,即所謂的功能基因組學(xué)(functional genomics)。此外,一些新的概念如:“蛋白質(zhì)組(proteome)”、“環(huán)境基因組學(xué)(environmental genomics)”和“腫瘤基因組解剖學(xué)計(jì)劃(cancer genome anatomy project,CGAP)”等等也在不斷向外延伸。
一、結(jié)構(gòu)基因組學(xué)
?。ㄒ唬┤祟惢蚪M作圖
人類基因組作圖根據(jù)使用的標(biāo)記和手段不同,初期的作圖有二種:一是通過計(jì)算連鎖的遺傳標(biāo)記之間重組頻率而確定它們相對(duì)距離的遺傳連鎖圖,一般用厘摩(cM)來表示;二是確定各遺傳標(biāo)記之間物理距離的物理圖,一般用堿基(bp)或千堿基(kb)或兆堿基(Mb)來表示。1cM的遺傳距離大致上相當(dāng)于1Mb的物理距離。隨著研究工作的進(jìn)展,遺傳圖和物理圖逐漸發(fā)生整合,在此基礎(chǔ)上大量引入基因標(biāo)記,從而形成了新一代的轉(zhuǎn)錄圖[1]。
1.遺傳連鎖圖 遺傳連鎖圖(genetic map)繪制需要遺傳標(biāo)記,早期的遺傳標(biāo)記主要為生化標(biāo)記,20世紀(jì)80年代中期以限制性片段長度多態(tài)性(RFLP)、串聯(lián)重復(fù)序列拷貝多態(tài)性和小衛(wèi)星重復(fù)順序等遺傳標(biāo)記為主,這類標(biāo)記的數(shù)量較少,信息也較低;20世紀(jì)80年代后期發(fā)展的短串聯(lián)重復(fù)序列(short tandem repeat,STR)也稱微衛(wèi)星(microsalite,MS)標(biāo)記,主要為二核苷酸重復(fù)序列,如:(CA)n,它們?cè)谌旧w上分布較均勻,信息含量明顯高于RFLP,因而成為遺傳連鎖分析極為有用的標(biāo)記;近年來,單個(gè)堿基的多態(tài)性(single nucleotide polymorphism,SNP)標(biāo)記又被大量使用,其意義已超出了遺傳作圖的范圍,而成為研究基因組多樣性和識(shí)別、定位疾病相關(guān)基因的一種新標(biāo)記。
2.物理圖 物理圖(physical map)包含了兩層意義,一是獲得分布于整個(gè)基因組的30000個(gè)序列標(biāo)簽位點(diǎn)(sequence tagged site,STS),這可使基因組每隔100kb距離就有一個(gè)標(biāo)記;二是在此基礎(chǔ)上構(gòu)建覆蓋每條染色體的大片段DNA克隆,如:酵母人工染色體(yeast artificial chromosome,YAC)或細(xì)菌人工染色體(bacterial artificial chromosome,BAC)、人工附加染色體(human artificial episomal chromosome,HAEC)和人工噬菌體染色體(P1 bacteriophage artificial chromosome,PAC)等連續(xù)克隆。這些圖譜的制作進(jìn)一步定位其它基因座提供了詳細(xì)的框架[2]。
3.轉(zhuǎn)錄圖 構(gòu)建轉(zhuǎn)錄圖的前提條件是獲得大量基因轉(zhuǎn)錄本即信使核糖核酸(mRNA)的序列,人類基因組中的基因數(shù)目約在10萬左右,構(gòu)建轉(zhuǎn)錄圖首先需要獲得人類基因的表達(dá)序列標(biāo)簽(expressed sequence tag,EST),以此建立一張人類的轉(zhuǎn)錄圖,并與遺傳圖的交叉參照。
4.DNA序列的生物信息學(xué) HGP一開始就與信息高速公路和數(shù)據(jù)庫技術(shù)形成了同步發(fā)展。迄今,上四個(gè)大的生物信息中心即美國的國家生物技術(shù)信息中心(NCBI)、基因組序列數(shù)據(jù)庫(GSDB)、歐洲分子生物實(shí)驗(yàn)室(EMBL)和日本DNA數(shù)據(jù)庫(DDBJ)已經(jīng)建立和維持了源自數(shù)百種生物的互補(bǔ)DNA(cDNA)和基因組DNA序列的大型數(shù)據(jù)庫。這些中心和的基因組研究實(shí)驗(yàn)室通過網(wǎng)點(diǎn)、電子郵件或者直接與服務(wù)器和數(shù)據(jù)庫而獲得的搜尋系統(tǒng),使得研究者可以在多種不同的分析系統(tǒng)中對(duì)序列數(shù)據(jù)庫提出質(zhì)詢,這些分析包括基因的發(fā)現(xiàn)、蛋白質(zhì)模體的鑒別、調(diào)控元件的分析、重復(fù)序列的鑒別、相似性的分析、核苷酸組成的分析以及物種間的比較等。
?。ǘ┗蚪M的基本結(jié)構(gòu)和進(jìn)化
人類基因組研究的目的,不僅為了單純地積累數(shù)據(jù),而且要提示數(shù)據(jù)中所蘊(yùn)藏的內(nèi)在規(guī)律[3],從而更好地認(rèn)識(shí)生命體。近年來,隨著模式生物體測(cè)序的相繼完成和人類基因組測(cè)序速度的加快(到1999年12月已宣布完成人類第22號(hào)染色體的*測(cè)序),特別是生物信息所提供的強(qiáng)有力的分析和綜合手段,使人人能夠逐漸透過浩瀚的基因組序列信息,去探索一些更為本質(zhì)的問題,如:基因組的復(fù)雜度與生物進(jìn)化、基因組編碼序列的結(jié)構(gòu)、基因和蛋白家族、基因家族的大小及其進(jìn)化。
?。ㄈ┘膊〉幕蚪M學(xué)
HGP的直接始動(dòng)因素是要解決包括腫瘤在內(nèi)的人類疾病的分子遺傳學(xué)問題[4],因此與人類健康密切相關(guān)。另一方面,8000多種單基因遺傳病和多種大面積危害人群健康的多基因疾?。ㄈ纾耗[瘤、心血管病、代謝性疾病、神經(jīng)疾病、精神疾病、免疫性疾病)的致病基因和疾病相關(guān)基因占人類基因組中相當(dāng)大的一部分。因此,疾病基因的定位、克隆和鑒定是HGP的核心部分。
20世紀(jì)90年代之前,絕大多數(shù)人類遺傳性疾病的原發(fā)生化基礎(chǔ)尚不清楚,無法用表型-蛋白質(zhì)-基因的傳統(tǒng)途徑進(jìn)行研究。在HGP的遺傳和物理作圖帶動(dòng)下,出現(xiàn)了zui初被稱為“反求遺傳”、90年代初又改稱為“定位克隆法”的全新思路。該思路的關(guān)鍵內(nèi)容是:應(yīng)用細(xì)胞遺傳學(xué)定位和家第連鎖分析方法,首先將疾病基因定位于染色體的特定位置,然后通過進(jìn)一步的遺傳和物理作圖,使相關(guān)區(qū)域壓縮至1Mb之內(nèi),此時(shí)即可構(gòu)建YAC、BAC、PAC、HAEC或粘粒(comid)等克隆重疊樣,從中分離基因,并在正常人和患者的DNA中進(jìn)行結(jié)構(gòu)比較,zui終識(shí)別出疾病基因。包括囊性纖維化、Huntington舞蹈病、遺傳性結(jié)腸癌、乳腺癌等一大批重要疾病的基因是通過“定位克隆”發(fā)現(xiàn)的,從而為這些疾病的基因診斷和未來的基因治療奠定了基礎(chǔ)。隨著人類基因圖的日臻完善,一旦某個(gè)疾病位點(diǎn)被定位,即可從局部的基因圖中遴選出結(jié)構(gòu)、功能相關(guān)的基因進(jìn)行分析,將大大提高疾病基因發(fā)現(xiàn)的效率。
目前,人類疾病的基因組學(xué)研究,已深入到多基因疾病這一難點(diǎn)。多基因疾病難以用一般的家系遺傳連鎖分析取得突破,需要在人群和遺傳標(biāo)記的選擇、數(shù)學(xué)模型的建立、統(tǒng)計(jì)方法的改進(jìn)等方面進(jìn)行不斷的探索。
二、功能基因組學(xué)
HGP當(dāng)前的整體發(fā)展使功能基因組學(xué)提到了議事日程[5],出現(xiàn)了結(jié)構(gòu)和功能基因組學(xué)向功能基因組學(xué)過渡、轉(zhuǎn)化的過程。一般認(rèn)為,在功能基因的組研究中可能的核心科學(xué)問題有基因組的多樣性和進(jìn)化規(guī)律;基因組的表達(dá)及其調(diào)控;模式生物體基因組研究等。
?。ㄒ唬┗蚪M多樣性
人類是一個(gè)具有多樣性的群體,不不同群體和個(gè)體在生物學(xué)性狀以及在對(duì)疾病的易感性/抗性上的差別,反映了進(jìn)化過程中基因組與內(nèi)、外環(huán)境相互作用的結(jié)果。開展人類基因組多樣性的系統(tǒng)研究,無論是對(duì)于了解人類的起源和進(jìn)化,還是對(duì)于醫(yī)學(xué)均會(huì)產(chǎn)生重大的影響。各種常見多因素疾?。ㄈ纾焊哐獕?、糖尿病和精神分裂癥等)相關(guān)基因的研究將成為功能基因組時(shí)代的研究熱點(diǎn)。除了利用多態(tài)性遺傳標(biāo)記進(jìn)行精細(xì)定位這一傳統(tǒng)途徑,也將采用基因組水平再測(cè)序的方法直接識(shí)別變異序列,即選取一定數(shù)量的受累和未受累個(gè)體,對(duì)所有疾病相關(guān)或候選基因的全序列(或其編碼區(qū))進(jìn)行再測(cè)序,準(zhǔn)確定位其變異相關(guān)標(biāo)記位點(diǎn)。同樣,腫瘤研究也需要對(duì)腫瘤相關(guān)基因進(jìn)行大規(guī)模的再測(cè)序。
?。ǘ┳R(shí)別人類基因的共同變異
已知大多數(shù)人類基因的等位基因數(shù)量是有限的,常僅有2~3種。形成這種遺傳多樣性局限性的原因,很有可能是因?yàn)楝F(xiàn)代人類來源于一個(gè)相當(dāng)小的群體,這有助于揭開許多疾病敏感性的奧秘。如:載脂蛋白E基因有三種主要變型(E2、E2和E4),可以解釋老年癡呆癥和心血管疾病的風(fēng)險(xiǎn)性;血管緊張素原轉(zhuǎn)換酶(ACE)與心血管疾病一定相關(guān)性;化學(xué)趨化因子受體CKR-5在一定程度上影響對(duì)人類免疫缺陷病毒(HIV)的敏感性等。非編碼區(qū)對(duì)評(píng)價(jià)疾病風(fēng)險(xiǎn)也是重要的,定位非編碼區(qū)變異的方法可以是對(duì)調(diào)控區(qū)域變異的系統(tǒng)性篩查,也可利用精密遺傳圖在人類群體中識(shí)別祖先染色體節(jié)段。
三、藥物基因組學(xué)
基因組多樣性也在一定程度上決定了人體對(duì)藥物的反應(yīng),通過對(duì)影響藥物代謝或效應(yīng)通路有關(guān)基因的編碼序列的再測(cè)序,有可能提示個(gè)體對(duì)藥物反應(yīng)差異的遺傳學(xué)基礎(chǔ),這就是“藥物基因組學(xué)”(pharmacogenomics)的主要內(nèi)容[6];以此作為延伸,提示個(gè)體對(duì)環(huán)境反應(yīng)差異的遺傳學(xué)基礎(chǔ)的環(huán)境基因組學(xué)也已露端倪。
四、蛋白質(zhì)組學(xué)
蛋白質(zhì)組學(xué)是要從整體上研究蛋白質(zhì)及其修飾狀態(tài)。目前正在發(fā)展標(biāo)準(zhǔn)化和自動(dòng)化的二維蛋白質(zhì)凝膠電泳的工作體系,包括用一個(gè)自動(dòng)系統(tǒng)來提取人類細(xì)胞的蛋白質(zhì),繼而用色譜儀進(jìn)行部分分離,再用質(zhì)譜儀檢測(cè)二維修飾,如:磷酸化和糖基化。此外,也有人在設(shè)計(jì)和制作各種蛋白質(zhì)生物芯片;蛋白質(zhì)的另一個(gè)重要工作內(nèi)容是建立蛋白質(zhì)相互作用的系統(tǒng)目錄。生物大小即蛋白-蛋白和蛋白-核酸之間的互作構(gòu)成了生命活動(dòng)的基礎(chǔ),這些互作有可能以通用的或特殊的“陷井”(如:酵母雙雜交系統(tǒng))加以識(shí)別[7]。
總之,基因組學(xué)正方興未艾,其現(xiàn)實(shí)意義和深遠(yuǎn)意義已得到全體人類的共識(shí),預(yù)期在不遠(yuǎn)的將來,人類基因組學(xué)將對(duì)人類的健康、計(jì)劃生育、優(yōu)生優(yōu)育產(chǎn)生重大影響。