本文來源 |網(wǎng)易新聞
編輯整理 |今日讀法網(wǎng)
【商業(yè)與法治輿情觀察室 http://www.blaw.org.cn 快訊】
文中圖片來源于網(wǎng)絡,如有侵權(quán)請聯(lián)系后刪除
今天凌晨,《科學》雜志一連上線了6篇論文,第一次公布了人類基因組的完整序列。這項跨越3年的研究成果,填補了20年前測序結(jié)果留下的空白,是人類基因組研究的一個重大里程碑。
這次的完整測序和分析,是114位科學家共同完成的。這些科學家來自不同國家的33個科研機構(gòu),他們也被稱為“端粒到端粒聯(lián)盟”(Telemere-to-Telomere Consortium, T2T)。
填補8%的空白
對人類基因組的研究,已經(jīng)有50多年的歷史。其中最有名的研究項目,是1990年啟動的“人類基因組計劃”。2003年4月14日,多國實驗室耗費10多年的時間和30億美元的資金,完成了人類基因組計劃的測序工作,首次繪制出了人類基因組的圖譜。當時的測序工作,大大推動了基因組學的研究,增加了我們對人體和疾病的理解。
但是,當時人類基因組計劃得出的序列中,仍然留下了大約8%的空白,其中包含了很多高度重復的DNA序列,加起來有一條染色體那么長。
人類的1至22號染色體 | Andreas Bolzer et al.
這8%的缺失,源于20年前測序技術(shù)的限制。當時使用的測序方法是“短讀長測序”技術(shù)(“short-read" technology),一次只能讀取很短的一段基因序列。打個比方,如果把基因組的一部分想象成段落中的一句話,比如“今天早上小明吃了個包子”,通過短讀長測序,研究者能得到很多簡短的小部件,比如“今天”、“小明”、“明吃”、“包子”;再經(jīng)過“拼圖”式的分析,他們就可以拼湊出這句完整的話。
然而,研究者雖然能知道這段基因里含有的簡短小序列,卻無法知道這段基因被重復了多少次。也就是說,研究者能夠拼湊出“今天早上小明吃了個包子”這句話,但卻不知道這句話在整個段落里是否重復出現(xiàn)、重復了多少次。正因缺少這些信息,在過去的20年里,重復序列一直是基因組學研究的一大難題。
直到兩種新技術(shù)誕生,人類基因組學的研究才迎來了轉(zhuǎn)折點。這兩種技術(shù)都屬于“長讀長測序”技術(shù)(“l(fā)ong-read" technology),一種是牛津納米孔測序(Oxford Nanopore DNA sequencing),它可以一次讀取多達100萬個DNA堿基,準確度中等;另一種是PacBio HiFi測序,一次只能讀取2萬個堿基,但準確度近乎完美。這兩種技術(shù),都可以一次性測出大塊的DNA序列,研究者可以直接看到一整個句子甚至段落,也就能知道某個序列連續(xù)重復了多少次。
T2T聯(lián)盟的聯(lián)合主席凱倫·米加(Karen Miga)和亞當·菲利比(Adam Phillippy)| T2T Consortium
從2019年初開始,T2T聯(lián)盟的科學家將這兩種新技術(shù)結(jié)合起來,致力于攻克這些重復序列,填補缺失的空白。2020年底,他們公布了階段性成果——X染色體和8號染色體的完整組裝。經(jīng)過之后2年的努力,現(xiàn)在,他們終于揭開了真正完整的人類基因組序列,從端粒到端粒,包含了每一條染色體。
看到全部的基因遺產(chǎn)
2001年,人類基因組計劃公布的參考基因組被稱為GRCh38,之后又在不斷地被完善和修改;這一次,T2T聯(lián)盟公布的新參考基因組叫做T2T-CHM13,是GRCh38的升級版。新增加的DNA序列總計近2億個堿基對,不僅填補了之前空缺的5個染色體短臂,還揭曉了基因組中最復雜的區(qū)域——在端粒和著絲粒周圍的高度重復的DNA序列。
用HiFi測序測出的CHM13基因組的示意圖 | 參考文獻[1]
這次完整測序,還糾正了以前的很多錯誤,比如一些之前沒能被檢測到的片段重復。這些長鏈重復DNA曾被認為是基因組里的“垃圾區(qū)”,沒有什么實際的作用。但是,近年來,越來越多的研究都表明,這些重復序列對人類的進化和疾病可能是非常重要的。這一次,科學家們找到了基因組的最后一塊拼圖,終于拼湊出了打開寶箱的鑰匙,接下來就可以研究其中尚未為人所知的寶藏了。
參與此次研究的其中一個實驗組,來自美國加州大學圣克魯斯基因組學研究所。研究所所長大衛(wèi)·豪斯勒(David Haussler)說:“現(xiàn)在我們可以站在山頂,俯瞰下面的所有景色,看到我們?nèi)祟惾康幕蜻z產(chǎn)。”
完整基因組數(shù)據(jù)已經(jīng)在NCBI和GitHub上公開 | NCBI
下一步,研究者們將會重點關注從前難以研究的重要區(qū)域,比如著絲粒。這次新增加的基因組序列,90%都來自著絲粒。著絲粒對基因信息的遺傳極為重要,在減數(shù)分裂中,成對染色體就是從著絲粒開始分裂的。科學家認為,很多與疾病相關的基因變異,就藏在這絲粒的長段重復DNA之中。
科學家們還將嘗試測序出更多的完整基因組。T2T會和人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium)合作,計劃測出350個人的完整基因組序列,創(chuàng)建一個“人類泛基因組參考”,從基因組的角度來呈現(xiàn)和解讀人類種群的多樣性。
T2T 聯(lián)盟的聯(lián)合主席亞當·菲利比(Adam Phillippy)認為,完整基因組的測序和分析,對每個人都有好處。在不久的將來,對一個人的完整基因組測序會變得更便宜、更簡單,研究者和醫(yī)護人員也能從中識別出所有的基因變體,找到與疾病有關的部分,從而為人們的醫(yī)療與生活提供建議。
網(wǎng)頁鏈接:https://www.163.com/dy/article/H3SA6RQU05118OGM.html