這張圖片顯示了661405個(gè)細(xì)菌基因組的部分圖。圖片來(lái)源:美國(guó)麻省理工學(xué)院等
美國(guó)麻省理工學(xué)院和法國(guó)巴斯德研究所的科學(xué)家已經(jīng)開(kāi)發(fā)出一種在個(gè)人電腦上重建整個(gè)基因組(包括人類(lèi)基因組)的技術(shù)。這種技術(shù)比目前最先進(jìn)的方法快100倍,并僅使用1/5的資源。
9月14日,相關(guān)研究發(fā)表于細(xì)胞出版社(Cell Press)旗下期刊Cell Systems。該技術(shù)使基因組數(shù)據(jù)的表達(dá)更緊湊,其靈感來(lái)源于為語(yǔ)言模型提供濃縮構(gòu)建模塊的是單詞而非字母。
“我們可以在一臺(tái)普通的筆記本電腦上迅速組裝整個(gè)基因組和宏基因組,包括微生物基因組。”麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室教授、論文作者Bonnie Berger說(shuō),“這種能力對(duì)于評(píng)估與疾病和細(xì)菌感染(如敗血癥)有關(guān)的腸道微生物群的變化至關(guān)重要,這樣我們就可以更快地治療疾病,拯救生命。”
自人類(lèi)基因組計(jì)劃以來(lái),基因組組裝領(lǐng)域已經(jīng)取得了長(zhǎng)足進(jìn)展。經(jīng)過(guò)了10多年的國(guó)際合作,2003年,人類(lèi)基因組計(jì)劃完成了第一個(gè)完整的人類(lèi)基因組組裝,耗資約27億美元。
雖然,目前人類(lèi)基因組組裝項(xiàng)目不再需要幾年,但仍然需要幾天時(shí)間和巨大的計(jì)算機(jī)能力。研究人員表示,第三代測(cè)序技術(shù)提供了數(shù)以萬(wàn)計(jì)堿基對(duì)的兆兆字節(jié)高質(zhì)量基因組序列,但使用如此龐大的數(shù)據(jù)進(jìn)行基因組組裝具有挑戰(zhàn)性。
目前的技術(shù)涉及對(duì)所有可能的讀取結(jié)果進(jìn)行配對(duì)比較,為了比目前技術(shù)更有效地實(shí)現(xiàn)基因組組裝,Bruijn和同事將目光投向了語(yǔ)言模型。從de Bruijn圖(一種用于基因組組裝的簡(jiǎn)單、高效的數(shù)據(jù)結(jié)構(gòu))概念出發(fā),研究人員開(kāi)發(fā)了一種最小空間化的de Bruin圖(mdBG),它使用了核苷酸短序列而不是單個(gè)核苷酸。
Bruijn說(shuō):“我們的mdBG只存儲(chǔ)了總核苷酸的一小部分,同時(shí)保留了整個(gè)基因組結(jié)構(gòu),這使它們比經(jīng)典de Bruijn圖的效率高出幾個(gè)數(shù)量級(jí)。”
研究人員用該方法收集了黑腹果蠅的高保真數(shù)據(jù)(幾乎具有完美的單分子讀取精度),以及太平洋生物科學(xué)公司提供的人類(lèi)基因組數(shù)據(jù)。他們?cè)谠u(píng)估所得基因組時(shí)發(fā)現(xiàn),與其他基因組匯編器相比,基于mdBG的軟件所需時(shí)間僅為1/33、隨機(jī)存取內(nèi)存為1/8。新軟件組裝高保真人類(lèi)基因組數(shù)據(jù),比Peregrine匯編器快81倍,內(nèi)存使用量為1/18,比hifiasm匯編器快338倍,內(nèi)存使用量為1/19。
接下來(lái),研究人員建立了一個(gè)包含661406個(gè)細(xì)菌基因組的索引,這是迄今為止同類(lèi)索引中規(guī)模最大的。他們發(fā)現(xiàn),這種新技術(shù)可以在13分鐘內(nèi)搜索到所有的耐藥基因,而使用標(biāo)準(zhǔn)序列比對(duì)需要7個(gè)小時(shí)。
Berger說(shuō):“我們知道該技術(shù)是有效的,但不知道在進(jìn)一步優(yōu)化代碼后,它能在真實(shí)數(shù)據(jù)上擴(kuò)展得如此好。”
巴斯德研究所研究員、該研究參與者之一的Rayan Chikhi說(shuō):“新技術(shù)不需要一些通常昂貴的預(yù)處理步驟,比如大多數(shù)基因組組裝方法需要的錯(cuò)誤校正。”
“我們還可以處理高達(dá)4%錯(cuò)誤率的測(cè)序數(shù)據(jù)。”Berger補(bǔ)充說(shuō),“隨著錯(cuò)誤率不同的長(zhǎng)讀測(cè)序儀價(jià)格迅速下降,這種能力為測(cè)序數(shù)據(jù)分析大眾化打開(kāi)了大門(mén)。”
Berger指出,雖然該方法目前在處理太平洋生物科學(xué)公司高保真讀數(shù)時(shí)表現(xiàn)最好(錯(cuò)誤率遠(yuǎn)低于1%),但它可能很快就能與牛津納米孔的超長(zhǎng)讀取兼容,目前牛津納米孔的錯(cuò)誤率為5%~12%,但很快能到達(dá)4%。
Berger說(shuō):“我們希望幫助科學(xué)家們建立快速的基因組檢測(cè)站點(diǎn),超越可能會(huì)忽略基因組之間重要差異的PCR和標(biāo)記陣列。”