最近一段時間,關(guān)于人類起源問題最引人關(guān)注的一則新聞,便是在中國東北地區(qū)發(fā)現(xiàn)了新的人類物種化石——“龍人”。不過,關(guān)于它在人類家譜中的確切位置,學(xué)界還存有爭議,因為研究團(tuán)隊并未從該化石中獲取到生物遺傳信息(古DNA)。
自從古DNA技術(shù)橫空出世,它解決了古人類學(xué)、考古學(xué)中許多爭執(zhí)不下的難題,為這些學(xué)科的研究打開了一個全新的局面。進(jìn)入21世紀(jì),古DNA研究成為關(guān)注熱點,在國內(nèi)外團(tuán)隊爭分奪秒展開科研競爭的背后,還關(guān)乎一場算力的角逐。
古DNA研究的力量
古DNA是指從古人類和動植物遺骸以及古生物化石中提取的古生物分子。如果能從古老的化石和考古樣本中獲取到最原始的古DNA信息,與現(xiàn)代人類和動植物的遺傳信息進(jìn)行比較,就可以為人類及動植物起源與遷徙、文明傳播與碰撞、歷史爭議問題給出直接答案。
20世紀(jì)80年代,考古學(xué)家和分子生物學(xué)家把古DNA研究引入到傳統(tǒng)考古學(xué),形成了國際考古研究中的前沿領(lǐng)域——分子考古學(xué)。作為科技考古的重要手段,古DNA研究在解決人類的起源與遷徙、動植物的家養(yǎng)和馴化過程以及農(nóng)業(yè)的起源和早期發(fā)展等重大考古學(xué)問題上起到了重要作用。
進(jìn)入21世紀(jì),隨著二代測序技術(shù)的普及,古DNA研究迎來了一個黃金發(fā)展期。中國科學(xué)家們也在分子考古的浪潮里大放異彩。
早在1998年,吉林大學(xué)考古學(xué)系就與生命科學(xué)學(xué)院合作,成立了國內(nèi)首個考古DNA實驗室,開展有關(guān)古DNA方面的研究工作。如今,考古DNA實驗室已初步建立了我國邊疆地區(qū)的古代DNA基因庫,有超過萬例的古人類、古動植物樣本,數(shù)量位居全國第一。
據(jù)吉林大學(xué)邊疆考古研究中心副主任蔡大偉介紹,正是有了這些強(qiáng)有力的資源支持,近年來,吉林大學(xué)考古學(xué)院運(yùn)用古DNA優(yōu)勢不斷創(chuàng)新和突破,在考古領(lǐng)域驅(qū)動了許多重要進(jìn)展。
例如,對“絲路”沿線不同時期的動物樣本開展全基因組分析,重構(gòu)了家養(yǎng)動物群體交流的時空框架,展現(xiàn)了“絲路”大通道在東西方文化交流中的更多歷史細(xì)節(jié);測定和分析了首例距今約3800年古小麥全基因組序列,探究現(xiàn)存小麥地方品種的栽培起源、擴(kuò)散和遺傳改良;報道了中國北方55個古代個體的全基因組數(shù)據(jù),探討了新石器時代農(nóng)業(yè)革命以來中國北方地區(qū)的人群互動,為探討中華文明的起源、形成和發(fā)展提供了重要證據(jù)。
制約古DNA研究的難題
盡管古DNA研究進(jìn)展飛速,但困難依舊不小。
蔡大偉解釋,古DNA研究主要分為兩大部分。第一部分是通過實驗手段,從古代生物遺骸中把DNA提取出來,并完成擴(kuò)增過程。在有機(jī)體死亡后,其細(xì)胞中的遺傳物質(zhì)即刻開始降解,給DNA提取和擴(kuò)增帶來了極大的阻力。而且,研究還不可避免地會遇到現(xiàn)代基因的“污染”問題。
第二部分則是測序及數(shù)據(jù)分析。由于古DNA基因序列片段比現(xiàn)代DNA更短,導(dǎo)致古DNA測序比現(xiàn)代DNA更復(fù)雜。以人類為例,人類基因組是由30億個堿基對構(gòu)成的,在得到古人類DNA碎片的序列信息后,考古學(xué)家需要借助生物信息學(xué)的手段將這些片段進(jìn)行比對、組裝,還原成和現(xiàn)代人DNA 一樣完整的、高質(zhì)量的全基因組。
“這個過程就像完成一幅巨型拼圖,沒有強(qiáng)大的計算機(jī)軟件和硬件支撐,是不可能完成的。”吉林大學(xué)生命科學(xué)學(xué)院副院長、邊疆考古研究中心教授崔銀秋直言。
蔡大偉指出,早期科研人員通過通用的計算設(shè)備,比如通過中央處理器(CPU)去做基因組裝,結(jié)果發(fā)現(xiàn)這一過程非常漫長,“一般完成一次古人類的全基因組樣本分析需要耗時至少兩周”。
“我們希望把盡可能多的時間放在科學(xué)問題的分析和對成果的解釋上,而不是消耗在對基礎(chǔ)數(shù)據(jù)的處理和計算上。”崔銀秋表示。這就亟需高性能計算和人工智能(AI)等新一代技術(shù)幫助科學(xué)家來加速這一分子考古的過程。
AI計算為分子考古提速
那么,算力究竟如何才能幫助加速整個基因拼圖的重構(gòu)過程?
浪潮人工智能和高性能產(chǎn)品線總經(jīng)理劉軍以和吉林大學(xué)考古DNA實驗室的合作為例介紹道,浪潮采用了一套定制化芯片加速方案,能加速古生物基因序列的比對和拼裝,再用AI的方法和手段,幫助科學(xué)家找到感興趣的突變的基因。這套方案可以幫助考古學(xué)家在9.64 小時內(nèi)完成全基因組分析,48分鐘完成全外顯子組分析,相比基于CPU的方案,基因數(shù)據(jù)處理速度提升了39倍。
“這就意味著我們的科學(xué)家可以用原來四十分之一的時間完成古人類全基因組的比對和拼接工作。”劉軍強(qiáng)調(diào)。
由于DNA可以被復(fù)制,特別是當(dāng)它從父母遺傳到子女的時候,只要突變不會致命,那么這些突變也會被復(fù)制然后傳遞給下一代。因此,突變通過時間而不斷積累,這就使得科學(xué)家能夠找到遺傳進(jìn)化的特定鏈條,并且還可以通過積累的突變估算時間。
“問題是,這些重要的突變基因在哪里?它們在整個歷史長河中發(fā)生了什么樣的演化?”劉軍坦言,從這樣的追尋過程中,我們才能真正清晰地回溯人類是如何走過這上百萬年的演化歷史的。
“然而,完成拼接的基因組序列非常長,利用傳統(tǒng)方法在上面尋找特定基因的變異過程,是一件極為困難的事,就如同大海撈針。”劉軍表示,只有在AI的計算方法和手段的加持下,才能幫助科學(xué)家在基因的海洋里,找出他們最感興趣的基因、重要的突變基因。
劉軍認(rèn)為,“從這個角度來說,我們是在為這門古老學(xué)科創(chuàng)造一個實用工具,就像科學(xué)史上的顯微鏡、望遠(yuǎn)鏡一樣”。通過AI計算,服務(wù)科學(xué)家細(xì)致入微地獲取過去得不到的客觀證據(jù),從而實現(xiàn)洞察歷史的真相。
劉軍還特別提到,在AI計算與考古學(xué)研究結(jié)合的過程中,也反過來打開了計算研究的視野。“我們要向遠(yuǎn)處看、向深處看,科學(xué)的未來需要依靠怎樣的計算技術(shù)去迎接挑戰(zhàn)。”■