隨著大家對生命未知領域的探索,越來越多的需要依靠測序技術對生物的過程、代謝的特性進行解析。尤其是現(xiàn)在廣泛利用的二代測序技術,也是基于短序列的測序方式,它能夠以一種較高性價比的方式,給廣大的科研工作者以及實際的生產過程中的工作人員,提供非常有用的信息。
這種測序技術需要我們對生物學過程,包括對計算機代碼有些理解的基礎,其中會包含一些生物信息學領域的專屬名詞,甚至會要求具備編程基礎。這也造成了大家對環(huán)境宏基因組的分析過程上手難度的增加。宏基因組的測序量,一般在6~10GB+,往往帶來的是對計算成本,尤其是計算時長高的消耗。基于北京超級云計算中心(以下簡稱北京超算)的算力資源和平臺,我們搭建了能夠對環(huán)境宏基因組數(shù)據進行分析的軟件和平臺,在這個平臺上能實現(xiàn)群落功能的分析,并且整合了宏基因組分箱技術,以及基于深度學習的病毒組分析。
1Tb的數(shù)據大約100個樣本,每個樣本測序深度在10個G左右。單純使用服務器進行分析大約需要150天,在基于北京超算搭建的宏基因組數(shù)據分析平臺上進行計算,7-20天之內就可以完成數(shù)據分析,大大的節(jié)約了時間成本和計算費用成本。
北京超算能夠提供非常強的硬件支持,滿足計算需求的同時提供7X24小時的專屬客服支持。近幾年來通過與北京超算的合作達成了一些論文計算的分析過程,并發(fā)表了一些文章。
案例1 濕地植物根際錳氧化物強化氨氧化過程
在解析錳氧化過程中,利用宏基因組分析平臺,發(fā)現(xiàn)錳氧化過程和氨氧化過程存在耦合作用。錳氧化的過程中其實缺乏在濕地中的探索,我們在全國各個城市進行濕地樣本收集。對根際土和非根際土進行宏基因組測序,以及常規(guī)的理化指標的測定。
可以看到,宏基因組的測序量大約是3.7個TB。19年底到20年上半年,我的整個服務器都在跑這個數(shù)據還沒有跑完。在開發(fā)了基于超算的計算流程和計算軟件后,兩個月內完成了所有的計算任務。簡單分享一下我計算的成果。
我發(fā)現(xiàn)在蘆葦根際中錳氧化物的豐度含量比較高。錳氧化主要是微生物(介導)的,所以我就好奇這個過程中到底有沒有錳氧化基因有一個富集呢。基因的豐度是通過宏基因測序,然后加上計算獲得的。我在對它進行不同分類比較的時候發(fā)現(xiàn),根際和非根際錳氧化基因的組成類型其實是不一樣的,植物根際可以顯著的富集幾種類型的錳氧化基因。
除此之外,濕地植物的根際核心微生物和錳氧化的含量,有些微生物是和它呈正相關的,有些是呈負相關的。正負相關的這些微生物中,最明顯的功能上的區(qū)別在于:正相關的這些微生物中有一部分是能夠執(zhí)行氨氧化過程的。同樣的,在人工濕地中我們發(fā)現(xiàn)了錳氧化物和鐵氧化物都是微生物群落結構關鍵的驅動因子,同時,錳氧化物的含量和氨氮濃度之間呈非常顯著的正相關性。大家都知道氨氧化很大程度上是由微生物(介導)的,尤其是在人工濕地水處理的過程中。在錳的氧化過程中,錳氧化物起到了非常關鍵的作用。它們二者之間到底有沒有比較強的關聯(lián)性呢?在生物學角度,我們對錳氧化基因和氨氧化基因之間進行了線性的回歸分析,分析發(fā)現(xiàn)它們兩個之間有非常強的線性關系。是不是別的氮轉化的過程也和錳氧化的基因有這樣的相關性呢?我們把剩下的一些氮轉化過程的關鍵基因與錳氧化基因進行了關聯(lián)分析,發(fā)現(xiàn)除了氨氧化基因,別的氮轉化基因并沒有和錳氧化基因形成顯著的線性相關性。
我們又通過自建amoA的數(shù)據庫,把執(zhí)行氨氧化過程的微生物分成氨氧化古菌、氨氧化細菌和完全氨氧化菌。通過比較分析,我們發(fā)現(xiàn)人工濕地中常規(guī)的水處理環(huán)境中,完全氨氧化菌的比重比較高,高于常規(guī)的氨氧化細菌,并且錳氧化基因的豐度也與完全氨氧化菌之間呈正相關性。
對環(huán)境的解析過程,最主要的目的之一是為了把它更好的應用于污染治理過程中,在河北省晉州市龍門村,我們搭建了一個人工濕地的中試裝置。面向當?shù)剞r村的生活污水,我們在一些人工濕地中人為的向其中加入錳砂,即錳氧化物。我們發(fā)現(xiàn)加入的這部分錳氧化物可以提升氨氮的去除負荷,同時amoA的豐度也是得到了非常強的提升。
從自然發(fā)展到人為干預污染去除的過程中,由于前期使用超算獲得微生物相關的數(shù)據,大大節(jié)省了分析的時間,有效提升了效率。
案例2 飲用水快速濾池完全氨氧化過程
在另一個水處理的環(huán)境中,我們考察了飲用水的快速砂濾池,在這個工程水處理的裝置中微生物的一些過程。同樣,我們對它進行了采樣和測序,數(shù)據集大約是1個TB的測序深度。同樣在過程中,我們發(fā)現(xiàn)氨氮轉化比較好,而且和amoA的基因豐度也形成比較線性的關系。通過數(shù)據庫比對分析發(fā)現(xiàn),其中完全氨氧化菌起到了非常關鍵和重要的作用。它和錳的轉化,錳氧化基因的轉化過程,一同協(xié)同對整個砂濾池中的污染物形成了降解。
利用基于北京超算開發(fā)的宏基因組數(shù)據分析平臺,能夠快速的提取其中的微生物信息,并對病毒數(shù)據進行分析,解析水環(huán)境中相對完整的相互作用的網絡;通過開發(fā)基于AI深度學習的算法,能夠對噬菌體形成非常好的識別,包括對宿主的預測。
北京超算AI智算云平臺可以提供非常豐富的GPU的計算資源,科研工作者無需自建資源即可完成建模任務,幫助沒有深度學習經驗的同學實現(xiàn)對病毒的解析。
(報告現(xiàn)場)
(本文內容整理自:中國科學院生態(tài)環(huán)境研究中心助理研究員王東麟老師在第四屆“氮素生物地球化學循環(huán)”學術論壇的報告實錄)
相關稿件