北京大學高歌課題組開發出基於自適應卷積核的新卷積學習方法

深度學習是機器學習的一種,通常指基於表示學習的深度神經網絡,如基於卷積神經層構建的卷積神經網絡、基於遞歸神經層構建的遞歸神經網絡等。它適合用來發現海量高維數據背後的複雜模式。近十年來,隨着計算機算力的大幅提升,深度學習在圖像識別、自然語言處理等領域取得了眾多成果,其中可以捕捉數據局部特徵的卷積神經網絡已被廣泛應用於組學序列數據分析、生物影像處理等多個生命科學相關領域。

卷積神經網絡可利用卷積層中一系列卷積核來自動識別輸入序列上頻繁出現的序列片段,並通過將這些片段組合以發現其中的序列motif。然而,目前卷積層只能使用預設固定長度的卷積核,難以適應海量組學數據中複雜多變的信號模式。為此,目前的主流實現中常用多種不同大小的卷積核分層疊加以應對,但由此導致的模型參數膨脹又顯著提升了訓練難度。

論文截圖.jpg

論文截圖

近日,北京大學生物醫學前沿創新中心(BIOPIC)、北京未來基因診斷高精尖創新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、蛋白質與植物基因研究國家重點實驗室高歌研究員課題組,在生物信息學期刊Briefings in Bioinformatics發表了題為“Identifying complex motifs in massive omics data with a variable-convolutional layer in deep neural network”的生物信息學論文,提出能夠在訓練中自動調整卷積核長度的新型變長卷積層vConv。vConv通過在原始卷積核上疊乘兩條形狀可訓練的對向S型曲線,來動態遮蔽卷積核兩側元素、進而實時學習卷積核的有效長度。

vConv層結構:為了生成掩碼矩陣(mask matrix),vConv使用兩個對稱的sigmoid函數生成了兩個矩陣(A和B),然後通過疊加這兩個矩陣獲得了掩碼矩陣(C)。在此基礎上,vConv把該掩碼矩陣與原始的卷積核做Hadamard積,獲得了掩碼內核(D),再將該掩碼內核與輸入序列進行卷積(E)

序列motif(sequence motif)通常是指與特定生物學功能相關的一段序列片段、及其相關鹼基/氨基酸分佈模式,如轉錄因子結合位點、蛋白質功能域等。識別、鑑定與發現序列motif是生物信息學與計算生物學的經典問題之一。多組模擬與真實數據集的測試顯示,基於vConv的神經網絡可於Gb級別海量組學數據中準確識別鑑定序列motif,性能顯著優於經典工具及基於傳統卷積層的神經網絡。

vConv可直接加入現有多層神經網絡模型中,可作為傳統卷積層的直接替代廣泛應用於數據挖掘、圖像識別等多個領域。為方便使用,相關Python代碼及教程已通過GitHub開源發佈(//github.com/gao-lab/vConv),與課題組前期發佈的池化層ePooling方法(//github.com/gao-lab/ePooling)相結合,可為相關應用提供平滑升級路徑。

北京大學生命科學學院博士生李靜一、實習生金燊(現為美國卡內基梅隆大學計算生物學系碩士)為該論文的共同第一作者,高歌、軍事科學院軍事醫學研究院輻射醫學研究所博士後丁陽為共同通訊作者,北京大學生命科學學院本科生屠鑫明在代碼測試上提供了大力支持。該研究得到國家科技部、北京未來基因診斷高精尖創新中心、蛋白質與植物基因研究國家重點實驗室的支持,計算分析工作於北京大學高性能計算校級公共平台與ICG高性能計算平台完成。

轉載本網文章請註明出處