您好,請問有什么可以幫到您的。 點擊這里給我發消息
武漢新啟迪生物科技有限公司
新啟迪-您的生物科研好伙伴!
本企業通過iso9001質量體系認證

在人類交互基因組中發現介導慢性呼吸系統疾病之間相互作用的基因

 二維碼
發表時間:2020-02-12 15:47作者:武漢新啟迪Xinqidibio來源:www.0458155.buzz

在人類交互基因組中發現介導慢性呼吸系統疾病之間相互作用的基因

摘要

復雜疾病的分子和臨床特征可能會受到影響同一個人的其他疾病的影響。因此,了解疾病與疾病的相互作用對于揭示疾病之間共享的分子機制和設計有效的治療方法至關重要。在這里,我們介紹流中心性(FC),這是一種基于網絡的方法,可以識別介導蛋白質-蛋白質相互作用網絡中兩種疾病之間相互作用的基因。我們關注哮喘和COPD,這兩種慢性呼吸系統疾病長期以來被認為具有共同的遺傳決定因素和機制。我們顯示FC突出顯示了兩種疾病之間的潛在介導基因,并在將FC應用于66對其他相關疾病時觀察到相似的結果。進一步,GSDMB,表明FC可以識別GSDMB與COPD相關基因之間相互作用的候選介體。我們的結果表明,FC預測了有望用于疾病-疾病相互作用進一步研究的候選基因。

介紹

生物網絡是發現和理解的機制強大的資源背后的人類復雜疾病1,2。的確,人們公認,諸如基因和蛋白質之類的生物成分并不是孤立地起作用,而是通過復雜的分子相互作用網絡連接在一起的,這種復雜的分子相互作用網絡使擾動在整個系統中擴散并產生,增強或改變疾病的表型。在過去十年中,已經觀察到相關聯的疾病的蛋白質編碼基因具有彼此附聚物和在一個特定的網絡鄰居稱為疾病模塊進行交互的強烈傾向3,4,5,6。但是,疾病的進展受到生物體生物學環境的強烈影響。引起一種疾病的攝動可能會影響其他疾病,尤其是當涉及的基因位于同一網絡附近時,會產生復雜的表型和合并癥7。

尋找相關疾病之間的分子共性對于理解其異質性以及確定常見的生物標志物和治療方法至關重要。作為朝這個方向邁出的一步,Menche等人。5我們測量了226個疾病對之間基于網絡的分離,觀察到重疊的疾病模塊顯示出顯著的分子相似性,相關基因的共表達升高,相似的癥狀和高合并癥。然而,盡管引入的分離措施提供了關于兩種疾病相似性的信息,但它并不能幫助鑒定編碼影響兩種疾病的蛋白質的基因。此外,介體基因可能不是任何一種疾病模塊的一部分,但它們可以介導兩種疾病之間的相互作用而無需參與個別疾病的核心途徑。在這項工作中,我們提出了一種方法來確定將多種復雜疾病對聯系起來的介體,重點是哮喘和慢性阻塞性肺疾?。–OPD),8。哮喘和慢性阻塞性肺病是由遺傳和環境因素的影響,它們往往表現通過相似的表型,如氣流阻塞,炎癥和呼吸急促 9,10。由于許多病例介于這兩種情況的經典描述之間,而且患者經常同時表現出哮喘樣和COPD樣特征,因此仍然缺乏關于它們之間差異的廣泛接受的定義。例如,氣流阻塞可逆性,哮喘的主要特征之一考慮的一個,可以存在于許多COPD患者 9,10。在另一方面,固定氣流阻塞,慢性阻塞性肺病的一項基本表現,可以在哮喘病患者發展為好,特別是那些有嚴重的疾病或從小持續癥狀11,12。此外,人受哮喘自出生更可能在后世的發展COPD 13,14,15。這種表型灰色區域一直是關于兩種疾病的可能共同遺傳起源的廣泛辯論的源頭,這一假設最初由Orie和Sluiter提出16,并稱為“荷蘭假說”。盡管在描述和總結哮喘和COPD臨床表現的豐富性方面付出了巨大的努力,但對這兩種疾病之間共有的分子機制和因果關系仍然知之甚少。下一代測序和全基因組關聯研究(GWAS)允許以識別潛在的因果基因,可以解釋這些慢性呼吸系統疾病的發展和可能提供機械見解他們的共享因果關系17,18。盡管在哮喘-COPD重疊的背景下可以預期存在共同的疾病基因關聯,但先前的工作幾乎沒有為荷蘭假說提供遺傳支持,發現主要哮喘和通過GWAS 12鑒定出的COPD基因之間幾乎沒有重疊。在這里,我們表明基于網絡的統計方法可以提供其他途徑來探索此問題。

我們在蛋白質-蛋白質相互作用(PPI)(也稱為相互作用組)網絡中對哮喘和COPD進行建模。網絡的每個節點對應一個蛋白質編碼基因,兩個基因之間的鏈接代表相應蛋白質之間的物理相互作用。為了找到兩種疾病之間的介體,我們定義了一種拓撲測量方法,稱為流動中心性(FC),用于識別參與兩種疾病之間大多數分子相互作用的基因。我們顯示,流動中心基因彼此之間以及與哮喘和COPD的疾病基因在功能上的關聯比偶然預期的要多。此外,我們通過將其復制到其他66對相關疾病上來概括這些結果。利用多種證據,包括先前的文獻,來自哮喘和COPD受試者的多個轉錄組數據集中的基因共表達分析,以及支氣管上皮細胞系(與哮喘和COPD相關的細胞類型)的體外遺傳擾動,我們顯示具有高FC值的基因具有生物學意義并且與已知的哮喘特異性,COPD特異性和重疊過程。總之,這些結果將血流中心性確定為檢測介導不同疾病之間相互作用的基因的重要工具,為了解復雜疾病之間的關系提供了機會。我們顯示具有高FC值的基因具有生物學意義,并且與已知的哮喘特異性,COPD特異性和重疊過程有關。總之,這些結果將血流中心性確定為檢測介導不同疾病之間相互作用的基因的重要工具,為了解復雜疾病之間的關系提供了機會。我們顯示具有高FC值的基因具有生物學意義,并且與已知的哮喘特異性,COPD特異性和重疊過程有關。總之,這些結果將血流中心性確定為檢測介導不同疾病之間相互作用的基因的重要工具,為了解復雜疾病之間的關系提供了機會。

結果

疾病模塊建設

我們考慮了先前構建的蛋白質-蛋白質相互作用19,該相互作用整合了來自公開可用數據集的高質量酵母雙雜交數據和文獻衍生的相互作用(請參見方法)。盡管一個基因可能表達不同的同工型,但我們每個基因只考慮一種蛋白質產物,因此在全文中,我們將網絡的節點稱為基因或蛋白質。我們從最近的文獻中匯編了兩組種子基因,分別代表與哮喘和COPD相關的已知GWAS基因座(請參見方法)。哮喘種子基因集由36個基因組成(網絡中有35個作圖),而COPD基因集由30個基因組成(補充數據   12),而這兩組沒有重疊。為了探索每種疾病的網絡鄰域,我們通過應用DIAMOnD算法構建疾病模塊,DIAMOnD算法是根據基因與種子基因20的連通性重要性對網絡中的基因進行排名的過程(請參見方法)。為了定義通過DIAMOnD計算的基因排名的臨界值,我們考慮了兩個參考集,分別從UK-Biobank資料庫21(UKB)下載了與哮喘和COPD相關的GWAS重要基因。對于這兩種疾病,選擇最終模塊大小作為最大化UKB基因在各個模塊中富集的大?。ㄕ垍⒁姺椒ǎ?。這兩個模塊具有14個重疊基因(參見補充圖   1)。b),總結在補充數據   3中。已知清單中的大多數重疊基因,例如TP53,MDM2,NFKB1,RELA,CTNNB1,TGFBR2,SMAD3,MAPK1,MAPK3,MAPK8,STAT1STAT3,都參與細胞凋亡,增殖,炎癥,細胞重塑和分化22,23,24,25,26。盡管這些生物學過程可能在哮喘和COPD中起作用,但它們并非這些疾病所獨有。如補充數據3所示,還可以通過表征所有這些基因的高度特征來推斷這種固有的非特異性   。此外,經驗p量化重疊部分的重要性的值在很大程度上不重要(?0.39),證實了哮喘與COPD關系難以捉摸。重疊部分的重要性不足促使我們進行以下分析。

模塊之間的流中心性

哮喘和慢性阻塞性肺病清單通過類似的表型和癥狀,許多哮喘患者慢性阻塞性肺病發展在較大年齡9,10,12。該觀察結果表明,源自哮喘特異性遺傳危險因素的攝動可能會緩慢破壞關鍵途徑,最終導致易感人群發生COPD。疾病特異性基因的直接相互作用可能并不能完全消除這種干擾。實際上,它可能會通過與特定疾病沒有特異性聯系的介導基因傳播,因此以標準方法識別它們具有挑戰性。

這些介導的基因可能參與了兩種模塊之間的大部分相互作用,從而構成了兩種疾病之間交流的“瓶頸”。在網絡中,中介中心度度量可量化在連接所有其他節點的路徑中某個節點的出現頻率。路徑定義為從源節點開始到目標節點的跨網絡邊緣的有序步驟序列。在任何來源和目的地之間都有多種可能的路徑,并且文獻中有數篇著作致力于探討選擇和加權這些路徑的不同標準。例如,弗里曼(Freeman)27提出的經典中間性中心度度量,僅考慮源節點和目標節點之間的最短路徑。在其他工作中,提出了隨機游走中間性中心性,其中通過在隨機游走過程28中被步行者橫穿的概率來加權路徑。此外,在另一項研究中,作者設計了一種階乘加權方案,該方案支持較短長度的路徑,稱為連通性之間的連通性29。Kivimaki等。30定義了隨機最短路徑(RSP)的框架,該框架通過溫度參數在基于最短路徑的中間性中心性和隨機游走中間性中心性的經典概念之間進行插值。這些度量的規范形式是從任何源節點開始到任何目的節點的所有路徑的平均值,從而可以估算出該節點在全局網絡拓撲中的中心位置。盡管中心間淋巴結可能在哮喘和COPD的通路中起作用,但從定義上講,它們并非特定于這兩種疾?。ㄒ驗榭紤]不同疾病時其中心性不會改變),因此它們不太可能提供有意義的信息關于他們的共同途徑。

在這項工作中,我們介紹了流中心性的概念,在“方法”部分(參見圖1a進行了詳細說明   。流中心性是在節點的源集和目標集上參數化的中間性度量,并且其覆蓋范圍僅覆蓋連接兩個模塊的最短路徑,而不是整個網絡。因此,當選擇網絡的所有節點作為最短路徑的源和目標時,流中心性降低到參考文獻中定義的經典中間性中心性。27。不論選擇的源模塊和目標模塊如何,上述流中心性和中間性中心性度量都與節點度相關。為了糾正這種影響,我們定義了源模塊和目標模塊的隨機方案,以生成預期流中心值的空分布。流中心性得分(FCS),然后作為計算?當與零分布進行比較的流動中心性值的-score(見圖   1個 B和方法部分)。FCS的大正值表示該節點在源和目標基因集方面處于高度中心,即使考慮到其全局中心性也是如此。

圖1:分析的總體方案。
圖1

一個流量中間值。源節點(藍色)優先通過高流量中心節點(綠色)連接到目標節點(紅色)。b流量中心度得分計算。通過“方法”部分所述的隨機化方案生成了1000個樣本。對于每個節點,將其FC得分與隨機樣本中的相應值進行比較,并獲得z得分,定義為流中心得分(FCS)。C在哮喘和COPD種子基因之間的最短路徑中選擇流中心路徑。選擇條件是路徑中所有中間基因的FCS> 2。提取兩組10,000個隨機路徑(類型A,保留長度,類型B,保留端點),總共三組路徑。d從每組網絡路徑,GO批注和GEO表達式數據開始,計算并比較順序相似度和順序共表達值。

通過將哮喘節點集定義為源模塊,將COPD節點集定義為目標模塊,我們計算了網絡中所有節點的血流集中度評分。雖然所有中間性中心度度量值都與程度和彼此高度相關(Spearman'sρ=0.91±0.07,參見補充圖。 23),表示相對于哮喘和COPD模塊的特異性較低,我們發現血流集中度評分與其他指標非常正交(Spearman'sρ=-0.22±0.04),說明FC對特定來源和目標基因集具有高度特異性。

在流量最大的中央結點中(參見補充數據   4),SLC39A8,SOX17MFAP4等幾種基因顯示與哮喘和COPD有直接關系。更具體地,已經在文獻中發現SLC39A8,SOX17MFAP4的表達水平可能直接影響哮喘和COPD。例如,MFAP4缺陷小鼠表現出嗜酸性粒細胞炎癥減弱,嗜酸性粒細胞生成趨化因子,氣道重塑和氣道高反應性,這是哮喘的典型特征,而呼吸道上皮細胞SOX17的表達降低了轉化生長因子-β的表達(TGF -β)響應性的細胞周期抑制劑,例如P15,P21,P57和在成年小鼠肺31,32。SOX17也抑制TGF -β介導的體外轉錄反應,證明對TGF的抑制作用-β途徑的31,32。TGF -β中,在COPD患者的小氣道上皮高度表達33,已知的是在疾病中發生的增加的粘膜下膠原表達的作用,并且也已知在哮喘肺重塑參與組織的介體34,35。SLC39A8是鋅轉運蛋白,是鎘(Cd)吸收的主要門戶36。SLC39A8 mRNA和蛋白表達水平被認為在慢性吸煙者的肺來顯著增加與不吸煙者相比36。香煙煙霧中含有鎘,它可能導致吸煙引起的肺部疾病,例如COPD 36。在鎘存在下,抑制NF -κ乙途徑和SLC39A8表達降低細胞毒性,同時TNF -α治療原發性人肺上皮細胞和A549(肺癌細胞系)的細胞顯示出誘導的表達SLC39A8,導致更高的細胞死亡36,37。IHHDHH是sonic hedgehog途徑的一部分,并且是已知的直接交互與HHIP其強烈COPD的風險相關聯(刺猬相互作用蛋白)38,39。HHIPPtch1IHH的膜受體競爭IHHDHH的結合。Ptch1綁定到IHHDHH觸發刺猬蛋白信號通路,因此,結合HHIPIHH這是眾所周知的有在肺發育至關重要的作用hedgehog途徑負調節38,40。

流中心基因的功能相似性

為了驗證血流中心基因的生物學相關性,我們選擇了哮喘和COPD種子基因之間的最短路徑,其中間節點(即該路徑中除源和目標之外的所有節點)的特征在于FCS高(請參見方法部分)。有關選擇的更多詳細信息)。通過應用我們獲得371條不同中央路徑此選擇標準,其我們稱之為中央流動路徑(見圖   1個 C)。

我們通過考慮相關的基因本體論(GO)術語,評估了在流中心路徑中發生的基因之間的功能相關性程度。兩個基因之間的GO相似性定義為Resnik相似性度量的最佳匹配平均數(BMA),Resnik相似性度量是最著名的基于信息的相似度度量,用于分層排序元素41。此外,我們定義了順序相似度(SS),這是一種路徑級量,用于測量網絡路徑中相鄰基因之間的平均GO相似度(請參見圖   1 d左上方和“方法”部分)。SS越高,沿路徑的基因在功能上越相似。

我們為每個流中心路徑計算了SS,獲得了371個相似值的分布。為了估計其重要性,我們生成了兩個空路徑的網絡路徑,即類型A和類型B的隨機路徑。要生成類型A集,我們提取10,000個隨機路徑,這些路徑的長度分布與在FC路徑中觀察到的經驗分布相匹配(保留長度),使用方法中說明的隨機化方案。通過從哮喘和COPD種子基因之間的最短路徑池(端點保留)中隨機提取10,000條路徑來構建B型集。類型A考慮到與FC路徑的特定長度有關的可能偏差,而類型B允許與不使用FC信息的情況進行直接比較。

圖   2a顯示了流中心路徑,類型A和類型B路徑的SS分布的比較。FC路徑的順序相似性遠大于A型和B型路徑的相似性(單尾曼恩惠特尼檢驗p值分別為1.12e-111和2.06e-77)。我們評估了三種主要的基因本體論分類到全局相似性的單獨的貢獻(參見圖   2 b)中:細胞組分(CC),分子功能(MF),和生物過程(BP)。在所有情況下,FC路徑的相似性都大大高于預期。在圖   3中a我們顯示了按GO批注的順序排序的FC路徑,以及按其信息內容(即它們在整個GO數據庫中的特異性)排序的前50個BP GO術語。生物調控是最豐富的類別之一,這是可以預期的,因為注釋了調控過程的大量基因。但是,它的發生仍比GO注釋語料庫中更常見的細胞過程術語更為頻繁,這表明調節機制在哮喘與COPD途徑之間的相互影響中至關重要。例如,在圖1和2中。 3b–d顯示了三個FC路徑,這些路徑在與疾病發作和惡化相關的幾種生物學過程中得到了豐富。調節趨化因子的產生,調節T細胞的活化,傷口愈合,管子的發育和炎癥反應是涉及哮喘和COPD的氣道重塑和免疫反應的生物學過程。更具體地,圖2中的路徑的基因   3 b,c是高度相關的TGF -β信號通路。TGF -β信號通路,它由蛋白質如TGFBR1,TGFBR2,SMAD2,和SMAD3,涉及分化,細胞生長和在發展中發揮至關重要的作用和傷口愈合許多其他細胞功能42,43。TGF相互作用RAR途徑-β通過信號通路SMAD蛋白,由視黃酸結合于視黃酸受體激活(RAR S)如RARB 44,45。RAR途徑也參與這一在發展中發揮關鍵作用,傷口愈合細胞功能44。在另一方面,在圖中所示的FC路徑。   3 d是由所涉及到通過炎癥反應基因的JAK-STAT信號轉導途徑和TLR4信號傳導途徑46,47。無論是JAK-STAT信號通路和TLR4信號通路在免疫反應中起著至關重要的作用,兩種通路之間的串擾被認為可以調節宿主炎癥反應的嚴重程度48。

圖2:流動中心路徑的GO相似性。
圖2

一個類型A,類型B,和FC路徑的隨機路徑順序GO相似之處(SS)的分布; b為三個主要的GO根項計算的A型,B型和FC路徑的SS:細胞成分(CC),分子功能(MF)和生物過程(BP)。c每個相關疾病對的FC路徑和隨機路徑之間比較的最壞情況p值。在方框圖中,方框表示四分位數,晶須延伸到額外的1.5 * IQR間隔,并且中位數以紅色突出顯示。一個,兩個和三個星號分別表示曼恩-惠特尼p值<0.05、1e-4和1e-10,并且“ ns”表示不重要的結果。

圖3:前50個生物學過程GO術語。
圖3

前50個生物學過程GO術語豐富了流中心路徑,按信息內容排序,而前17個FC路徑按GO批注數量排序。一個方形表示左邊的GO術語注釋所有在底部的FC路徑的基因。不同的顏色表示生物過程類別的不同子類。bd對應于所選GO術語的路徑示例。

相關疾病FC基因的功能相似性

為了檢驗先前的結果是否普遍成立,我們考慮了DisGeNet信息庫49中包含的基因-疾病關聯(GDA)語料庫以及從疾病本體知識庫中提取的疾病-疾病相似性。我們選擇了至少50個相關基因和低重疊率的所有相似疾病對,以減少為類似于哮喘和COPD的病例(請參見“方法”部分以及補充圖   67)。這些標準導致66對不同的疾病,這些疾病根據其表型,遺傳原因,在生物體內的位置等相關(補充數據   5)。一些例子是阿爾茨海默氏病和肌萎縮性側索硬化,是共享相似的表型兩者的神經變性疾病如癡呆,語言功能障礙,肌肉無力等功能50,51,以及涉及基因打在蛋白穩態和內質網應激主要作用的病理過程52,53 ; 牛皮癬和過敏性接觸性皮炎均為炎性皮膚疾病涉及免疫應答共享相似的表型特征,由于炎癥54,55和促炎途徑涉及IL-36γ56 ; 多囊卵巢綜合征和阿爾茨海默氏病不共享表型特征,但研究表明,這兩種疾病可能根據胰島素抵抗,并通過蛋白磷酸酶2A通路中的因果關系 57,58,59。對于每對,我們按照上面定義的相同方案,計算了網絡中所有節點的流中心性,選擇了它們對應的FC路徑并提取了10,000個Type A和B路徑。我們進行評估的FC路徑和A / B型路徑的SS值,計算兩個 p -值p一種p,分別對應于比較FC???類型A路徑和FC???B型路徑。然后,我們將每個疾病對的p最低(即,最大p一種,p),確定FC路徑中SS增長的最壞情況估算。所得的得分p -值,計算作為其負對數變換值,示于圖   2 ℃。我們發現,對于絕大多數疾病對(66種疾病中的58種),我們在FC路徑的SS和隨機變量之間獲得了非常顯著的差異(p值<1e-20)。此外,我們測試了先前結果的特異性。我們生成了66個對中的每個疾病模塊的100個隨機度保留節點集(6600對隨機模塊)。對于每個原始疾病對,我們通過Mann-Whitney檢驗將其SS分布與每個隨機對進行比較,得出100個最壞情況p-值(請參見方法)。我們發現,原始疾病對的FC路徑幾乎總是比其隨機對應路徑更相似(補充圖   8),唯一的例外是疾病對腦積水???白細胞營養不良,可能是由于兩種疾病之間的遺傳聯系較弱。總的來說,該結果表明流中心性是源模塊和目標模塊的高度特定屬性,并且如果應用于不相關的基因,它將不會產生相同的結果。

流中心基因的共表達

為了強調哮喘和COPD之間的推測機制聯系,我們測量了沿連接兩種疾病的流動中心路徑的基因共表達。盡管基因共表達不一定暗示功能關系,但它表明兩個基因在表達方面是否是協同(或拮抗)的,暗示了共同參與相同的生物學過程。因此,FC基因與哮喘和COPD疾病基因之間較高的協調性表明它們參與了兩種疾病共同的生物學過程。

作為參考表達數據,我們考慮了來自Gene Expression Omnibus的兩個哮喘和COPD患者的表達數據集。第一個數據集是哮喘患者和健康對照者(GSE4302 60的氣道上皮細胞的微陣列表達測量,第二個數據集是COPD患者和健康對照者(GSE57148 61肺組織的RNA序列分析(參見補充數據   6)和方法部分以獲取詳細信息)。為了測量沿每個路徑的基因的共表達,我們將順序共表達(SC)定義為路徑中相鄰基因之間的平均絕對共表達(請參見方法)。對于給定的路徑,較高的順序共表達表示沿該路徑相互作用的基因之間的共表達程度較高。對于每個表達數據集,我們分別計算了健康狀態和疾病狀態的FC路徑的SC(圖   1 d,e),分別獲得了哮喘和COPD的SC值的兩種分布。以相同的方式,我們針對上述相同情況(哮喘控制/疾病和COPD控制/疾?。┰u估了類型A和類型B路徑的SC值。

我們發現在哮喘和COPD數據中,與A型路徑(分別為MW p值 8.38e-10和2.14e-18)和B型路徑(p值2.25e-8和1.41e-33,請參見圖   4 a)。此外,健康患者的樣本中也存在相同的結果(最壞情況下的p值?<?1e-9),表明FC路徑對應于在健康和疾病狀態下都可以激活的相互作用級聯。

圖4:流中心路徑的順序共表達。
圖4

a與哮喘(左)和COPD(右)的A型和B型隨機路徑相比,血流中心(FC)路徑的順序共表達值的分布。b在每個GEO數據集中所有疾病類別中計算的哮喘(左)和COPD(右)的最壞情況p值得分。在方框圖中,方框表示四分位數,晶須延伸到額外的1.5 * IQR間隔,并且中位數以紅色突出顯示。一個,兩個和三個星號分別表示曼恩-惠特尼p值<0.05、1e-4和1e-10,并且“ ns”表示不重要的結果。

我們在16個其他GEO表達式數據集中重復了相同的分析。在每個數據集中,當可以獲得更多信息(例如細胞類型,組織或疾病嚴重性,請參見補充數據6時,會考慮疾病和健康樣本(分類)的幾個細分   。與以前類似,我們在所有類別中每個數據集的p最小的有效值進行了分類。補充圖9和圖4分別顯示了   SC值和所得p值的分數。 b。盡管考慮的表達數據集差異很大,但我們在18個GEO數據集中總共13個疾病類別中發現了所有疾病類別的相似結果,其中5個病例具有重大意義(最差情況p值)<1e-10)。這些結果表明,由流動中心確定的相互作用路徑對波動具有魯棒性,并且對單個細胞類型,組織或實驗環境不是特定的。有趣的是,我們觀察到相同的結果在健康或控制狀態的各個類別中也成立(參見補充圖   10)。

由于哮喘和COPD是相關的,我們假設它們的流動中心路徑比將哮喘與其他不相關疾病的隨機路徑更共表達。為了檢驗這一假設,我們考慮了DisGeNet GDA語料庫,從中提取了所有與哮喘和COPD相似的注釋基因數量(介于25和35個基因之間)的不相關疾病和表型,共59種表型。因此,我們測量了連接哮喘和COPD種子基因與這些表型相關基因的隨機路徑的SC(請參閱方法)。在哮喘樣本(GSE4302)的上皮刷毛中測量了連接哮喘種子和每個DisGeNet表型的隨機路徑的SC值,而在COPD樣本的肺組織中測量了這些表型和COPD種子之間的SC值(GSE57148) 。數字 圖5a示出了哮喘病例(上)和COPD病例(下)中每個DisGeNet表型的FC路徑和隨機路徑的SC分布。為了清楚起見,我們僅顯示前10個表型的分布,按其p排序值得分(每個圖頂部的條形)。在這兩種情況下,我們都發現FC通路的特征在于明顯較高的共表達值,這證實了哮喘與COPD之間的密切關系。為了進一步檢驗哮喘-COPD關系的特異性并考慮最終的內在偏倚,包括疾病模塊的構建和血流中心性評估,我們重新執行了哮喘與肺部兩種相關疾病之間的整個處理流程,肺炎和特發性肺纖維化(IPF)(請參閱方法)。我們發現哮喘和COPD的特征在于相對于哮喘的更高的SC值???肺炎和哮喘???哮喘樣品(GSE4302)(圖的上皮刷IPF對   5 B,上圖)。然后,我們重復用于對COPD肺炎和慢性阻塞性肺病,IPF相同的分析,獲得了類似的結果COPD樣品(GSE57148)(圖的肺組織在   5 B,底部)。這一結果表明,與荷蘭肺病假說相比,與其他肺部疾病相比,哮喘和COPD的分子相互作用可能比預期的更深。

圖5:連接到不相關表型的隨機路徑的順序共表達。
圖5

與哮喘模塊和每個DisGeNet表型之間的隨機路徑(頂部)以及COPD模塊和每個DisGeNet表型之間的隨機路徑(底部)相比,FC路徑順序共表達(SC)。為了清楚起見,僅顯示了排名前10位的表型,并按重要性增加排序。b(上)哮喘-COPD對的SC分布與哮喘-肺炎和哮喘-IPF對的SC的比較,在GSE4302哮喘數據樣本上進行了評估。b(下圖)在GSE57148數據的COPD樣本上評估的哮喘-COPD對的SC分布與COPD-肺炎和COPD-IPF對的SC相比。在方框圖中,方框表示四分位數,晶須延伸到額外的1.5 * IQR間隔,并且中位數以紅色突出顯示。一個,兩個和三個星號分別表示曼恩-惠特尼p值<0.05、1e-4和1e-10,而“ ns”表示不重要的結果。

細胞系中的過表達和擊倒實驗

為了進一步驗證FC方法,我們使用了體外基因擾動,通過高流動中心性的網絡路徑,通過實驗建立了哮喘源種子基因和COPD目標種子基因之間的聯系(請參見方法)。為此,我們將注意力集中在哮喘種子基因GSDMB上,該基因是17q21上的幾個基因之一,該基因具有GWAS 62鑒定出的最易復制的哮喘易感基因座。GSDMB在支氣管上皮中表達(一種與哮喘和COPD發病機理相關的細胞類型),最近的小鼠模型表明,GSDMB過表達導致自發氣道重塑63-上皮纖維化-在人類中導致COPD中觀察到的固定氣道阻塞。對于該實驗,我們考慮之間的所有流路中央GSDMB和任何COPD種子的基因(圖   6 a)中,即,那些在所有的中間基因具有顯著FCS路徑。為了最大程度地提高分析的敏感性,我們認為FCS> 2或流動中心值的右尾經驗p值<0.05 時,這些基因才有意義。我們找到滿足這些條件的8條路徑。值得注意的是,所有八個流動中心路徑都通過兩個GSDMB鄰居HIVEP1PEBP1之一(圖   6)。b)。在人支氣管上皮細胞系中一式三份進行的實驗中,我們分別通過質粒轉染或siRNA敲低來增強或抑制GSDMB mRNA表達,并從RNA中獲得GSDMB的表達數據,所有預測的流中心基因和靶COPD種子基因全局基因表達的-seq配置文件(有關詳細信息,請參見方法)。我們發現哮喘種子GSDMB與預測的下游目標COPD種子IL27,HHIPGSTCD之間有聯系的有力證據。總結于圖   6 B,既過表達和沉默GSMDB導致大多數血流中心基因和靶COPD基因表達的相互下游變化。例如,GSDMB沉默導致流動中樞HIVEP1(表達增加),MAPK8(減少),IL27RA(增加)和COPD種子基因IL27(增加)的表達發生顯著變化,而GSDMB過表達導致相反的表達變化與通過GSDMB沉默誘導的那些MAPK8增加,IL27RA減少,HIVEP1表達無明顯減少)相關,請參見圖6中的路徑1 b。IL27的基線表達低于有意義的檢測水平,不包括其分析)。在連接GSDMBHHIPGSTCD的路徑中,大多數基因觀察到類似的模式。

圖6:GSDMB和COPD種子基因之間的流動中心路徑。
圖6

FC路徑中的節點子網;b以GSDMB為源節點的八個流中心路徑的集合,以及在GSDMB的過表達/組合后,下游相對表達的變化。對于每一列,橙色(藍色)箭頭表示相應基因的顯著過表達(下調),而灰色箭頭則表示無明顯變化。

討論區

復雜疾病之間的因果關系是難以捉摸的,因為經常通過多種機制過程來解釋為什么這些疾病以許多不同形式發生和發展。然而,隨著測序技術和多組學測定法的出現,現在有可能獲得更易患病的遺傳概況的更全面概述。因此,可以從分子的角度探討長期存在的哮喘和COPD之間潛在的機械關系的問題,并從基因和蛋白質的水平分析可能的原因。然而,通過這種技術獲得的信息主要是關于過程的“參與者”,而不是過程本身,這為進行有針對性的研究提供了空間,以分析涉及疾病發展的基因與相互影響的通路之間的關系。

對連接兩種疾病的蛋白質相互作用進行分析,是弄清導致哮喘和COPD等常見疾病發病機理的復雜途徑的第一步。

在這項工作中,我們定義了血流中心性,這是一種拓撲措施,可檢測介導哮喘和COPD之間發生分子相互作用的基因。流中心基因顯示出高特異性,并且不能通過第一鄰居相互作用與疾病基因簡單關聯。通過分析將哮喘與COPD連接的網絡路徑,我們發現流動中心基因在功能上類似于兩種疾病的種子基因。這種模式非常普遍:對于許多相關疾病對,我們觀察到了血流中心基因與其各自的來源和靶標之間的高度功能相似性,這表明血流中心性捕獲了處于不同病理條件下的低水平分子機制。為了進一步支持這一假設,我們在多個人類轉錄組學數據集中,測定了流中心基因與哮喘和COPD疾病基因之間的高共表達。為了獲得哮喘和COPD基因之間調節模式發生的實驗證據,我們將注意力集中在GSDMB是與哮喘相關的復制最多的基因之一,并通過體外過表達/抑制實驗評估了其攝動的下游影響。連接GSDMB和COPD種子基因的網絡路徑中出現的血流中心節點顯示出強烈的差異表達模式,這暗示這些基因可能參與攜帶從哮喘特異性到COPD特異性結構域微擾的分子機制。

這些結果表明,流動中心性可以幫助鑒定與兩種疾病之間的過渡表型或雜合表型相關的關鍵途徑所涉及的基因。可以利用多組學測量(例如轉錄組學,基因組學和表觀基因組學檢測)來定義受影響患者中流動中心基因的分子概況64。通過將這些分子圖譜與患者的臨床狀況和結果相關聯,原則上可以將這些譜圖定位在哮喘-COPD譜圖上,從而為靶向療法創造新的機會。

流中心性方法的有效性取決于當前PPI數據的可靠性。但是,據估計只有大約20%的總蛋白質相互作用是已知的,并且大量的建模相互作用可能是假陽性相互作用的結果5。而且,由于實際相互作用的發現是不統一的,并且主要是受到對研究與重要功能或疾病相關的蛋白質的興趣的驅使,因此可能導致網絡的實際布線模式的建模不準確。但是,新的和改進的無偏差實驗和預測可以提高可靠性65 蛋白質相互作用(如酵母-兩個雜種)的檢測方法,對于加深我們對引起疾病擾動的基因的理解至關重要。

方法

相互作用組的構建

我們在這項工作中使用的網絡已由Cheng等人編譯。19,并整合了從15個數據庫中提取的蛋白質間相互作用:

  1. 1。

    質子泵抑制劑的二進制測試通過高通量的酵母雙雜交(Y2H)系統(參考文獻66,67,http://interactome.baderlab.org)。


  2. 2。

    從KinomeNetworkX激酶-底物相互作用68,人蛋白資源數據庫(HPRD)69,PhosphoNetworks 70,71,PhosphositePlus 72,DbPTM 3.0 73,和磷酸。榆木74。


  3. 3。

    通過親和純化,質譜(AP-MS),Y2H和文獻衍生的低通量實驗鑒定PPI,以及BioGRID 75,PINA 76,Instruct 77,HPRD 69,MINT 78,IntAct 79的蛋白質三維結構和InnateDB 80。


  4. 4。

    通過SignaLink2.0 81中注釋的文獻衍生的低通量實驗進行信令網絡。


通過僅考慮網絡中最大的連接組件并消除自環,所得的相互作用組包括16,656個蛋白質和243,592個相互作用。有關更多詳細信息,請參閱參考資料。19。

哮喘和COPD種子基因

我們通過匯總針對COPD和哮喘易感性復制的若干全基因組范圍關聯研究的來源,以及由eQTL或GWAS區域內的功能研究牽涉的特定基因,確定了一套完善的基因。補充資料12分別詳細列出了考慮用于哮喘和COPD的來源   。對于COPD,我們還考慮了導致孟德爾綜合癥的基因,其中包括肺氣腫作為其表型的一部分:α-1抗胰蛋白酶缺乏癥(SERPINA1)和角質疏松ELNFBLN5)。

疾病模塊構造

哮喘和COPD疾病模塊是通過DIAMOnD算法20構建的。DIAMOnD基于迭代方案,該方案利用網絡的拓撲結構逐步構建疾病模塊。給定一個疾病基因集?s在每個迭代基因上,DIAMOnD會計算網絡每個節點與疾病基因的連通性的統計意義。如果當前迭代中的疾病模塊由s 基因,然后是具有度的候選節點 ??s 邊緣連接到 s模塊中的基因具有p

p--v一種?,?s=?一世=?s?p?,?一世
(1)

哪里 p?,?一世 是超幾何分布

p?,?一世=s?s?-s?-?s??
(2)

?是網絡中基因的總數。在參考。如圖20所示,可以對種子基因進行加權,以使其在p值計算中更為突出,但是在此分析中,未探討這種可能性。在候選節點中,將與節點集最重要的節點(因此具有較小的p值)添加到模塊,然后從增加的基因集開始該過程。重復此操作固定次數的迭代?,最終模塊大小為 ?s+?基因。為了選擇?我們使用閾值p從UK-Biobank 21中提取了與哮喘和COPD顯著相關的基因1個?-3和分別不存在于哮喘和COPD種子基因集中。雖然UKB基因通常與哮喘和COPD的種子基因不同,但可能會發生一些重疊。因此,我們僅考慮了哮喘和COPD的種子基因中分別不存在的UKB基因742和458基因。從哮喘種子基因開始,我們執行了DIAMOnD,并且在每次迭代中,我們測量了GWAS重要基因與當前模塊中的基因之間的超幾何p值,獲得了圖1所示的曲線   (a,左)。然后我們選擇迭代截止?產生曲線中最低p值的值。我們對COPD模塊重復了相同的操作(補充圖   1(b,右))。哮喘和COPD模塊的最終大小分別為373個基因和228個基因,其中有14個重疊基因。

模塊之間重疊的意義

為了測試哮喘和COPD模塊之間重疊的重要性,我們使用以下描述的程序(方法中的基因組隨機化部分)生成了1000個哮喘和COPD基因組隨機對,并計算了隨機樣本之間的重疊等于或大于觀察值(14個基因)。

流中心

給定源疾病模塊 ? 和目標模塊 小號,我們定義節點的流中心性 v 是(誰)給的

FC小號,?v=1個|小號||?|s小號,??σs?vσs?
(3)

哪里 σs?v 是距離的最短路徑數 s? 通過節點 v, σs? 是之間最短路徑的總數 s?|?|是相應集合的大小。在特定情況下小號=?=V,在哪里 V等于網絡中所有節點的集合,則流量中心性降低為中間性中心性度量。注意,雖然等式。3)暗示源疾病模塊之間的方向性小號 和目標模塊 ?,在無向網絡中,此類角色可以互換。

流動中心度的原始值由方程式計算得出。3)偏向集線器:高度節點更有可能偶然偶然參與節點對之間的最短路徑。為了解決這個偏差,我們通過將獲得的值與通過將源模塊和目標模塊隨機化1000倍而生成的零分布進行比較來計算其統計顯著性。“方法”部分描述了隨機化方案的詳細信息。對于源模塊和目標模塊的每個隨機對,我們計算網絡每個節點的流量中心度并測量平均值μFC 和標準偏差 σFC所有樣本中。節點的FCSv 然后計算為

FC小號小號,?v=FC小號,?v-μFCσFC。
(4)

較大的正FCS表示該節點更有可能出現在連接源模塊和目標模塊的最短路徑中,而較小或負的值表明該節點與所選模塊對無關。

FCS穩定性

為了評估FCS值對疾病模塊邊界的適度變化的穩定性,我們進行了以下測試。我們在DIAMOnD模塊的選定臨界值迭代中定義了一系列可能的小變化,即Δ{-30,-20,-10,-5,-1個,1個,5,10,20,30}。例如,當考慮變化-對于哮喘模塊(373個基因),我們從列表中列出了30個,我們只考慮了第一個 ?-30 由DIAMOnD優先排列的基因,其中 ? 是原始截止值,獲得的模塊大小為 ?哮喘-30=343基因。對于COPD,我們重復相同的方案。對于每個值Δ我們通過將被干擾的模塊設置為源和目標來計算被干擾的FCS值。然后將擾動后的FCS與原始FCS進行比較(請參見補充圖   4),補充圖   5顯示了每個值的Spearman相關性。Δ。獲得的相關值非常高(0.94),表明FCS分數對模塊大小的適度變化具有魯棒性。

基因集隨機化

我們定義了一種隨機化方案,旨在創建拓撲與給定DIAMOnD模塊相似的隨機模塊的空分布。生成隨機基因集的直接方法是選擇一個數字? 保留程度的隨機基因,其中 ?是我們要隨機分配的疾病模塊的大小,然后重復此過程多次以獲取樣本。但是,這種方法的缺點是生成的疾病模塊與我們使用DIAMOnD計算出的哮喘和COPD集完全不同。DIAMOnD迭代搜索種子基因的附近區域,從而生成相對于隨機選擇而言更緊湊且互連性更好的模塊。因此,通過在此類樣本上進行比較而評估z得分將被隨機模塊的不同拓撲特性所混淆。因此,我們定義了以下隨機方案:

  1. 1。

    給定一組 ?s??d 疾病模塊的種子基因 中號 (通過DIAMOnD獲得),我們提取了一組新的 ?s??d 以保留度的方式隨機種子基因。


  2. 2。

    我們對隨機種子基因集運行DIAMOnD ? 迭代,其中 ? 是的大小 中號,獲得一個新的大小隨機模塊 ?。


這樣,該過程將生成隨機模塊,這些模塊在拓撲上與DIAMOnD生成的模塊更相似。

選擇網絡路徑

選擇流動中心路徑作為連接哮喘和COPD種子基因的所有最短路徑,其中間基因(即不是路徑來源或目標的那些基因)的流動中心度得分為2或更高。假設FC值的零值分布具有正態性,那么與平均值相差2個標準差的值將遠遠超出零值分布的大部分。選擇太大的閾值可能會導致選擇的節點太少,并可能導致邊緣密度較低的區域中的重要節點丟失,而閾值太低則會增加誤報。作為附加約束,我們要求路徑中的所有中間節點至少參與連接COPD和哮喘節點的五個最短路徑,為了從池中刪除所有由于最短路徑統計信息低而具有不穩定FCS值的節點。請注意,雖然尚未使用完整的疾病模塊信息來選擇最短路徑的初始池,但是由于FC取決于源疾病模塊和目標疾病模塊,因此該信息將嵌入網絡中每個基因的流動中心度計算中。

Type A路徑隨機化方案的結構如下:

  1. 1。

    提取一個長度值 大號 根據FC路徑長度的經驗分布。


  2. 2。

    創建一個空路徑 P。


  3. 3。

    選擇一個節點 ? 在網絡中隨機均勻地添加到 P。


  4. 4。

    選擇一個隨機的鄰居 ? 在那些還沒有進入 P 并將其添加到 P。


  5. 5,

    從第3步開始重復,直到 P大號。


  6. 6。

    P 到當前的隨機路徑集。


  7. 7

    從步驟1開始重復,直到獲得所需數量的隨機路徑。


請注意,在上述方案的實際實現中,為了考慮諸如無法將新鄰居添加到路徑等情況的邊緣情況,還執行了一些其他控制。

通過從連接兩種疾病的基因的最短路徑池中均勻采樣路徑來選擇B型隨機路徑。

順序相似

給定一條路 P? 長度 ? 作為網絡中獨特基因的有序序列 G1個,G2,G3,。。。,G?。然后將順序相似性定義為

s序列P?=1個?-1個一世=1個?-1個sG一世,G一世+1個
(5)

哪里 s?,?是基因之間的任何GO術語相似性度量。在這項工作中,我們認為雷斯尼克的相似性度量的最佳匹配平均值(BMA)82,83,定義如下。給定兩個基因üv 與GO術語集相關 üV分別是BMA Resnik相似性的形式

sü,v=1個|ü|+|V|[αü?一種XβV[s一世α,β]+βV?一種Xαü[s一世α,β]]

哪里 sim卡α,β 表示GO項之間的Resnik相似性度量 αβ。

順序共表達

給定一條路 P? 長度 ? 作為網絡中獨特基因的有序序列 G1個,G2,G3,。。。,G?。然后將順序共表達定義為

ρ序列P?=1個?-1個一世=1個?-1個|ρ?G一世,?G一世+1個|
(7)

哪里 ?G 是表示基因表達值的隨機變量