Science 發(fā)文,高通量蛋白質(zhì)組學(xué)和人工智能的革命 - IT思維
公眾號/? ScienceAI(ID:)
編譯 | 紫羅
最近,研究人員能夠從少量血液樣本中測量數(shù)千種血漿蛋白,這為廣泛的數(shù)據(jù)提供了新的維度,可以增進我們對人類健康的了解。
例如,SomaLogic 公司已經(jīng)開發(fā)出測量 10,000 多種蛋白質(zhì)的方法,而賽默飛世爾的 Olink 檢測方法可以從少至 2 μl 的樣本中檢測 5400 多種蛋白質(zhì)。
當(dāng)這些豐富的 數(shù)據(jù) 與來自大型患者群體的其他信息層(例如英國生物庫從 50 萬名參與者那里獲得的基因、健康和生活方式信息)相結(jié)合時,我們就會對疾病的根源、衰老過程以及預(yù)測個人健康軌跡的潛在能力產(chǎn)生新的見解。
十多年來,科學(xué)家已經(jīng)開發(fā)出預(yù)測疾病風(fēng)險的多基因風(fēng)險評分(polygenic risk scores,PRS)。PRS 已在不同血統(tǒng)的人群中得到驗證,現(xiàn)在開始用于患者指導(dǎo)。這些風(fēng)險評分通常基于數(shù)百種常見(存在于 5% 以上的人口中)單核苷酸多態(tài)性 (SNP) 的存在。
但我們知道,患病風(fēng)險不僅僅反映在常見的 DNA 序列變異中。還有一些罕見和極罕見的基因組變異未被計入風(fēng)險計算中,例如 DNA 中核苷酸的插入-缺失 (indel) 會產(chǎn)生突變,或者 DNA 排列的變化(而不僅僅是單核苷酸變化)會導(dǎo)致結(jié)構(gòu)變異。此外,蛋白質(zhì)組學(xué)、代謝組學(xué)和表觀基因組學(xué)譜以及微生物組、免疫組和暴露組(環(huán)境暴露)也存在差異。
2000 年,中美英日德法6國宣布人類基因組工作草圖繪制完成。已繪制出人體 97% 的基因組,其中 85 %的基因組序列得到了精確測定,包含了人體約 30 億個堿基對的正確排序。
人類基因組中約有 20,000 個蛋白質(zhì)編碼基因,而人體中卻有超過 100,000 種不同的蛋白質(zhì),并且由于可變剪接,人體中還存在數(shù)十萬種蛋白質(zhì)異構(gòu)體(變體)。能夠檢測其中的大部分蛋白質(zhì)是無假設(shè)研究的基礎(chǔ),即努力收集數(shù)據(jù)并盲目尋找模式,而不是假設(shè)存在某些模式然后尋找它們。這種方法與機器學(xué)習(xí)分析一起,引發(fā)了一場理解疾病基礎(chǔ)的革命。
最近幾項高通量蛋白質(zhì)組學(xué)研究,在器官和全身層面都具有啟發(fā)意義。三項研究探討了器官特異性蛋白質(zhì)動力學(xué)。
斯坦福大學(xué)研究團隊將 5,676 名成年人分為五個獨立隊列(三組為健康參與者,兩組為阿爾茨海默病患者)中篩選出數(shù)據(jù),來評估近 5000 種血漿蛋白(并進行了 5 年的隨訪)。
使用機器學(xué)習(xí)模型,確定了 11 個器官特有的蛋白質(zhì),并通過比較生物年齡和實際年齡得出「器官年齡差距」。大約五分之一的人至少有一個器官是超齡者,因此,器官在生理和功能上都比人的實際年齡大得多,2% 的人有多個器官是超齡者。對于這 11 個器官中的每一個,年齡差距都與死亡風(fēng)險增加有關(guān)。
論文鏈接:https://www.nature.com/articles/s41586-023-06802-1
隨后的兩項研究進一步證實了這一發(fā)現(xiàn)。
在哈佛醫(yī)學(xué)院的預(yù)印論文中,他們對 53,000 名英國生物樣本庫(UK Biobank)參與者的約 3000 種血漿蛋白進行了評估。借助機器學(xué)習(xí),他們定義了七個器官特異性衰老時鐘。吸煙等生活方式因素與所有七個器官的衰老速度加快有關(guān),飲酒也會導(dǎo)致腸道衰老。器官衰老還與許多其他因素有關(guān),包括各種食物、藥物和職業(yè)。
論文鏈接:https://www.medrxiv.org/content/10.1101/2024.04.08.24305469v1
第三項研究也是由斯坦福大學(xué)進行的,他們檢測了 44,000 名 UK Biobank 參與者的 3000 種血漿蛋白,并進一步驗證了 11 個器官特異性衰老時鐘。與吸煙和飲酒相比,絕經(jīng)后雌激素替代療法與大多數(shù)器官的衰老速度減慢有關(guān)。一個值得注意的發(fā)現(xiàn)是,在長達 15 年的隨訪中,大腦或免疫系統(tǒng)衰老緩慢與生存率提高有關(guān)。
論文鏈接:https://www.biorxiv.org/content/10.1101/2024.06.07.597771v1
轉(zhuǎn)向全身高通量蛋白質(zhì)組學(xué),牛津大學(xué)團隊分析了 45,000 多名 UK Biobank 參與者的近 3000 種血漿蛋白,并在約 4000 名參與者的中國生物庫和近 2000 人的芬蘭生物庫中進行了進一步的交叉驗證,每個隊列至少進行了 11 年的隨訪。
204 種蛋白質(zhì)簇不僅可以準(zhǔn)確預(yù)測實際年齡,而且還與 18 種慢性疾病有關(guān),包括四種常見癌癥、多重疾病和全因死亡率(任何原因?qū)е碌乃劳觯5鞍踪|(zhì)組時鐘快速衰老者(蛋白質(zhì)模式表明衰老速度異常快的個體)患阿爾茨海默病的風(fēng)險更高,而在蛋白質(zhì)組時鐘緩慢衰老者中,不到 1% 的人患上阿爾茨海默病。
論文鏈接:https://www.nature.com/articles/s41591-024-03164-7
劍橋大學(xué)發(fā)表了兩份關(guān)于使用人工智能 (AI) 模型進行全身蛋白質(zhì)組學(xué)研究的報告,拓寬了疾病預(yù)測領(lǐng)域。
在超過 25,000 名參與者的 EPIC-Norfolk 隊列中,大約 3000 種血漿蛋白被檢測出來,并與 13 種疾病和全因死亡風(fēng)險相關(guān)。更廣泛地說,在英國生物庫的 41,000 多名個體中,通過評估相同的血漿蛋白并將數(shù)據(jù)與電子健康記錄相結(jié)合,發(fā)現(xiàn) 218 種常見和罕見疾病中的 52 種的風(fēng)險可預(yù)測性程度各不相同。
論文鏈接:https://www.nature.com/articles/s41591-019-0673-2
關(guān)于衰老,蛋白質(zhì)組學(xué)研究表明它不是一個線性過程。2019 年,斯坦福大學(xué)研究人員,在 4000 多名年齡在 18 至 95 歲之間的人群中,在近 3000 種蛋白質(zhì)中,我們的生命周期中有三個蛋白質(zhì)組學(xué)峰,分別在 35 歲、60 歲和 80 歲左右。最近,一項多組學(xué)研究評估了 300 多種蛋白質(zhì),但僅限于 75 歲(并進行了 1.7 年的短暫隨訪),發(fā)現(xiàn)蛋白質(zhì)組學(xué)峰出現(xiàn)在 44 歲和 61 歲。
論文鏈接:https://www.nature.com/articles/s41591-019-0665-2
SomaLogic 公司研究了近 17,0000 名個體中約 5000 種蛋白質(zhì)的預(yù)測潛力,發(fā)現(xiàn)蛋白質(zhì)與心血管疾病、糖尿病和代謝相關(guān)脂肪肝疾病的風(fēng)險密切相關(guān)。其他高通量蛋白質(zhì)組學(xué)研究則集中于健康個體患癡呆癥的風(fēng)險和阿爾茨海默病,后者與人體表達的載脂蛋白 E (APOE) 基因變異有關(guān)。
總之,這些研究突出了檢測和了解大量血漿蛋白的全新非凡能力。迄今為止的研究已經(jīng)增強了我們對人類衰老過程的理解,確定了許多器官特異性變化及其可能如何得到有利調(diào)節(jié),并提高了使用蛋白質(zhì)組學(xué)評分評估各種疾病風(fēng)險的潛力。
當(dāng)然,這僅代表一層數(shù)據(jù),通過使用多模態(tài) AI 分析,可以與電子健康記錄、基因組風(fēng)險、表觀遺傳時鐘、炎癥生物標(biāo)志物、腸道微生物組、免疫系統(tǒng)功能和環(huán)境暴露正交整合。
高通量蛋白質(zhì)組學(xué)評估的一個限制是費用,每人費用從 500 美元到 1000 美元不等。但經(jīng)過驗證的蛋白質(zhì)組子集可用于特定風(fēng)險評估,因此成本可能會低得多。
此時不容錯過的是,我們確實看到了蛋白質(zhì)組學(xué)領(lǐng)域和人工智能的令人振奮的發(fā)展,它們將繼續(xù)發(fā)展并最終在常規(guī)醫(yī)療保健中找到自己的位置。
參考內(nèi)容:https://www.science.org/doi/10.1126/science.ads5749