哥倫比亞大學(xué)瓦格洛斯內(nèi)外科醫(yī)學(xué)院團隊開發(fā)了一種創(chuàng)新的人工智能(AI)模型——通用表達轉(zhuǎn)換器(GET),該模型能夠精確預(yù)測人類細胞內(nèi)的基因活動,為理解細胞內(nèi)部工作機制提供了全新視角。這項突破性成果可幫助科學(xué)家以前所未有的方式,探索從癌癥到遺傳疾病等一系列健康問題,推動醫(yī)學(xué)研究向前邁進一大步。相關(guān)論文發(fā)表在最新一期《自然》雜志上。
傳統(tǒng)生物學(xué)方法擅長描述細胞的工作原理,以及它們?nèi)绾雾憫?yīng)外界變化,但缺乏對細胞行為及其對變化(例如致癌突變)反應(yīng)的預(yù)測能力。相比之下,GET模型能夠準(zhǔn)確預(yù)測細胞活動,這標(biāo)志著生物學(xué)從一個主要依賴描述性分析的領(lǐng)域,轉(zhuǎn)變?yōu)榭梢灶A(yù)測并調(diào)控細胞行為背后系統(tǒng)的科學(xué)。
此次,團隊利用AI預(yù)測特定細胞內(nèi)活躍的基因,這類信息對于確定細胞身份及功能至關(guān)重要。他們利用來自正常人體組織的數(shù)百萬個細胞的基因表達數(shù)據(jù)訓(xùn)練了一個機器學(xué)習(xí)模型,這些數(shù)據(jù)不僅包括基因組序列,也涵蓋了有關(guān)基因組哪些部分是可訪問和表達的信息。
GET模型的整體思路與ChatGPT等大型語言模型相仿:通過訓(xùn)練數(shù)據(jù)識別基礎(chǔ)規(guī)則(如語言語法),然后將這些規(guī)則應(yīng)用于新場景。經(jīng)過數(shù)據(jù)訓(xùn)練后,GET模型變得足夠精準(zhǔn),可以預(yù)測未曾見過的細胞類型中的基因表達模式,并且結(jié)果與實驗數(shù)據(jù)高度一致。
此外,團隊還使用GET模型揭示了患病細胞中隱藏的生物機制。在一個具體案例中,針對一種遺傳性兒童白血病的研究顯示,AI成功預(yù)測了某些突變會破壞決定白血病細胞命運的兩種轉(zhuǎn)錄因子之間的互動,實驗證實了AI的預(yù)測。這增強了人們對這種疾病驅(qū)動機制的理解。
這項研究不僅為探索多種疾病病理開辟了新途徑,也為發(fā)現(xiàn)新的治療靶點提供了可能,F(xiàn)在,科學(xué)家可以通過向計算機模型輸入新發(fā)現(xiàn)的突變,來了解和預(yù)測這些突變對細胞的具體影響。
(責(zé)任編輯:華康)