不知道大伙們聽說沒,百度他……登上 Nature 了。
就在幾天前,《 Nature 》正刊發(fā)表了一篇名叫《 Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity 》的論文,論文里提出 mRNA 序列優(yōu)化 AI 算法—— LinearDesign 。
說實話,第一時間看到這么多復(fù)雜的術(shù)語,再加上平常被“突破性成果們”給整得麻木了,差點就讓這選題溜過去了。
(資料圖)
但在我連夜肝完了論文,并咨詢了百度的老哥后,只想說:你厲害,我給你大拇哥。
因為憑借這篇論文,百度不僅成為了首個以第一完成單位的身份,正式登上《 Nature 》的中國科技公司,而且 Nature 的專家組們考慮“論文對新冠病毒的研究可能有重大突破”,還給了它頂級論文的待遇,直接就進 VIP 通道了。(被獲準(zhǔn)成為 Accelerated Article Preview 加速發(fā)表論文。)
這讓日常擔(dān)任“百度小黑子”的網(wǎng)友們直呼:這怎么噴啊?
不過,話又說回來了,這樣一個優(yōu)化 mRNA 序列的 AI 算法,怎么就為全人類做出重大貢獻了呢?
一切都還得從 mRNA 的最新發(fā)展說起。
在這次猝不及防的新冠疫情中, mRNA 可謂是臨危受命,大顯身手。
由于量產(chǎn)迅速、使用安全等特點, mRNA 疫苗被公認(rèn)為是遏制 COVID-19 這種突發(fā)性病毒的可行工具之一。
但在為全球抗疫立下汗馬功勞的同時, mRNA 疫苗卻因為受限于 mRNA 分子本身的穩(wěn)定性問題,飽受非議。
簡單來說,新冠的mRNA疫苗在體外、體內(nèi)都呆不長。
這就意味著,不僅運輸過程中需要超低溫冷鏈技術(shù),防止疫苗報廢;而且打完針之后也不敢保證長時間有效,為了安全,一年得打好幾次。
本來研發(fā)、運輸成本就高,對人體的保護時間還短,這樣的綜合成本對于很多國家來說,顯然不好接受。
不過一個新技術(shù),出問題是正常的。那我們把 mRNA 優(yōu)化一下,行不行呢?
答案是,非常困難。
mRNA疫苗優(yōu)化問題的最大問題其實是:算不過來。
mRNA 這個東西非常特別。它是由堿基組成的,但是其中的有些堿基,叫做同義密碼子。
簡單來說,這些堿基發(fā)生變化,并不影響 mRNA 的功能。
所以一個 mRNA ,會有無數(shù)個兄弟姐妹,甲乙丙丁。
雖然功能一樣,但因為同義密碼子的差異,它們的“體質(zhì)”也大不相同。
這一大家子中,就只有那么幾個mRNA不容易分解,是制作疫苗的“好苗子”。
就拿新冠病毒刺狀蛋白的mRNA 疫苗來說吧。
為了找到這些疫苗中的“尖子生”,科學(xué)家們可能得找 10832次,才能找到穩(wěn)定性最好的新冠 mRNA 疫苗。
這種計算量,即使從宇宙誕生開始,每秒計算一個序列,到現(xiàn)在 138 億年了,可能還沒解決億萬分之一。
為了解決這個問題,不少機構(gòu)都做出了努力。比如斯坦福大學(xué)就搭建了一個疫苗設(shè)計競賽平臺,讓人類設(shè)計者以參與游戲的方式設(shè)計穩(wěn)定的 mRNA 序列。
德國科隆大學(xué)的研究人員也曾提出過一種對 mRNA 進行雙重化學(xué)修飾的策略。
可惜,效果都不是十分顯著。(相對這一次的成果而言)
但這一回,百度的科學(xué)家們脫穎而出,從簡便算法和高效工具這兩個點上,解決了這個超級難題。
在這多年的研究中,百度的科學(xué)家們發(fā)現(xiàn)了一個很神奇的現(xiàn)象,“尋找 mRNA 最優(yōu)序列”的過程其實和“語音轉(zhuǎn)文字”很相近——兩者都是在排列組合。
找到最佳的 mRNA 序列,其實是 mRNA 中 4 種堿基的排列組合問題。
而語音轉(zhuǎn)文字,是拼音和對應(yīng)讀音的文字一一配對的過程。
比如說, wo ai ni ,的每個拼音會對應(yīng)不同的多音字。
wo 可以是:沃、我、窩……由此產(chǎn)生了窩矮膩、沃埃膩、我愛你等一系列的排列組合。
這就我們需要通過語法、邏輯等去判斷生成的文字準(zhǔn)不準(zhǔn)確;而 mRNA 的序列也有一些語法規(guī)則——就像某些特定的序列組合會具備什么樣的功能一樣。
所以語音轉(zhuǎn)文字的技術(shù)和 mRNA 尋找最佳序列的技術(shù)本質(zhì)上是共通的。
巧了么, AI 已經(jīng)把語音轉(zhuǎn)文字做得很好了,那么經(jīng)過適配,自然也能無縫銜接到 mRNA 的計算中。
這也使得,科學(xué)家們可以將語音轉(zhuǎn)文字領(lǐng)域常用的“動態(tài)規(guī)劃算法”,用在 mRNA 的研究過程中以計算效率。
結(jié)果就是,好的計算工具—— AI ,加上高效的計算方法——動態(tài)規(guī)劃算法,雙管齊下之后,計算新冠疫苗最優(yōu) mRNA 序列的時間直接從無窮大縮短到最少 11 分鐘。
這么一來,工作量大大減少,即使個人的電腦都可以運行。簡直是苦逼生物研究員的福音。
而且,百度這次能登上頂刊,順便蹭上了加急通道的根源還在于,它是一個能立竿見影幫助我們研發(fā)新冠疫苗的成果。
和之前的各種停留在實驗室的成果不同,百度的這篇論文,不是一個概念上的突破,而是短時間內(nèi)就能落地的成果。
并且,它不止能針對新冠,對于其他的 mRNA 疫苗的研發(fā),也有很大幫助。
至于效果么,已經(jīng)在新冠疫苗的研制中得到印證了。
在新冠 mRNA 疫苗的對照實驗中,對比市場上的新冠 mRNA 疫苗, LinearDesign 設(shè)計的疫苗序列的穩(wěn)定性(存在的時間)最多提升 5 倍,蛋白質(zhì)表達水平(在 48 小時內(nèi))最多提升 3 倍,抗體反應(yīng)最多提升 128 倍。
前段時間,百度更是和全球四大疫苗巨頭之一的賽諾菲簽訂協(xié)議,將 LinearDesign 用于優(yōu)化 mRNA 疫苗的設(shè)計研發(fā)。
而且根據(jù)百度專家的說法,這算法在普通的傳染性疫苗研制,甚至是癌癥相關(guān)藥物的研發(fā)中,也能起到一定的作用。
加速研發(fā)過程、降低成本,可以說對整個藥物研發(fā)圈兒,都是很有意義的一件事兒。
當(dāng)然更重要的是,除了疫苗領(lǐng)域之外,這篇論文還讓人看到了一種趨勢,那就是:AI 和多學(xué)科的結(jié)合,正在大大拓展科學(xué)的邊界。
無論是用 AI 發(fā)現(xiàn)超級抗生素 Halicin ,還是用 AlphaFold 預(yù)測蛋白質(zhì)結(jié)構(gòu),或者是這次百度的 LinearDesign 。
都像這次論文的主要作者張鶴所說的那樣:一座意想不到的橋梁,將兩個乍一看沒有明顯相似之處的研究領(lǐng)域聯(lián)系起來。
那些科技圈兒的難題、目前無法到達的禁地,在未來可能也會一一用類似的方式被解決,被一座座橋梁所打通。
所以建議是繼續(xù)吃瓜等著吧,因為類似的“爆炸性成果”在不久未來,可能會像家常便飯那樣,越來越多。