不知道大伙們聽說沒,百度他……登上 Nature 了。
就在幾天前,《 Nature 》正刊發(fā)表了一篇名叫《 Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity 》的論文,論文里提出 mRNA 序列優(yōu)化 AI 算法—— LinearDesign 。
說實(shí)話,第一時(shí)間看到這么多復(fù)雜的術(shù)語,再加上平常被“突破性成果們”給整得麻木了,差點(diǎn)就讓這選題溜過去了。
(資料圖)
但在我連夜肝完了論文,并咨詢了百度的老哥后,只想說:你厲害,我給你大拇哥。
因?yàn)閼{借這篇論文,百度不僅成為了首個(gè)以第一完成單位的身份,正式登上《 Nature 》的中國科技公司,而且 Nature 的專家組們考慮“論文對(duì)新冠病毒的研究可能有重大突破”,還給了它頂級(jí)論文的待遇,直接就進(jìn) VIP 通道了。(被獲準(zhǔn)成為 Accelerated Article Preview 加速發(fā)表論文。)
這讓日常擔(dān)任“百度小黑子”的網(wǎng)友們直呼:這怎么噴?。?/p>
不過,話又說回來了,這樣一個(gè)優(yōu)化 mRNA 序列的 AI 算法,怎么就為全人類做出重大貢獻(xiàn)了呢?
一切都還得從 mRNA 的最新發(fā)展說起。
在這次猝不及防的新冠疫情中, mRNA 可謂是臨危受命,大顯身手。
由于量產(chǎn)迅速、使用安全等特點(diǎn), mRNA 疫苗被公認(rèn)為是遏制 COVID-19 這種突發(fā)性病毒的可行工具之一。
但在為全球抗疫立下汗馬功勞的同時(shí), mRNA 疫苗卻因?yàn)槭芟抻?mRNA 分子本身的穩(wěn)定性問題,飽受非議。
簡(jiǎn)單來說,新冠的mRNA疫苗在體外、體內(nèi)都呆不長(zhǎng)。
這就意味著,不僅運(yùn)輸過程中需要超低溫冷鏈技術(shù),防止疫苗報(bào)廢;而且打完針之后也不敢保證長(zhǎng)時(shí)間有效,為了安全,一年得打好幾次。
本來研發(fā)、運(yùn)輸成本就高,對(duì)人體的保護(hù)時(shí)間還短,這樣的綜合成本對(duì)于很多國家來說,顯然不好接受。
不過一個(gè)新技術(shù),出問題是正常的。那我們把 mRNA 優(yōu)化一下,行不行呢?
答案是,非常困難。
mRNA疫苗優(yōu)化問題的最大問題其實(shí)是:算不過來。
mRNA 這個(gè)東西非常特別。它是由堿基組成的,但是其中的有些堿基,叫做同義密碼子。
簡(jiǎn)單來說,這些堿基發(fā)生變化,并不影響 mRNA 的功能。
所以一個(gè) mRNA ,會(huì)有無數(shù)個(gè)兄弟姐妹,甲乙丙丁。
雖然功能一樣,但因?yàn)橥x密碼子的差異,它們的“體質(zhì)”也大不相同。
這一大家子中,就只有那么幾個(gè)mRNA不容易分解,是制作疫苗的“好苗子”。
就拿新冠病毒刺狀蛋白的mRNA 疫苗來說吧。
為了找到這些疫苗中的“尖子生”,科學(xué)家們可能得找 10832次,才能找到穩(wěn)定性最好的新冠 mRNA 疫苗。
這種計(jì)算量,即使從宇宙誕生開始,每秒計(jì)算一個(gè)序列,到現(xiàn)在 138 億年了,可能還沒解決億萬分之一。
為了解決這個(gè)問題,不少機(jī)構(gòu)都做出了努力。比如斯坦福大學(xué)就搭建了一個(gè)疫苗設(shè)計(jì)競(jìng)賽平臺(tái),讓人類設(shè)計(jì)者以參與游戲的方式設(shè)計(jì)穩(wěn)定的 mRNA 序列。
德國科隆大學(xué)的研究人員也曾提出過一種對(duì) mRNA 進(jìn)行雙重化學(xué)修飾的策略。
可惜,效果都不是十分顯著。(相對(duì)這一次的成果而言)
但這一回,百度的科學(xué)家們脫穎而出,從簡(jiǎn)便算法和高效工具這兩個(gè)點(diǎn)上,解決了這個(gè)超級(jí)難題。
在這多年的研究中,百度的科學(xué)家們發(fā)現(xiàn)了一個(gè)很神奇的現(xiàn)象,“尋找 mRNA 最優(yōu)序列”的過程其實(shí)和“語音轉(zhuǎn)文字”很相近——兩者都是在排列組合。
找到最佳的 mRNA 序列,其實(shí)是 mRNA 中 4 種堿基的排列組合問題。
而語音轉(zhuǎn)文字,是拼音和對(duì)應(yīng)讀音的文字一一配對(duì)的過程。
比如說, wo ai ni ,的每個(gè)拼音會(huì)對(duì)應(yīng)不同的多音字。
wo 可以是:沃、我、窩……由此產(chǎn)生了窩矮膩、沃埃膩、我愛你等一系列的排列組合。
這就我們需要通過語法、邏輯等去判斷生成的文字準(zhǔn)不準(zhǔn)確;而 mRNA 的序列也有一些語法規(guī)則——就像某些特定的序列組合會(huì)具備什么樣的功能一樣。
所以語音轉(zhuǎn)文字的技術(shù)和 mRNA 尋找最佳序列的技術(shù)本質(zhì)上是共通的。
巧了么, AI 已經(jīng)把語音轉(zhuǎn)文字做得很好了,那么經(jīng)過適配,自然也能無縫銜接到 mRNA 的計(jì)算中。
這也使得,科學(xué)家們可以將語音轉(zhuǎn)文字領(lǐng)域常用的“動(dòng)態(tài)規(guī)劃算法”,用在 mRNA 的研究過程中以計(jì)算效率。
結(jié)果就是,好的計(jì)算工具—— AI ,加上高效的計(jì)算方法——?jiǎng)討B(tài)規(guī)劃算法,雙管齊下之后,計(jì)算新冠疫苗最優(yōu) mRNA 序列的時(shí)間直接從無窮大縮短到最少 11 分鐘。
這么一來,工作量大大減少,即使個(gè)人的電腦都可以運(yùn)行。簡(jiǎn)直是苦逼生物研究員的福音。
而且,百度這次能登上頂刊,順便蹭上了加急通道的根源還在于,它是一個(gè)能立竿見影幫助我們研發(fā)新冠疫苗的成果。
和之前的各種停留在實(shí)驗(yàn)室的成果不同,百度的這篇論文,不是一個(gè)概念上的突破,而是短時(shí)間內(nèi)就能落地的成果。
并且,它不止能針對(duì)新冠,對(duì)于其他的 mRNA 疫苗的研發(fā),也有很大幫助。
至于效果么,已經(jīng)在新冠疫苗的研制中得到印證了。
在新冠 mRNA 疫苗的對(duì)照實(shí)驗(yàn)中,對(duì)比市場(chǎng)上的新冠 mRNA 疫苗, LinearDesign 設(shè)計(jì)的疫苗序列的穩(wěn)定性(存在的時(shí)間)最多提升 5 倍,蛋白質(zhì)表達(dá)水平(在 48 小時(shí)內(nèi))最多提升 3 倍,抗體反應(yīng)最多提升 128 倍。
前段時(shí)間,百度更是和全球四大疫苗巨頭之一的賽諾菲簽訂協(xié)議,將 LinearDesign 用于優(yōu)化 mRNA 疫苗的設(shè)計(jì)研發(fā)。
而且根據(jù)百度專家的說法,這算法在普通的傳染性疫苗研制,甚至是癌癥相關(guān)藥物的研發(fā)中,也能起到一定的作用。
加速研發(fā)過程、降低成本,可以說對(duì)整個(gè)藥物研發(fā)圈兒,都是很有意義的一件事兒。
當(dāng)然更重要的是,除了疫苗領(lǐng)域之外,這篇論文還讓人看到了一種趨勢(shì),那就是:AI 和多學(xué)科的結(jié)合,正在大大拓展科學(xué)的邊界。
無論是用 AI 發(fā)現(xiàn)超級(jí)抗生素 Halicin ,還是用 AlphaFold 預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),或者是這次百度的 LinearDesign 。
都像這次論文的主要作者張鶴所說的那樣:一座意想不到的橋梁,將兩個(gè)乍一看沒有明顯相似之處的研究領(lǐng)域聯(lián)系起來。
那些科技圈兒的難題、目前無法到達(dá)的禁地,在未來可能也會(huì)一一用類似的方式被解決,被一座座橋梁所打通。
所以建議是繼續(xù)吃瓜等著吧,因?yàn)轭愃频摹氨ㄐ猿晒痹诓痪梦磥?,可能?huì)像家常便飯那樣,越來越多。