華語樂壇,難道要重生了?!
【資料圖】
最近差評君我在刷B站視頻的時候,突然發(fā)現(xiàn)出現(xiàn)在我推薦頁上的老歌手們又多了起來。
這類視頻大多是以唱歌為主,有周杰倫的,有孫燕姿的,林俊杰的,甚至還有丁真郭德綱什么的。
只不過在這些視頻的標題里,都會帶有一個“AI”標簽。
這類視頻不僅非常多,關(guān)鍵是它們的播放量都還不差。
AI鄧麗君的一首《反方向的鐘》,喜獲50萬+播放。
AI周杰倫的一首“日系新歌”《單相思》,也是獲得了80萬+的播放量。
而且曾經(jīng)6年不發(fā)新專的杰倫,因為這個AI替身,在這一兩個月里發(fā)的“新歌”的量,估摸著已經(jīng)超過前十年發(fā)的量的總和了。。。
至于曾經(jīng)的“冷門歌手孫燕姿”,更是靠著AI替身,以一首《下雨天》,榮獲超83萬的播放量。
而且,這個AI孫燕姿,各種各樣的風格曲目都有,從流行到搖滾,就沒有AI孫燕姿掌控不了的曲風。
哪曾想到,原本已經(jīng)脫離歌壇很久的孫燕姿,到了2023年,自己居然靠著AI替身,再次火了一把。一下子從曾經(jīng)那個“冷門歌手”,變成了“2023最火爆華語歌手”。
可能也是看著現(xiàn)在華語歌壇有點拉,就連相聲界的郭老師,都來湊熱鬧了,直接來了一首《 a lot 》。
把相聲的基本功,“說、學、逗、唱”中的“說唱”演繹的淋漓盡致。
匪幫說唱配上于謙和郭德綱老師的“匪幫?!保麄€視頻立馬就有了一種“德云社廠牌”的氣質(zhì),還有網(wǎng)友在評論里戲稱郭老師為“ GodGang ”。。。
整個形勢,就好像要回到20幾幾年那會的華語樂壇大爆發(fā)時代。
如果說,現(xiàn)在的新四大天王,把華語樂壇整成了華語哥譚。
那這個 AI 替身,可是真的把華語樂壇曾經(jīng)的一絲輝煌給重現(xiàn)了。
所以這類 AI 視頻到底是個啥東西?為什么在這兩個月的時間里突然就爆發(fā)了?
差評君我仔細研究了一下,最后得出結(jié)論,讓AI華語樂壇出現(xiàn)爆發(fā)式生長的,離不開這么一個開源項目:
So-vits-svc。
So-vits-svc源于21年的另一個叫做Vits的開源項目。
Vits是一種語音合成方法。
簡單來說,就是可以對人的聲學特征進行模擬,然后就可以直接用文本生成你模擬好的語音。
這個Vits雖然開源的早,但它沒火起來只有一個原因,就是對普通用戶來說,太難用了。
由于是文本生成語音,首先就得對需要訓練的語音進行文本標記,特別不巧的是,訓練Vits的模型又需要大量的語料才能獲得比較好的效果,這個數(shù)量大概在數(shù)千至上萬條5-10秒左右的音頻。
所以,Vits效果好是好,但愿意折騰它的普通用戶也不多。
到了2022年,一位叫“Rcell”的B站用戶在Vits的基礎(chǔ)上,結(jié)合了soft-vc、VIsinger等一系列項目,So-vits-svc就此誕生。
和Vits不同的是,So-vits不能通過文本直接合成語音,而是需要一段原始音頻,然后利用這個原始音頻,擬合成你想要的人的音色。
不過So-vits在訓練聲學特征時,需要的訓練數(shù)據(jù)也相對較少,最短十幾分鐘,就能訓練出一個能用的模型了。
到了今年三月,這個So-vits的項目迭代到4.0版本,更加易用,效果更好,再加上很多UP自發(fā)整理的整合包,這才讓B站的AI視頻出現(xiàn)了大爆發(fā)的趨勢。
那這個So-vits項目易用到了什么程度呢?
差評君這里給大家做一個演示。
咱們直接把差評君的嘴替,蛋不利多醬的配音拿來訓練,首先這些音頻要經(jīng)過切片和預處理,方便訓練。
一切準備完畢后,就可以開始訓練需要的聲學模型啦,直接點擊文件里面的推理,整個訓練過程就開始了
在訓練完成后,就能得到這樣的聲學模型。
有了模型就可以對音頻進行推理了,我們先準備一段咱們需要擬合的干音,在這里就是一段唱歌的聲音。
然后按照提示輸入數(shù)值,等待推理完成即可。
最后在/results里的.flac文件,就是咱們通過訓練蛋蛋的模型擬合出來的聲音了。
之后我還找到了一個叫d-id的網(wǎng)站,這是一個可以將輸入文本或音頻轉(zhuǎn)化為嘴型動畫的網(wǎng)站,直接把圖片和音頻上傳,就能在短時間內(nèi)生成符合音頻信息的視頻。
把音頻和視頻合成,制作就結(jié)束了,整個過程幾乎涉及不到什么有難度的點。
給大家看看成品,雖然這個過程花費時間不多,但整體的唱歌效果也還行,除了這選的曲子有點一言難盡之外。。。
,時長03:16
其實使用別人的聲音來唱歌也不是一件稀奇的事情。
B站的鬼畜視頻大家應該都看過吧?
鬼畜視頻和這類AI視頻有個共同點,就是它們都是用別人的聲音來調(diào)教音頻從而達到唱歌的效果。
但是傳統(tǒng)鬼畜的方式,制作過程繁雜,最后出來的效果也和個人調(diào)音技術(shù)有很大的關(guān)系。
而這類AI視頻,制作流程不但簡單,聲音的擬合效果也只取決于你訓練的模型的好壞。
那這一對比下來,別的先不說,鬼畜區(qū)以后不得被AI視頻干爆???
在一些AI視頻下面,甚至已經(jīng)有些網(wǎng)友在評論區(qū)哭喊,調(diào)音鬼畜要被AI代替了。。。
但差評君在詢問了B站小編后,發(fā)現(xiàn)其實現(xiàn)在很多人對AI類的視頻并沒有很大的擔憂。
小編認為技術(shù)服務于創(chuàng)意,AI帶來的生產(chǎn)力提升也是一件好事,單調(diào)的AI原詞現(xiàn)在也就是圖個新鮮勁,不會對鬼畜區(qū)造成長遠的影響。
這類AI視頻,雖然在聲音的還原上,相比傳統(tǒng)鬼畜有極大優(yōu)勢,但是在內(nèi)容多樣性上,卻遠遠不如傳統(tǒng)鬼畜的方式。
咱就以最近很火的鬼畜素材 “ 泰褲辣 ” 舉例。
整段原視頻不過幾十秒,比較有梗的也就是這句“泰!褲!辣!”。
在傳統(tǒng)鬼畜的制作流程中,只需要把音頻截下來,然后對一些比較有梗的詞語進行重組拼貼,再進行調(diào)音。
然后對上口型的畫面,一個鬼畜視頻就完成了。
但如果想要用AI來做視頻的話,對這類素材,首先就是音頻素材量不夠,短短幾十秒的音頻素材,完全不足以支撐訓練出聲學特征。
其次就是無法還原“?!保钣泄5倪@句“泰!褲!辣!”,AI擬聲完全沒辦法保留素材的原味。
就算你能訓練出聲學模型,當你把聲音擬合到這個干聲上時,你所有的語氣,唱調(diào),歌詞,都會變成和原始干聲一樣。
這就少了很多樂趣了。
我們再回過頭來看看鬼畜區(qū)的大部分視頻,很多鬼畜視頻的素材也就是一小段比較有趣的對話,比如九轉(zhuǎn)大腸,雞湯來了還有華強買瓜。
這些短短幾分鐘的素材全都不足以支撐AI訓練出聲學模型,自然也就沒人會拿這些素材去做AI鬼畜了。
能被拿來做AI訓練的,一般都是擁有很多音頻訓練集的人物,比如一些主播、配音演員還有歌手。
那這些歌手和主播就能被替代嘛?
只能說,目前可能還很難,但未來,誰也說不準。
B站就有一位翻唱區(qū)的UP,自己把自己的聲音練了一個AI模型出來。
在聽了最終的效果之后,直呼被AI版的自己爆殺。
評論區(qū)的觀眾更是發(fā)出驚嘆,本來以為AI最不能取代的就是藝術(shù)類了,結(jié)果,現(xiàn)在最可能被取代的,就是藝術(shù)類工作。。。
不過,差評君之所以說現(xiàn)在還比較難取代的原因,主要是因為,目前的AI還不能做到對聲音的完全定制化。
比如歌手在唱歌的時候經(jīng)常會有一些臨時的歌詞改編啊,轉(zhuǎn)調(diào)啊等等,這些AI目前還無法做到。
而且AI視頻還有一點致命的缺點,你想要用AI唱歌,你首先得擁有這首歌的干音。。。
這個干音要么你自己唱,要么有歌手自己放出來,要么靠自己慢慢去調(diào)音,但這么一來,這些歌不還是人唱的嘛。。。
另外,AI工具潛藏著的使用安全問題,可能也會在日后讓人們限制它的使用范圍,由于這類AI工具簡單易用,這也就意味著它降低了某些人利用這些軟件做壞事的門檻。
在軟件的命令行界面,從作者為了規(guī)范責任,寫了這么一大串使用細則來看就知道,他們是真的怕!
你想想看,只要獲取了你數(shù)十分鐘的音頻錄音,我就能通過飧鋈砑茨D獬瞿闥禱暗納簟?
那么通過這種方式來進行電信詐騙的話,可信度就提升了很多,畢竟再怎么防,也很難會想到自己的身邊熟人的聲音,居然是用AI合成的。
不過工具畢竟只是工具,有人拿它來電信詐騙,也有人會拿它來紀念親人。
而且這類的視頻也已經(jīng)不少了,許多UP自己通過AI技術(shù)把已故藝術(shù)家們“復活”,比如這個使用AI技術(shù)讓相聲大師馬三立來講新相聲的視頻。
在評論區(qū)里有不少人聽著聽著,就流淚了。
感慨科技就應該在這個方向上使用。
還有UP,因為想念自己已故的奶奶,于是通過這種方式“復活”了她。
和自己的奶奶進行了一個隔空對話。
在AI鄧麗君的唱歌視頻下面,也有很多人對這種數(shù)字生命表達了感慨。
從嘲笑,到理解到愛上,最后成為數(shù)字生命。
這種種例子,不免讓人感慨,技術(shù)不同的使用方式,帶給人的是不同的體驗。
隨著AI技術(shù)的發(fā)展,我們可以大膽暢想,在不遠的將來,或許我們也能擁有這樣的數(shù)字生命,把已故的親人保留下來,哪怕只是和他對上幾句話,那也足夠慰藉了。