哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。
訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。
尤其在多模態(tài)任務(wù)中,這一問(wèn)題尤為突出。
一籌莫展之際,來(lái)自人大系的初創(chuàng)團(tuán)隊(duì),用自家的新模型,率先在國(guó)內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。
而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對(duì)模型本身進(jìn)行數(shù)據(jù)反哺。
模型是啥?
中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker 1.0。
團(tuán)隊(duì)是誰(shuí)?
智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問(wèn)。公司成立時(shí)還是2021年,就早早打入多模態(tài)這條“無(wú)人區(qū)”賽道。
MOE架構(gòu),解決多模態(tài)多任務(wù)訓(xùn)練沖突問(wèn)題
這不是智子引擎第一次發(fā)布模型。
去年3月8日,潛心研發(fā)兩年的團(tuán)隊(duì)對(duì)外發(fā)布了自研的第一個(gè)多模態(tài)模型,百億級(jí)別參數(shù)的ChatImg序列模型,并基于此推出世界首個(gè)公開(kāi)評(píng)測(cè)多模態(tài)對(duì)話應(yīng)用ChatImg(元乘象)。
后來(lái),ChatImg不斷迭代,新模型Awaker的研發(fā)也在并行推進(jìn)。后者還繼承了前代模型的基礎(chǔ)能力。
相較于前代的ChatImg序列模型,Awaker 1.0采用了MoE模型架構(gòu)。
要說(shuō)原因嘛,是想要解決解決多模態(tài)多任務(wù)訓(xùn)練存在嚴(yán)重沖突的問(wèn)題。
采用MoE模型架構(gòu),可以更好地學(xué)習(xí)多模態(tài)通用能力以及各個(gè)任務(wù)所需的獨(dú)特能力,從而讓整個(gè)Awaker 1.0的能力在多個(gè)任務(wù)上有進(jìn)一步提升。
數(shù)據(jù)勝千言:
鑒于主流多模態(tài)評(píng)測(cè)榜單存在評(píng)測(cè)數(shù)據(jù)泄露問(wèn)題,智子團(tuán)隊(duì)從嚴(yán)構(gòu)建了自有評(píng)測(cè)集,大部分測(cè)試圖片來(lái)自個(gè)人手機(jī)相冊(cè)。
表格顯示,團(tuán)隊(duì)讓Awaker 1.0和國(guó)內(nèi)外先進(jìn)的3個(gè)多模態(tài)大模型進(jìn)行了評(píng)測(cè)。
多提一嘴,由于GPT-4V和Intern-VL并不直接支持檢測(cè)任務(wù),它們的檢測(cè)結(jié)果是通過(guò)要求模型使用語(yǔ)言描述物體方位得到的。
可以看到,在視覺(jué)問(wèn)答和業(yè)務(wù)應(yīng)用任務(wù)上,Awaker 1.0的基座模型超過(guò)了GPT-4V、Qwen-VL-Max和Intern-VL。
在描述、推理和檢測(cè)任務(wù)上,Awaker 1.0的基座模型達(dá)到了次好效果。
后來(lái)看平均分,Awaker 1.0處于幾者中的高值。
因此,上述結(jié)果也印證了多任務(wù)多模態(tài)模型采用MoE架構(gòu)的有效性。
數(shù)據(jù)集評(píng)測(cè)結(jié)果有了,真實(shí)效果還需進(jìn)一步上手體驗(yàn)。
這里主要問(wèn)了它和對(duì)比大模型一些關(guān)于中文OCR(圖片文字識(shí)別)和計(jì)數(shù)問(wèn)題、詳細(xì)描述任務(wù)等問(wèn)題。
這個(gè)主要考計(jì)數(shù):
Awaker 1.0能正確地給出答案,而其它三個(gè)模型均回答錯(cuò)誤。
這個(gè)主要考中文OCR:
正確回答的選手是Qwen-VL-Max和Awaker 1.0。
后這題考圖片內(nèi)容理解。
GPT-4V和Awaker 1.0不但能夠詳細(xì)地描述圖片的內(nèi)容,而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié),如圖中展示的可口可樂(lè)。
不得不提一嘴的是,Awaker 1.0繼承了一些智子團(tuán)隊(duì)此前廣為關(guān)注的研究成果。
說(shuō)的就是你——Awaker 1.0的生成側(cè)。
Awaker 1.0的生成側(cè),是智子引擎自主研發(fā)的類(lèi)Sora視頻生成底座VDT(Video Diffusion Transformer)。
VDT的學(xué)術(shù)論文早于OpenAI Sora的發(fā)布(去年5月),并已被頂會(huì)ICLR 2024接收。
VDT與眾不同的創(chuàng)新之處,主要有兩點(diǎn)。
一是在技術(shù)架構(gòu)上采用Diffusion Transformer,在OpenAI之前就展現(xiàn)了Transformer在視頻生成領(lǐng)域的巨大潛力。
它的優(yōu)勢(shì)在于其出色的時(shí)間依賴性捕獲能力,能夠生成時(shí)間上連貫的視頻幀,包括模擬三維對(duì)象隨時(shí)間的物理動(dòng)態(tài)。
二是提出統(tǒng)一的時(shí)空掩碼建模機(jī)制,使VDT能夠處理多種視頻生成任務(wù)。
VDT靈活的條件信息處理方式,如簡(jiǎn)單的token空間拼接,有效地統(tǒng)一了不同長(zhǎng)度和模態(tài)的信息。
同時(shí),通過(guò)與該工作提出的時(shí)空掩碼建模機(jī)制結(jié)合,VDT成為了一個(gè)通用的視頻擴(kuò)散工具,在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無(wú)條件生成、視頻后續(xù)幀預(yù)測(cè)、插幀、圖生視頻、視頻畫(huà)面補(bǔ)全等多種視頻生成任務(wù)。
據(jù)了解,智子引擎團(tuán)隊(duì)不僅探索了VDT對(duì)簡(jiǎn)單物理規(guī)律的模擬,發(fā)現(xiàn)它能模擬物理過(guò)程:
還在超寫(xiě)實(shí)人像視頻生成任務(wù)上進(jìn)行了深度探索。
因?yàn)槿庋蹖?duì)人臉及人的動(dòng)態(tài)變化非常敏感,所以這個(gè)任務(wù)對(duì)視頻生成質(zhì)量的要求非常高。不過(guò),智子引擎已經(jīng)突破超寫(xiě)實(shí)人像視頻生成的大部分關(guān)鍵技術(shù),比起Sora也沒(méi)在怕的。
口說(shuō)無(wú)憑。
這是智子引擎結(jié)合VDT和可控生成,對(duì)人像視頻生成質(zhì)量提升后的效果:
據(jù)悉,智子引擎還將繼續(xù)優(yōu)化人物可控的生成算法,并積極進(jìn)行商業(yè)化探索。
生成源源不斷的新交互數(shù)據(jù)
更值得關(guān)注的是,智子引擎團(tuán)隊(duì)強(qiáng)調(diào):
Awaker 1.0是世界上首個(gè)能自主更新的多模態(tài)大模型。
換句話說(shuō),Awaker 1.0是“活”的,它的參數(shù)可以實(shí)時(shí)持續(xù)地更新——這就導(dǎo)致Awaker 1.0區(qū)別于所有其它多模態(tài)大模型,
Awaker 1.0的自主更新機(jī)制,包含三大關(guān)鍵技術(shù),分別是:
-數(shù)據(jù)主動(dòng)生成
-模型反思評(píng)估
-模型連續(xù)更新
這三項(xiàng)技術(shù),讓Awaker 1.0具備自主學(xué)習(xí)、自動(dòng)反思和自主更新的能力,可以在這個(gè)世界自由探索,甚至與人類(lèi)互動(dòng)。
基于此,Awaker 1.0在理解側(cè)和生成側(cè)都能生成源源不斷的新交互數(shù)據(jù)。
怎么做到的?
在理解側(cè),Awaker 1.0與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互。
在執(zhí)行任務(wù)的過(guò)程中,Awaker 1.0將場(chǎng)景行為數(shù)據(jù)反哺給模型,以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練。
在生成側(cè),Awaker 1.0可以進(jìn)行高質(zhì)量的多模態(tài)內(nèi)容生成,為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。
在理解側(cè)和生成側(cè)的兩個(gè)循環(huán)中,Awaker 1.0實(shí)際實(shí)現(xiàn)了將視覺(jué)理解與視覺(jué)生成進(jìn)行融合。
要知道,Sora問(wèn)世后,越來(lái)越多聲音表示,要通往AGI,必須達(dá)成“理解和生成的大一統(tǒng)”。
以新知識(shí)注入為例,下面來(lái)看個(gè)具體跑通的例子。
Awaker 1.0能夠不斷在互聯(lián)網(wǎng)上學(xué)習(xí)實(shí)時(shí)新聞信息,同時(shí),它結(jié)合新學(xué)習(xí)到的新聞信息來(lái)回答各種復(fù)雜問(wèn)題。
這和目前兩種主流,即RAG和傳統(tǒng)長(zhǎng)上下文方式還不太一樣,Awaker 1.0是真的把新知識(shí)“記憶”在自個(gè)兒模型的參數(shù)上。
可以看到,連續(xù)3天的自我更新過(guò)程中,Awaker 1.0每天都能學(xué)習(xí)當(dāng)天的新聞信息,并在描述中準(zhǔn)確地說(shuō)出對(duì)應(yīng)信息。
而且雖然一直在學(xué),Awaker 1.0倒沒(méi)有顧此失彼,它并不會(huì)很快地遺忘學(xué)過(guò)的知識(shí)。
譬如,4月16日學(xué)進(jìn)去的智界S7相關(guān)知識(shí),在2天后仍然被Awaker 1.0記住或理解。
So,在這個(gè)數(shù)據(jù)如金的時(shí)代,別再哀嘆“數(shù)據(jù)不夠用”了。
面對(duì)數(shù)據(jù)瓶頸的團(tuán)隊(duì)們,一種可行、可用的新選擇,不就被Awaker 1.0送來(lái)了?
具身智能“活”的大腦
話說(shuō)回來(lái),正是由于實(shí)現(xiàn)了視覺(jué)理解與視覺(jué)生成的融合,當(dāng)遇到“多模態(tài)大模型適配具身智能”的問(wèn)題,Awaker 1.0的驕傲已經(jīng)顯露無(wú)疑。
事情是這樣的:
Awaker 1.0這類(lèi)多模態(tài)大模型,其具有的視覺(jué)理解能力可以天然與具身智能的“眼睛”相結(jié)合。
而且主流聲音也認(rèn)為,“多模態(tài)大模型+具身智能”有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性,甚至是實(shí)現(xiàn)AGI的可行路徑。
理由不外乎兩點(diǎn)。
第一,人們期望具身智能擁有適應(yīng)性,即智能體能夠通過(guò)持續(xù)學(xué)習(xí)來(lái)適應(yīng)不斷變化的應(yīng)用環(huán)境。
這樣一來(lái),具身智能既能在已知多模態(tài)任務(wù)上越做越好,也能快速適應(yīng)未知的多模態(tài)任務(wù)。
第二,人們還期望具身智能具有真正的創(chuàng)造性,希望它通過(guò)對(duì)環(huán)境的自主探索,能夠發(fā)現(xiàn)新的策略和解決方案,并探索AI的能力邊界。
但是二者的適配,并不是簡(jiǎn)簡(jiǎn)單單把多模態(tài)大模型鏈接個(gè)身體,或直接給具身智能裝個(gè)腦子那么簡(jiǎn)單。
就拿多模態(tài)大模型來(lái)說(shuō),至少有兩個(gè)明顯的問(wèn)題擺在面前。
一是模型的迭代更新周期長(zhǎng),需要大量的人力投入;
二是模型的訓(xùn)練數(shù)據(jù)都源自已有的數(shù)據(jù),模型不能持續(xù)獲得大量的新知識(shí)。雖然通過(guò)RAG和擴(kuò)長(zhǎng)上下文窗口也可以注入持續(xù)出現(xiàn)的新知識(shí),模型記不住,補(bǔ)救方式還會(huì)帶來(lái)額外的問(wèn)題。
總之,目前的多模態(tài)大模型在實(shí)際應(yīng)用場(chǎng)景中不具備很強(qiáng)的適應(yīng)性,更不具備創(chuàng)造性,導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。
妙啊——還記得我們前面提到,Awaker 1.0不僅可以學(xué)新知識(shí),還能記住新知識(shí),并且這種學(xué)習(xí)是每天的、持續(xù)的、及時(shí)的。
從這張框架圖可以看出,Awaker 1.0能夠與各種智能設(shè)備結(jié)合,通過(guò)智能設(shè)備觀察世界,產(chǎn)生動(dòng)作意圖,并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。
在完成各種動(dòng)作后,智能設(shè)備會(huì)自動(dòng)產(chǎn)生各種反饋,Awaker 1.0能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新,不斷強(qiáng)化模型的各種能力。
這就相當(dāng)于具身智能擁有一個(gè)活的大腦了。
誰(shuí)看了不說(shuō)一句how pay(狗頭)~
尤其重要的是,因?yàn)榫邆渥灾鞲履芰Γ?strong>Awaker 1.0不單單是可以和具身智能適配,它還適用于更廣泛的行業(yè)場(chǎng)景,能夠解決更復(fù)雜的實(shí)際任務(wù)。
例如,Awaker 1.0與各種智能設(shè)備結(jié)合,從而實(shí)現(xiàn)云邊協(xié)同。
這時(shí)候,Awaker 1.0就是部署在云端的“大腦”,觀察、指揮,控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。
而邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋,又會(huì)源源不斷地傳回給Awaker 1.0,讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù),不斷進(jìn)行自我更新。
這可不是紙上談兵,Awaker 1.0與智能設(shè)備的云邊協(xié)同的技術(shù)路線,已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場(chǎng)景中,并取得了遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果。
多模態(tài)大模型能聽(tīng)、能看、能說(shuō),在語(yǔ)音識(shí)別、圖像處理、自然語(yǔ)言理解等多個(gè)領(lǐng)域展現(xiàn)出了巨大的潛力和應(yīng)用價(jià)值,幾乎無(wú)所不能。
但它的煩惱很明顯,如何不斷吸收新知識(shí)、適應(yīng)新變化?
可以說(shuō),修煉內(nèi)功、提升武藝成為了多模態(tài)大模型面臨的一個(gè)重要課題。
智子引擎Awaker 1.0的問(wèn)世,為多模態(tài)大模型的自我超越提供了一把鑰匙。
它好像會(huì)了那個(gè)吸星大法,通過(guò)自主更新機(jī)制,打破了數(shù)據(jù)短缺的瓶頸,為多模態(tài)大模型的持續(xù)學(xué)習(xí)和自我進(jìn)化提供了可能;再就是利用云邊協(xié)同技術(shù),勇闖在具身智能等智能體設(shè)備的具體應(yīng)用場(chǎng)景。
這或許是邁向AGI的一小步,但同時(shí)也是多模態(tài)大模型自我超越之旅的一個(gè)開(kāi)始。
漫長(zhǎng)而艱難的旅程,需要智子引擎這樣的團(tuán)隊(duì),向技術(shù)的高峰不斷攀登。
本文鏈接:http://m.morphism.cn/news414.html超級(jí)智能體生命力覺(jué)醒 可自我更新的AI來(lái)了