近 AI 圈里又鬧出一個大新聞,《 斯坦福團隊抄襲中國 AI ! 》
估計剛看到這個標題,很多人跟世超一樣都蒙了。???是不是看花眼了?
哪個斯坦福?確定沒搞反?
您猜怎么著,這還真就是 QS 排名前五的那個美國斯坦福。
別說國內(nèi)網(wǎng)友,業(yè)內(nèi)大佬也繃不住,直呼時代變了。
確切的說,應(yīng)該是斯坦福的一個本科生團隊,抄了清華博士創(chuàng)業(yè)公司的產(chǎn)品,也就是面壁智能的開源模型:MiniCPM-Llama3-V 2.5 小鋼炮。
事兒要從 5 月 29 號說起。
這天有兩個斯坦福的印度年輕人,一個還跟佛祖( Siddharth 悉達多 )同名,在在世界上大 ai 開源社區(qū)—— HuggingFace 上發(fā)布了他們的大模型 Llama-3-V 。
看著他們光鮮亮麗的實習簡歷,又是特斯拉又是 SpaceX 的,很快,網(wǎng)友們就把這個號稱 “500 刀就能練成比肩 GPT-4V 、 Gemini Ultra” 的后起之秀,頂上了 HuggingFace 首頁,推文瀏覽量也超過 30 萬。
剛開始可能還有人覺著:我大美利堅江山代有才人出啊,你看看,本科生就能做出比肩大廠的成績,什么叫世界一流啊~
很快,一些眼尖的業(yè)內(nèi)人士發(fā)現(xiàn)不對勁了,你這玩意怎么看著跟 21 號那個 MiniCPM 小鋼炮差不多,不會是抄的吧,咋不標注來源?
之所以人家一眼丁真鑒定為抄,主要是它宣稱的體積小、性能強、多模態(tài)的特點,很難不讓人把它和清華的 MiniCPM 對比。
但他又申明自己是原創(chuàng)的,沒引用人家 MiniCPM 。
不過面對別人的指責,這大學生團隊還嘴硬,說 MiniCPM 是引用了 LLaVA-UHD 的,我們也引的這個,讀書人的事,那能叫抄嗎?真是裝糊涂的天才。
問題是 MiniCPM 和 LLaVA-UHD 原來的樣子早就不一樣了,而你這個 Llama3-V 的長相跟 LLaVA-UHD 不能說一模一樣,至少是毫不相關(guān),但是跟人家小鋼炮就像一個媽生的。
等放一塊兒仔細一瞅,好家伙,模型結(jié)構(gòu)跟人家像也就算了,配置文件怎么都一模一樣。
再一看代碼,除了加點格式化,改了幾個變量名,別的都毫無區(qū)別,甚至人家清華專門定義的特殊符號,你這代碼里都沒變過。
更搞笑的是,有網(wǎng)友發(fā)現(xiàn)運行 Llama3-V 時,用斯坦福團隊提供的權(quán)重文件(神經(jīng)網(wǎng)絡(luò)微調(diào)用的參數(shù) )是跑不起來的,但如果把其中的變量名改為 MiniCPM-Llama3-V 2.5 的,就會絲滑啟動。
都錘成這樣了,印度老哥還是始終咬死不認。
很快,收到消息的面壁智能官方也下場開錘,表示 Llama3-V 項目的作者并不完全理解 MiniCPM-Llama3-V 2.5 的架構(gòu),甚至也不理解他們自己的代碼。
換句話說,還挺陰陽的, “ 你抄都沒抄明白啊。 ”
除此之外,面壁團隊還甩出一個雷神之錘的證據(jù), Llama3-V 居然可以識別清華簡!
清華簡是清華校友捐贈的重要文物,這些埋藏于戰(zhàn)國時代的竹簡躲過了秦始皇焚書,保存著包括古本《尚書》、先秦史料、醫(yī)方哲學等極其珍貴的原始檔案,簡單來說就是上古版《永樂大典》。
清華簡識別其實是 MiniCPM-Llama3-V 2.5 研發(fā)時內(nèi)置的彩蛋,所有訓練識別的數(shù)據(jù),都是面壁智能和清華大學合作,一個字一個字掃描標注的,從未公開。這些完全私有的數(shù)據(jù)斯坦福團隊不可能拿到,但是兩個模型卻都能實現(xiàn)識別,甚至犯錯的地方都一模一樣。
到這,可以說他們抄襲是百分百,板上釘釘?shù)氖铝?。鼓破萬人捶,面對全世界網(wǎng)友的唾沫星子,這倆印度哥們怎么做的呢?
答,刪庫跑路!
他們馬上刪掉了 HuggingFace 上的 Llama3-V 模型,并表示: “ 非常感謝那些在評論中指出與之前研究相似之處的人。我們意識到我們的架構(gòu)非常類似于 OpenBMB 的 MiniCPM-Llama3-V 2.5 ,他們在實現(xiàn)上比我們搶先一步。我們已經(jīng)刪除了關(guān)于作者的原始模型。 ”
不是,過分了啊,還要點臉不?
然后他們又光速滑跪道歉甩鍋三連,說我們哥倆只是宣傳推廣的,代碼都是外包給另一個南加州大學老哥干的,冤枉?。?span style="display:none">2IW壹木網(wǎng)-日常常見問題解答
但事已經(jīng)鬧大了,丟面兒的斯坦福大學官方也急忙下場,他們的人工智能實驗室主任,谷歌 Deepmind 的研究員 Christopher David Manning 直接發(fā)文開噴, “ 典型的不承認自己錯誤! ”
并對 MiniCPM 這一中國開源模型表示贊揚。
而被抄的面壁智能聯(lián)合創(chuàng)始人劉知遠,則對他們喊話:“團隊三人中的兩位也只是斯坦福大學本科生,未來還有很長的路,如果知錯能改,善莫大焉。”
面壁 CEO 李大海也詼諧回應(yīng)道: “ 我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境。 ”
“ 我們希望團隊的好工作被更多人關(guān)注與認可,但不是以這種方式。 ”
話雖這么說,但這次的事確實也讓大家注意到,國產(chǎn) AI 好像也不是刻板印象中那樣了。
連開頭的大佬, Hugging Face 的負責人 Omar Sanseviero 也表示,
“ 社區(qū)一直忽視了中國機器學習生態(tài)系統(tǒng)的工作。他們正在用有趣的大語言模型、視覺大模型、音頻和擴散模型做一些令人驚奇的事情。 ”
并提到鵝廠混元大模型,和近爆火的 ChatTTS
拿這次的主角面壁智能來說,雖然各大廠商( 上個月谷歌安卓 15 ,過幾天蘋果 iOS18 )都在布局移動端大模型,但經(jīng)過此次事件,大家發(fā)現(xiàn)這家中國公司,在這個賽道上也十分出色。
MiniCPM 不但體量小,只用 2.4B 的數(shù)據(jù)規(guī)模就能達到數(shù)倍于它的模型能力,不僅支持安卓系統(tǒng),還支持鴻蒙,推理做題都毫不遜色。
視覺識別能力也相當不錯,特別是中文圖像場景下,表現(xiàn)比 ChatGPT-4V 更好。
除此之外,面壁官方還在今天中午官宣,「小鋼炮」MiniCPM 決定免費公開!對學術(shù)研究完全開放,企業(yè)和個人只需填寫問卷登記后就允許商用。
什么叫格局啊~( 戰(zhàn)術(shù)后仰 )
世超覺得,網(wǎng)友們確實也應(yīng)該改變一些成見。許多人以前都認為,國產(chǎn) AI 都是套殼 ChatGPT , 這不行那不行,感謝 XXX 開源。
然而就像劉知遠說的,盡管面對國際領(lǐng)先模型仍有差距,但中國大模型已經(jīng)從以前的 nobody ,成長為了 AI 領(lǐng)取的關(guān)鍵推動者之一。
至于這兩個年輕人,希望你們耗子尾汁,不要再耍這樣的小聰明。
本文鏈接:http://m.morphism.cn/news4369.html斯坦福抄襲清華 世界一流大學實錘了