行至2024,云端大模型還未分出勝負(fù),端側(cè)模型早已硝煙四起。
去年上半年,谷歌以可在移動(dòng)設(shè)備上離線(xiàn)運(yùn)行的PaLM2輕量級(jí)選手“壁虎”打響了端側(cè)模型第一槍?zhuān)搅四甑,端?cè)模型時(shí)代的大幕就被緩緩拉起。
法國(guó)創(chuàng)企Mistral AI率先發(fā)布Mixtral 8x7B模型,微軟更是半年時(shí)間加速跑,從27億參數(shù)的Phi-2到SLM(小語(yǔ)言模型)Phi-3系列,以“便宜得多,但響應(yīng)能力接近比它大10倍的模型”強(qiáng)調(diào)高性?xún)r(jià)比。
Google攜帶Gemma模型向Meta的Llama-2大模型發(fā)起挑戰(zhàn),蘋(píng)果也以“小模型”家族宣告離“讓人工智能在蘋(píng)果設(shè)備上本地運(yùn)行”目標(biāo)更近一步。
而大洋彼岸的另一側(cè),在中國(guó)上海張江,也有這么一家通用大模型廠(chǎng)商,駛上了端側(cè)模型的快車(chē)道,以類(lèi)腦分區(qū)激活的工作機(jī)制、改進(jìn)反向傳播算法逐步實(shí)現(xiàn)“同步學(xué)習(xí)”,并在走通多模態(tài)上率先“卷”入。
這,就是巖芯數(shù)智CEO劉凡平帶隊(duì)的RockAI。
Yan 1.2跑通樹(shù)莓派,“為設(shè)備而生”水到渠成
事實(shí)上,今年1月,RockAI發(fā)布的國(guó)內(nèi)首個(gè)非Attention機(jī)制的通用自然語(yǔ)言大模型——Yan1.0模型,就標(biāo)志走向設(shè)備端的第一步。
當(dāng)時(shí)這一模型100%支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費(fèi)級(jí)CPU等端側(cè)設(shè)備上無(wú)損運(yùn)行,在研究人員現(xiàn)場(chǎng)對(duì)Yan 1.0模型在Mac筆記本上的運(yùn)行推理展示中,劉凡平也畫(huà)出了接下來(lái)將在更加便攜的設(shè)備或終端中進(jìn)行無(wú)損部署的藍(lán)圖。
而現(xiàn)在,隨著Yan 1.0邁入1.2階段,“在樹(shù)莓派上率先跑通”把其在更低端設(shè)備的無(wú)損適配從預(yù)期變?yōu)榱爽F(xiàn)實(shí)。
圖為Yan架構(gòu)模型在樹(shù)莓派上運(yùn)行
樹(shù)莓派系列作為全球最為知名的袖珍型小巧卻又性能強(qiáng)大的微型電腦,可廣泛應(yīng)用于物聯(lián)網(wǎng)、工業(yè)自動(dòng)化、智慧農(nóng)業(yè)、新能源、智能家居等場(chǎng)景及設(shè)備,譬如門(mén)禁、機(jī)器人等終端,但它雖具備所有PC的基本功能,卻是算力最低的設(shè)備代表。
同時(shí),樹(shù)莓派大部分情況沒(méi)有聯(lián)網(wǎng),這就意味著,跑通樹(shù)莓派,等同于打開(kāi)了低算力設(shè)備端的大門(mén)以及不聯(lián)網(wǎng)的多場(chǎng)景應(yīng)用。
不過(guò),機(jī)遇之大,挑戰(zhàn)亦不小,不少大模型玩家都屈身于“有損壓縮”。
就連4月網(wǎng)友發(fā)現(xiàn)能在樹(shù)莓派5以每秒1.89個(gè)token的速度運(yùn)行,支持8K上下文窗口的Llama3 8B ,也是采用把模型量化裁剪后壓到極致的方式。
而這就如同把平鋪的紙揉小后放入,會(huì)導(dǎo)致紙張有褶皺般,讓多模態(tài)下的性能損失無(wú)法恢復(fù)到原有狀態(tài)去進(jìn)行模型訓(xùn)練,同時(shí)也伴隨著卡住不動(dòng)、死機(jī)等不確定情況發(fā)生。
此時(shí),原生無(wú)損放入的重要性就凸顯,而這正是RockAI基于底層技術(shù)做“破壞式”創(chuàng)新的優(yōu)勢(shì)所在。
不同于傳統(tǒng)Transformer模型自帶算力消耗和幻覺(jué)等問(wèn)題,Yan架構(gòu)為低算力設(shè)備運(yùn)行而生,1.0版就以百億級(jí)參數(shù)媲美千億參數(shù)大模型的性能效果,以記憶能力提升3倍、訓(xùn)練效率提升7倍的同時(shí),實(shí)現(xiàn)推理吞吐量的5倍提升,實(shí)現(xiàn)云端運(yùn)行的高性?xún)r(jià)比。
圖為Yan架構(gòu)模型的關(guān)鍵模塊MCSD Block,引自Yan架構(gòu)論文: 《MCSD: An Efficient Language Model with Diverse Fusion》
對(duì)比數(shù)據(jù)表明,在單張4090 24G顯卡上,當(dāng)模型輸出token的長(zhǎng)度超出2600時(shí),Transformer的模型會(huì)出現(xiàn)顯存不足,而Yan模型的顯存使用始終穩(wěn)定在14G左右,理論上能夠?qū)崿F(xiàn)無(wú)限長(zhǎng)度的推理。
再到讓通用大模型去兼容更多的設(shè)備,實(shí)現(xiàn)更多個(gè)性化的設(shè)備端應(yīng)用,則讓RockAI在同模型架構(gòu)下,可水到渠成地“為設(shè)備而生”。
那么,對(duì)于樹(shù)莓派這一門(mén)檻,RockAI是如何破局的呢?答案就在技術(shù)創(chuàng)新上。
自創(chuàng)業(yè)之初,劉凡平就一直在思考“大模型動(dòng)輒上萬(wàn)億的token訓(xùn)練是否真的必要”,以人類(lèi)大腦幾十億的訓(xùn)練量來(lái)看,他判斷,數(shù)據(jù)、算力并不是最終的瓶頸,架構(gòu)、算法才是重要的影響因素。
故而在跑通樹(shù)莓派的路上,基于全新自研的Yan架構(gòu),RockAI在實(shí)驗(yàn)室對(duì)人工神經(jīng)網(wǎng)絡(luò)最底層的反向傳播算法進(jìn)行挑戰(zhàn),尋找反向傳播的更優(yōu)解嘗試。
而在算法側(cè),RockAI更是在上半年率先有所突破,在人腦神經(jīng)元分區(qū)激活的啟發(fā)下,實(shí)現(xiàn)了類(lèi)腦分區(qū)激活的工作機(jī)制。
如同人開(kāi)車(chē)跟寫(xiě)字會(huì)分別激活腦部的視覺(jué)區(qū)域和閱讀區(qū)域一般,Yan 1.2也不再需要全量的參數(shù)去訓(xùn)練,會(huì)根據(jù)學(xué)習(xí)的類(lèi)型和知識(shí)的范圍來(lái)決定只調(diào)整哪部分神經(jīng)元,而這種分區(qū)的激活方式不僅可以減少數(shù)據(jù)訓(xùn)練量,同時(shí)也能有效發(fā)揮多模態(tài)的潛力,該算法被RockAI稱(chēng)作基于仿生神經(jīng)元驅(qū)動(dòng)的選擇算法。
數(shù)據(jù)表明,人腦的神經(jīng)元大概是800-1000億,功耗大概是20-30瓦,而一臺(tái)GPU算力服務(wù)器功耗能到2000瓦,這就意味著主流大模型的全參數(shù)激活,本身就是不必要的大功耗浪費(fèi)。
在今年3月類(lèi)腦分區(qū)激活的工作機(jī)制實(shí)現(xiàn)后,甚至10億級(jí)參數(shù)的Yan模型通過(guò)改進(jìn)在0壓縮和0裁剪的情況下在一臺(tái)7年前生產(chǎn)的Mac筆記本的CPU上跑通。
2個(gè)月后,“原生無(wú)損”跑通樹(shù)莓派的故事便在RockAI如期而至。
劍指“同步學(xué)習(xí)”,Yan模型也能千人千面
跑通樹(shù)莓派,是RockAI走通低端設(shè)備上的里程碑,同時(shí)也預(yù)示著距離其“同步學(xué)習(xí)”概念落地更近了一步。
眾所周知,Transformer大模型帶來(lái)一種開(kāi)發(fā)范式——先通過(guò)預(yù)訓(xùn)練讓大模型具備一定的基本能力,然后在下游任務(wù)中通過(guò)微調(diào)對(duì)齊,激發(fā)模型舉一反三的能力。
但這樣的云端大模型雖好,在實(shí)踐中卻有著不能實(shí)時(shí)改進(jìn)和學(xué)習(xí)的問(wèn)題。
Transformer架構(gòu)在大參數(shù)大數(shù)據(jù)的情況下,想在預(yù)訓(xùn)練完成之后再大規(guī)模的反向更新代價(jià)極其大的,尤其對(duì)算力要求非常高,更別提返到原廠(chǎng)去重新訓(xùn)練的時(shí)間和經(jīng)濟(jì)成本。
也就導(dǎo)致在嚴(yán)謹(jǐn)內(nèi)容場(chǎng)景下,一旦有內(nèi)容和評(píng)價(jià)發(fā)生較大轉(zhuǎn)變,Transformer大模型學(xué)徒們往往要1-2個(gè)月去把數(shù)據(jù)清掉后,再重新訓(xùn)練后進(jìn)行提交,客戶(hù)一般很難接受。
這些toB實(shí)踐中的真實(shí)反饋,讓劉凡平意識(shí)到客戶(hù)對(duì)模型立即更新的需求,這要求模型不僅具備實(shí)時(shí)學(xué)習(xí)的能力,同時(shí)學(xué)習(xí)之后不能胡說(shuō)八道。
懷揣著“機(jī)器能否具有像人一樣實(shí)時(shí)學(xué)習(xí)的能力”的思考,以及跟著客戶(hù)真實(shí)需求走的大方向指引,同步學(xué)習(xí)這一解法,在RockAI逐步清晰。
相比較泛機(jī)器學(xué)習(xí)領(lǐng)域的實(shí)時(shí)學(xué)習(xí)和在線(xiàn)學(xué)習(xí)、增量學(xué)習(xí)等概念,劉凡平認(rèn)為RockAI首創(chuàng)的同步學(xué)習(xí)概念差異性在于,做知識(shí)更新和學(xué)習(xí)時(shí)在模型層面訓(xùn)練和推理同步進(jìn)行,以期實(shí)時(shí)、有效且持續(xù)性地提升大模型的智能智力,應(yīng)對(duì)各類(lèi)個(gè)性化場(chǎng)景中出現(xiàn)的問(wèn)題。
而要理解快速更新的問(wèn)題,涉及到現(xiàn)在神經(jīng)網(wǎng)絡(luò)的底層原理,本質(zhì)上神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是前向傳播和反向傳播的過(guò)程。
就如同你正在玩一個(gè)猜數(shù)字游戲,你需要猜出一個(gè)1到100之間的隨機(jī)數(shù)。在開(kāi)始時(shí),你沒(méi)有關(guān)于這個(gè)數(shù)字的任何信息,所以你的第一次猜測(cè)可能是基于直覺(jué)或是隨便選了一個(gè)數(shù),比如50。這就好比是神經(jīng)網(wǎng)絡(luò)中的前向傳播——在沒(méi)有任何歷史數(shù)據(jù)的情況下,根據(jù)當(dāng)前的參數(shù)(權(quán)重和偏置)進(jìn)行一次預(yù)測(cè)。
當(dāng)你猜測(cè)了50后,游戲會(huì)告訴你這個(gè)數(shù)字“太大”或“太小”。如果你聽(tīng)到“太大”,那么下一次猜測(cè)時(shí),你會(huì)選擇小于50的一個(gè)數(shù);如果得到反饋是“太小”,你則會(huì)選擇一個(gè)大于50的數(shù)。
這就類(lèi)似于反向傳播對(duì)參數(shù)的調(diào)節(jié)過(guò)程。只要模型調(diào)整足夠快、代價(jià)足夠小,就能更快達(dá)到預(yù)期,實(shí)現(xiàn)從感知到認(rèn)知再到?jīng)Q策這一循環(huán)的加速,對(duì)現(xiàn)有知識(shí)體系進(jìn)行快速更新。
為此,RockAI給出的同步學(xué)習(xí)解法落在,不斷嘗試尋找反向傳播的更優(yōu)解,試圖能更低代價(jià)更新神經(jīng)網(wǎng)絡(luò),同時(shí)以模型分區(qū)激活降低功耗和實(shí)現(xiàn)部分更新,從而使得大模型可以給到客戶(hù)后持續(xù)成長(zhǎng),像人類(lèi)學(xué)習(xí)一樣建立自己獨(dú)有的知識(shí)體系。
在劉凡平的設(shè)想中,通過(guò)同步學(xué)習(xí),Yan模型部署到各類(lèi)設(shè)備后,會(huì)更像貼身伴侶,伴隨著個(gè)人的習(xí)慣去進(jìn)行學(xué)習(xí)和服務(wù),越來(lái)越具備個(gè)性化的價(jià)值,讓手機(jī)、電腦,甚至電視、音響等智能家居都能個(gè)性化適配到每個(gè)人,最終形成可交互的多樣性智能生態(tài)。
如此說(shuō)來(lái),那就是每個(gè)人在設(shè)備上都會(huì)找到自己的Jarvis(鋼鐵俠的AI管家)。
奔赴2.0,RockAI蓄力C端商業(yè)化
把時(shí)間線(xiàn)拉長(zhǎng)到近半年來(lái)看,RockAI的迭代呈現(xiàn)加速度。
3月,類(lèi)腦分區(qū)激活的工作機(jī)制實(shí)現(xiàn);5月初,“無(wú)損”跑通樹(shù)莓派;5月底,全模態(tài)部分視覺(jué)支持走通。
雖然同步學(xué)習(xí)仍在實(shí)驗(yàn)室最后驗(yàn)證階段,仍需要大規(guī)模測(cè)試,但劉凡平表示,隨著把多模態(tài)的視覺(jué)、觸覺(jué)和聽(tīng)覺(jué)能力補(bǔ)齊,Yan 2.0也最快于今年年底面世。
“屆時(shí),全模態(tài)支持+實(shí)時(shí)人機(jī)交互+同步學(xué)習(xí)的落地,Yan 2.0的出現(xiàn)或?qū)⒀a(bǔ)齊具身智能的大腦短板!
技術(shù)端的加速,背后是團(tuán)隊(duì)“吃苦”換來(lái)的。劉凡平坦言,干的都是其他廠(chǎng)商“不愿干”,也可能“干不了”的活。
算法端,RockAI兵分兩路,一部分去做基礎(chǔ)算法和模型架構(gòu)的創(chuàng)新升級(jí),在1.2基礎(chǔ)上朝著2.0進(jìn)發(fā);另一部分則廣泛收集客戶(hù)反饋,通過(guò)不斷調(diào)整去貼近商業(yè)化落地。
劉凡平認(rèn)為只有最大程度獲取來(lái)自于外界和客戶(hù)的感知和需求,才能避免閉門(mén)造車(chē)與用戶(hù)的距離太遠(yuǎn),逐漸形成明確和清晰的商業(yè)化路線(xiàn)。
而算法創(chuàng)新外,要實(shí)現(xiàn)Yan 2.0落地即商業(yè)化的未來(lái),工程團(tuán)隊(duì)也在做大量的標(biāo)準(zhǔn)化的“周邊”補(bǔ)齊,包括基礎(chǔ)設(shè)施、系統(tǒng)、交付等方方面面,解決方案團(tuán)隊(duì)更是從率先商業(yè)化的B端客戶(hù)“掃”到設(shè)備廠(chǎng)商,邊進(jìn)化邊驗(yàn)證降本增效和市場(chǎng)認(rèn)可度。
劉凡平也帶著團(tuán)隊(duì)奔走于上海、深圳、杭州等地,與中科曙光(603019)、華為昇騰、壁仞科技、廣電五舟等眾多硬件和芯片廠(chǎng)商建立了溝通,在端側(cè)模型的適配工作上,劉凡平能感受到設(shè)備端“積極提供測(cè)試機(jī)”的熱情,特別是樹(shù)莓派跑通后給到了話(huà)語(yǔ)權(quán),機(jī)器人廠(chǎng)商們都開(kāi)始競(jìng)相走訪(fǎng)。
而這些前置工作,都為接下來(lái)Yan2.0落地合適場(chǎng)景可能試產(chǎn)1-2萬(wàn)臺(tái)的標(biāo)品規(guī)模化做足“迅速跟上”的周期準(zhǔn)備。
就端側(cè)模型來(lái)說(shuō),劉凡平認(rèn)為對(duì)于設(shè)備廠(chǎng)商而言,是類(lèi)似Windows操作系統(tǒng)般的存在。現(xiàn)階段可能是系統(tǒng)在適配各種硬件,到了設(shè)備廠(chǎng)商深入了解模型的人工智能能力后,就需要設(shè)備反向兼容操作系統(tǒng),而兩者合力,是社會(huì)分工生產(chǎn)力變化的一個(gè)必然趨勢(shì)。
“站在toC智能化甚至具身智能的大話(huà)題下,端側(cè)模型需要結(jié)合實(shí)際載體(即硬件)去做適配研究和迭代改進(jìn),才能逐步形成標(biāo)準(zhǔn)化的類(lèi)Windows操作系統(tǒng),既可以裝在個(gè)人電腦也可以適配穿戴設(shè)備,而不同的身體就會(huì)需要不同的腦子,我們所構(gòu)想的通用人工智能,是在諸如智能手機(jī)、機(jī)器人以及其他多樣化設(shè)備上展現(xiàn)出的非凡適應(yīng)力與高度個(gè)性化的交互能力!
作為一家從B端商業(yè)化驗(yàn)證過(guò)“!绷Φ钠髽I(yè),劉凡平坦言,當(dāng)前商業(yè)化重心部署到C端設(shè)備,是低算力的基因使然,亦是AI與本地設(shè)備結(jié)合的個(gè)性化趨勢(shì)必然,也是跳出B端商業(yè)化內(nèi)卷,搶占C端藍(lán)海市場(chǎng)的先機(jī)。
在RockAI的辦公室內(nèi),擺滿(mǎn)了眾多的各類(lèi)硬件設(shè)備,劉凡平笑道,還有大量的適配和兼容工作需要完成,而一旁來(lái)自深圳各個(gè)廠(chǎng)商的機(jī)器人也在等待適配他們的“大腦”。
從Yan 1.0到Y(jié)an 1.2,RockAI花了4個(gè)月時(shí)間,再到2.0,想必也不會(huì)太久。
(免責(zé)聲明:此文內(nèi)容為本網(wǎng)站刊發(fā)或轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀(guān)點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。)
最新評(píng)論