行至2024,云端大模型還未分出勝負(fù),端側(cè)模型早已硝煙四起。
去年上半年,谷歌以可在移動設(shè)備上離線運(yùn)行的PaLM2輕量級選手“壁虎”打響了端側(cè)模型第一槍,到了年底,端側(cè)模型時代的大幕就被緩緩拉起。
法國創(chuàng)企Mistral AI率先發(fā)布Mixtral 8x7B模型,微軟更是半年時間加速跑,從27億參數(shù)的Phi-2到SLM(小語言模型)Phi-3系列,以“便宜得多,但響應(yīng)能力接近比它大10倍的模型”強(qiáng)調(diào)高性價比。
Google攜帶Gemma模型向Meta的Llama-2大模型發(fā)起挑戰(zhàn),蘋果也以“小模型”家族宣告離“讓人工智能在蘋果設(shè)備上本地運(yùn)行”目標(biāo)更近一步。
而大洋彼岸的另一側(cè),在中國上海張江,也有這么一家通用大模型廠商,駛上了端側(cè)模型的快車道,以類腦分區(qū)激活的工作機(jī)制、改進(jìn)反向傳播算法逐步實現(xiàn)“同步學(xué)習(xí)”,并在走通多模態(tài)上率先“卷”入。
這,就是巖芯數(shù)智CEO劉凡平帶隊的RockAI。
Yan 1.2跑通樹莓派,“為設(shè)備而生”水到渠成
事實上,今年1月,RockAI發(fā)布的國內(nèi)首個非Attention機(jī)制的通用自然語言大模型——Yan1.0模型,就標(biāo)志走向設(shè)備端的第一步。
當(dāng)時這一模型100%支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費(fèi)級CPU等端側(cè)設(shè)備上無損運(yùn)行,在研究人員現(xiàn)場對Yan 1.0模型在Mac筆記本上的運(yùn)行推理展示中,劉凡平也畫出了接下來將在更加便攜的設(shè)備或終端中進(jìn)行無損部署的藍(lán)圖。
而現(xiàn)在,隨著Yan 1.0邁入1.2階段,“在樹莓派上率先跑通”把其在更低端設(shè)備的無損適配從預(yù)期變?yōu)榱爽F(xiàn)實。
圖為Yan架構(gòu)模型在樹莓派上運(yùn)行
樹莓派系列作為全球最為知名的袖珍型小巧卻又性能強(qiáng)大的微型電腦,可廣泛應(yīng)用于物聯(lián)網(wǎng)、工業(yè)自動化、智慧農(nóng)業(yè)、新能源、智能家居等場景及設(shè)備,譬如門禁、機(jī)器人等終端,但它雖具備所有PC的基本功能,卻是算力最低的設(shè)備代表。
同時,樹莓派大部分情況沒有聯(lián)網(wǎng),這就意味著,跑通樹莓派,等同于打開了低算力設(shè)備端的大門以及不聯(lián)網(wǎng)的多場景應(yīng)用。
不過,機(jī)遇之大,挑戰(zhàn)亦不小,不少大模型玩家都屈身于“有損壓縮”。
就連4月網(wǎng)友發(fā)現(xiàn)能在樹莓派5以每秒1.89個token的速度運(yùn)行,支持8K上下文窗口的Llama3 8B ,也是采用把模型量化裁剪后壓到極致的方式。
而這就如同把平鋪的紙揉小后放入,會導(dǎo)致紙張有褶皺般,讓多模態(tài)下的性能損失無法恢復(fù)到原有狀態(tài)去進(jìn)行模型訓(xùn)練,同時也伴隨著卡住不動、死機(jī)等不確定情況發(fā)生。
此時,原生無損放入的重要性就凸顯,而這正是RockAI基于底層技術(shù)做“破壞式”創(chuàng)新的優(yōu)勢所在。
不同于傳統(tǒng)Transformer模型自帶算力消耗和幻覺等問題,Yan架構(gòu)為低算力設(shè)備運(yùn)行而生,1.0版就以百億級參數(shù)媲美千億參數(shù)大模型的性能效果,以記憶能力提升3倍、訓(xùn)練效率提升7倍的同時,實現(xiàn)推理吞吐量的5倍提升,實現(xiàn)云端運(yùn)行的高性價比。
圖為Yan架構(gòu)模型的關(guān)鍵模塊MCSD Block,引自Yan架構(gòu)論文: 《MCSD: An Efficient Language Model with Diverse Fusion》
對比數(shù)據(jù)表明,在單張4090 24G顯卡上,當(dāng)模型輸出token的長度超出2600時,Transformer的模型會出現(xiàn)顯存不足,而Yan模型的顯存使用始終穩(wěn)定在14G左右,理論上能夠?qū)崿F(xiàn)無限長度的推理。
再到讓通用大模型去兼容更多的設(shè)備,實現(xiàn)更多個性化的設(shè)備端應(yīng)用,則讓RockAI在同模型架構(gòu)下,可水到渠成地“為設(shè)備而生”。
那么,對于樹莓派這一門檻,RockAI是如何破局的呢?答案就在技術(shù)創(chuàng)新上。
自創(chuàng)業(yè)之初,劉凡平就一直在思考“大模型動輒上萬億的token訓(xùn)練是否真的必要”,以人類大腦幾十億的訓(xùn)練量來看,他判斷,數(shù)據(jù)、算力并不是最終的瓶頸,架構(gòu)、算法才是重要的影響因素。
故而在跑通樹莓派的路上,基于全新自研的Yan架構(gòu),RockAI在實驗室對人工神經(jīng)網(wǎng)絡(luò)最底層的反向傳播算法進(jìn)行挑戰(zhàn),尋找反向傳播的更優(yōu)解嘗試。
而在算法側(cè),RockAI更是在上半年率先有所突破,在人腦神經(jīng)元分區(qū)激活的啟發(fā)下,實現(xiàn)了類腦分區(qū)激活的工作機(jī)制。
如同人開車跟寫字會分別激活腦部的視覺區(qū)域和閱讀區(qū)域一般,Yan 1.2也不再需要全量的參數(shù)去訓(xùn)練,會根據(jù)學(xué)習(xí)的類型和知識的范圍來決定只調(diào)整哪部分神經(jīng)元,而這種分區(qū)的激活方式不僅可以減少數(shù)據(jù)訓(xùn)練量,同時也能有效發(fā)揮多模態(tài)的潛力,該算法被RockAI稱作基于仿生神經(jīng)元驅(qū)動的選擇算法。
數(shù)據(jù)表明,人腦的神經(jīng)元大概是800-1000億,功耗大概是20-30瓦,而一臺GPU算力服務(wù)器功耗能到2000瓦,這就意味著主流大模型的全參數(shù)激活,本身就是不必要的大功耗浪費(fèi)。
在今年3月類腦分區(qū)激活的工作機(jī)制實現(xiàn)后,甚至10億級參數(shù)的Yan模型通過改進(jìn)在0壓縮和0裁剪的情況下在一臺7年前生產(chǎn)的Mac筆記本的CPU上跑通。
2個月后,“原生無損”跑通樹莓派的故事便在RockAI如期而至。
劍指“同步學(xué)習(xí)”,Yan模型也能千人千面
跑通樹莓派,是RockAI走通低端設(shè)備上的里程碑,同時也預(yù)示著距離其“同步學(xué)習(xí)”概念落地更近了一步。
眾所周知,Transformer大模型帶來一種開發(fā)范式——先通過預(yù)訓(xùn)練讓大模型具備一定的基本能力,然后在下游任務(wù)中通過微調(diào)對齊,激發(fā)模型舉一反三的能力。
但這樣的云端大模型雖好,在實踐中卻有著不能實時改進(jìn)和學(xué)習(xí)的問題。
Transformer架構(gòu)在大參數(shù)大數(shù)據(jù)的情況下,想在預(yù)訓(xùn)練完成之后再大規(guī)模的反向更新代價極其大的,尤其對算力要求非常高,更別提返到原廠去重新訓(xùn)練的時間和經(jīng)濟(jì)成本。
也就導(dǎo)致在嚴(yán)謹(jǐn)內(nèi)容場景下,一旦有內(nèi)容和評價發(fā)生較大轉(zhuǎn)變,Transformer大模型學(xué)徒們往往要1-2個月去把數(shù)據(jù)清掉后,再重新訓(xùn)練后進(jìn)行提交,客戶一般很難接受。
這些toB實踐中的真實反饋,讓劉凡平意識到客戶對模型立即更新的需求,這要求模型不僅具備實時學(xué)習(xí)的能力,同時學(xué)習(xí)之后不能胡說八道。
懷揣著“機(jī)器能否具有像人一樣實時學(xué)習(xí)的能力”的思考,以及跟著客戶真實需求走的大方向指引,同步學(xué)習(xí)這一解法,在RockAI逐步清晰。
相比較泛機(jī)器學(xué)習(xí)領(lǐng)域的實時學(xué)習(xí)和在線學(xué)習(xí)、增量學(xué)習(xí)等概念,劉凡平認(rèn)為RockAI首創(chuàng)的同步學(xué)習(xí)概念差異性在于,做知識更新和學(xué)習(xí)時在模型層面訓(xùn)練和推理同步進(jìn)行,以期實時、有效且持續(xù)性地提升大模型的智能智力,應(yīng)對各類個性化場景中出現(xiàn)的問題。
而要理解快速更新的問題,涉及到現(xiàn)在神經(jīng)網(wǎng)絡(luò)的底層原理,本質(zhì)上神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是前向傳播和反向傳播的過程。
就如同你正在玩一個猜數(shù)字游戲,你需要猜出一個1到100之間的隨機(jī)數(shù)。在開始時,你沒有關(guān)于這個數(shù)字的任何信息,所以你的第一次猜測可能是基于直覺或是隨便選了一個數(shù),比如50。這就好比是神經(jīng)網(wǎng)絡(luò)中的前向傳播——在沒有任何歷史數(shù)據(jù)的情況下,根據(jù)當(dāng)前的參數(shù)(權(quán)重和偏置)進(jìn)行一次預(yù)測。
當(dāng)你猜測了50后,游戲會告訴你這個數(shù)字“太大”或“太小”。如果你聽到“太大”,那么下一次猜測時,你會選擇小于50的一個數(shù);如果得到反饋是“太小”,你則會選擇一個大于50的數(shù)。
這就類似于反向傳播對參數(shù)的調(diào)節(jié)過程。只要模型調(diào)整足夠快、代價足夠小,就能更快達(dá)到預(yù)期,實現(xiàn)從感知到認(rèn)知再到?jīng)Q策這一循環(huán)的加速,對現(xiàn)有知識體系進(jìn)行快速更新。
為此,RockAI給出的同步學(xué)習(xí)解法落在,不斷嘗試尋找反向傳播的更優(yōu)解,試圖能更低代價更新神經(jīng)網(wǎng)絡(luò),同時以模型分區(qū)激活降低功耗和實現(xiàn)部分更新,從而使得大模型可以給到客戶后持續(xù)成長,像人類學(xué)習(xí)一樣建立自己獨(dú)有的知識體系。
在劉凡平的設(shè)想中,通過同步學(xué)習(xí),Yan模型部署到各類設(shè)備后,會更像貼身伴侶,伴隨著個人的習(xí)慣去進(jìn)行學(xué)習(xí)和服務(wù),越來越具備個性化的價值,讓手機(jī)、電腦,甚至電視、音響等智能家居都能個性化適配到每個人,最終形成可交互的多樣性智能生態(tài)。
如此說來,那就是每個人在設(shè)備上都會找到自己的Jarvis(鋼鐵俠的AI管家)。
奔赴2.0,RockAI蓄力C端商業(yè)化
把時間線拉長到近半年來看,RockAI的迭代呈現(xiàn)加速度。
3月,類腦分區(qū)激活的工作機(jī)制實現(xiàn);5月初,“無損”跑通樹莓派;5月底,全模態(tài)部分視覺支持走通。
雖然同步學(xué)習(xí)仍在實驗室最后驗證階段,仍需要大規(guī)模測試,但劉凡平表示,隨著把多模態(tài)的視覺、觸覺和聽覺能力補(bǔ)齊,Yan 2.0也最快于今年年底面世。
“屆時,全模態(tài)支持+實時人機(jī)交互+同步學(xué)習(xí)的落地,Yan 2.0的出現(xiàn)或?qū)⒀a(bǔ)齊具身智能的大腦短板!
技術(shù)端的加速,背后是團(tuán)隊“吃苦”換來的。劉凡平坦言,干的都是其他廠商“不愿干”,也可能“干不了”的活。
算法端,RockAI兵分兩路,一部分去做基礎(chǔ)算法和模型架構(gòu)的創(chuàng)新升級,在1.2基礎(chǔ)上朝著2.0進(jìn)發(fā);另一部分則廣泛收集客戶反饋,通過不斷調(diào)整去貼近商業(yè)化落地。
劉凡平認(rèn)為只有最大程度獲取來自于外界和客戶的感知和需求,才能避免閉門造車與用戶的距離太遠(yuǎn),逐漸形成明確和清晰的商業(yè)化路線。
而算法創(chuàng)新外,要實現(xiàn)Yan 2.0落地即商業(yè)化的未來,工程團(tuán)隊也在做大量的標(biāo)準(zhǔn)化的“周邊”補(bǔ)齊,包括基礎(chǔ)設(shè)施、系統(tǒng)、交付等方方面面,解決方案團(tuán)隊更是從率先商業(yè)化的B端客戶“掃”到設(shè)備廠商,邊進(jìn)化邊驗證降本增效和市場認(rèn)可度。
劉凡平也帶著團(tuán)隊奔走于上海、深圳、杭州等地,與中科曙光(603019)、華為昇騰、壁仞科技、廣電五舟等眾多硬件和芯片廠商建立了溝通,在端側(cè)模型的適配工作上,劉凡平能感受到設(shè)備端“積極提供測試機(jī)”的熱情,特別是樹莓派跑通后給到了話語權(quán),機(jī)器人廠商們都開始競相走訪。
而這些前置工作,都為接下來Yan2.0落地合適場景可能試產(chǎn)1-2萬臺的標(biāo)品規(guī);鲎恪把杆俑稀钡闹芷跍(zhǔn)備。
就端側(cè)模型來說,劉凡平認(rèn)為對于設(shè)備廠商而言,是類似Windows操作系統(tǒng)般的存在,F(xiàn)階段可能是系統(tǒng)在適配各種硬件,到了設(shè)備廠商深入了解模型的人工智能能力后,就需要設(shè)備反向兼容操作系統(tǒng),而兩者合力,是社會分工生產(chǎn)力變化的一個必然趨勢。
“站在toC智能化甚至具身智能的大話題下,端側(cè)模型需要結(jié)合實際載體(即硬件)去做適配研究和迭代改進(jìn),才能逐步形成標(biāo)準(zhǔn)化的類Windows操作系統(tǒng),既可以裝在個人電腦也可以適配穿戴設(shè)備,而不同的身體就會需要不同的腦子,我們所構(gòu)想的通用人工智能,是在諸如智能手機(jī)、機(jī)器人以及其他多樣化設(shè)備上展現(xiàn)出的非凡適應(yīng)力與高度個性化的交互能力。”
作為一家從B端商業(yè)化驗證過“!绷Φ钠髽I(yè),劉凡平坦言,當(dāng)前商業(yè)化重心部署到C端設(shè)備,是低算力的基因使然,亦是AI與本地設(shè)備結(jié)合的個性化趨勢必然,也是跳出B端商業(yè)化內(nèi)卷,搶占C端藍(lán)海市場的先機(jī)。
在RockAI的辦公室內(nèi),擺滿了眾多的各類硬件設(shè)備,劉凡平笑道,還有大量的適配和兼容工作需要完成,而一旁來自深圳各個廠商的機(jī)器人也在等待適配他們的“大腦”。
從Yan 1.0到Y(jié)an 1.2,RockAI花了4個月時間,再到2.0,想必也不會太久。
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對本廣告內(nèi)容的真實性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實性負(fù)責(zé),請自行核實相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)
【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn),與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評論