11月30日,由中國人工智能學(xué)會(huì)主辦,CAAI智能傳媒專委會(huì)、新浪新聞、中國傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、中國傳媒大學(xué)海南國際學(xué)院承辦的2024智能傳媒技術(shù)發(fā)展論壇落下帷幕。微博首席科學(xué)家、新技術(shù)研發(fā)負(fù)責(zé)人、中國中文信息學(xué)會(huì)理事張俊林出席論壇,分享了多模態(tài)大模型技術(shù)的最新進(jìn)展以及微博在多模態(tài)大模型方面的創(chuàng)新應(yīng)用。
近一年來,多模態(tài)大模型技術(shù)與產(chǎn)品蓬勃發(fā)展,在多個(gè)領(lǐng)域展現(xiàn)出巨大潛力,正在重新定義人工智能的能力邊界。張俊林表示,如果考慮其技術(shù)發(fā)展路線的話,可以看出多模態(tài)大模型在沿著特定路徑演進(jìn):在今年4月之前,主要存在多模態(tài)理解大模型與多模態(tài)生成大模型兩個(gè)分支,前者支持多模態(tài)輸入但以文本形式輸出,主要用于回答用戶關(guān)于多模態(tài)輸入內(nèi)容的一些問題;后者可生成文本、圖像、視頻等多種模態(tài)的內(nèi)容。
“這兩個(gè)分支的技術(shù)路線各異,自今年4月起,業(yè)界重點(diǎn)聚焦于構(gòu)建統(tǒng)一的多模態(tài)大模型,探索理解與生成功能融合的大一統(tǒng)模型架構(gòu)!睆埧×直硎,“業(yè)內(nèi)對(duì)大一統(tǒng)多模態(tài)大模型的期望是,其能接納任意形態(tài)的輸入,如文字、圖片、視頻、音頻乃至最新的觸覺與行為模態(tài),并生成相應(yīng)形態(tài)的內(nèi)容,其發(fā)展方向是實(shí)現(xiàn)統(tǒng)一模型對(duì)各類輸入的兼容與多樣化輸出的生成!
張俊林接著介紹了微博在多模態(tài)應(yīng)用方面的創(chuàng)新實(shí)踐!拔⒉┒嗄B(tài)應(yīng)用的整體架構(gòu)底層為算力平臺(tái),之上構(gòu)建了微博知微大模型!睆埧×直硎荆⒉v經(jīng)十余年積累了豐富且具特色的數(shù)據(jù),如實(shí)時(shí)熱點(diǎn)信息、豐富的事件脈絡(luò)以及網(wǎng)絡(luò)流行語與熱梗等,“我們結(jié)合通用數(shù)據(jù)和微博特色數(shù)據(jù)構(gòu)建了知微大模型,并在此基礎(chǔ)上開發(fā)了多款不同場(chǎng)景的具體應(yīng)用,例如評(píng)論機(jī)器人、劇綜虛擬角色生成、博主 AI 助手、MBTI 小行家等。”
在現(xiàn)場(chǎng),張俊林對(duì)評(píng)論機(jī)器人和劇綜虛擬角色進(jìn)行了具體介紹。“微博評(píng)論機(jī)器人具有雙重價(jià)值,既能提升社區(qū)活躍度,又能為用戶提供情緒價(jià)值。其技術(shù)架構(gòu)的核心是多模態(tài)評(píng)論大模型以及支持評(píng)論機(jī)器人不同人設(shè)設(shè)置的人設(shè)大模型!睆埧×直硎,“我們利用微博大量的優(yōu)質(zhì)內(nèi)容及對(duì)應(yīng)的高質(zhì)量評(píng)論數(shù)據(jù)來微調(diào)這兩個(gè)模型。當(dāng)用戶發(fā)出微博后,評(píng)論機(jī)器人會(huì)把評(píng)論問題拆解成若干子任務(wù),分別理解文字與多張圖片的內(nèi)容,再依據(jù)對(duì)應(yīng)人設(shè)生成有特點(diǎn)的回復(fù),之后還可以精選高互動(dòng)的機(jī)器人評(píng)論,作為新的訓(xùn)練數(shù)據(jù)進(jìn)一步改善模型效果,數(shù)據(jù)形成閉環(huán),持續(xù)迭代優(yōu)化評(píng)論機(jī)器人的效果!
在劇綜虛擬角色方面,張俊林指出,角色扮演是大模型的熱門應(yīng)用領(lǐng)域,如Character.ai的用戶平均使用時(shí)長超過40分鐘。“這類應(yīng)用的用戶黏性非常強(qiáng),微博在這方面的大模型應(yīng)用重點(diǎn)布局在影視劇綜的虛擬角色扮演上,旨在解決劇綜賬號(hào)活躍周期短的維護(hù)難題!睆埧×直硎,其架構(gòu)核心在于構(gòu)建通用的角色大模型,并結(jié)合多模態(tài)RAG融入具體劇情與圖片信息,使大模型能以符合角色身份的方式與用戶互動(dòng),應(yīng)用場(chǎng)景涵蓋虛擬角色賬號(hào)創(chuàng)建、用戶互動(dòng)與評(píng)論區(qū)互動(dòng)等。數(shù)據(jù)表明,引入多模態(tài)大模型后,評(píng)論互動(dòng)率以及用戶交互輪次都有明顯提升,彰顯了多模態(tài)大模型在實(shí)際場(chǎng)景中的巨大應(yīng)用價(jià)值。
【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn),與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評(píng)論