2024智能傳媒技術(shù)發(fā)展論壇丨張俊林：業(yè)界正聚焦大一統(tǒng)多模態(tài)大模型的構(gòu)建

2024-12-02 13:23:57 商務(wù)信息

11月30日，由中國人工智能學(xué)會(huì)主辦，CAAI智能傳媒專委會(huì)、新浪新聞、中國傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、中國傳媒大學(xué)海南國際學(xué)院承辦的2024智能傳媒技術(shù)發(fā)展論壇落下帷幕。微博首席科學(xué)家、新技術(shù)研發(fā)負(fù)責(zé)人、中國中文信息學(xué)會(huì)理事張俊林出席論壇，分享了多模態(tài)大模型技術(shù)的最新進(jìn)展以及微博在多模態(tài)大模型方面的創(chuàng)新應(yīng)用。

近一年來，多模態(tài)大模型技術(shù)與產(chǎn)品蓬勃發(fā)展，在多個(gè)領(lǐng)域展現(xiàn)出巨大潛力，正在重新定義人工智能的能力邊界。張俊林表示，如果考慮其技術(shù)發(fā)展路線的話，可以看出多模態(tài)大模型在沿著特定路徑演進(jìn)：在今年4月之前，主要存在多模態(tài)理解大模型與多模態(tài)生成大模型兩個(gè)分支，前者支持多模態(tài)輸入但以文本形式輸出，主要用于回答用戶關(guān)于多模態(tài)輸入內(nèi)容的一些問題；后者可生成文本、圖像、視頻等多種模態(tài)的內(nèi)容。

“這兩個(gè)分支的技術(shù)路線各異，自今年4月起，業(yè)界重點(diǎn)聚焦于構(gòu)建統(tǒng)一的多模態(tài)大模型，探索理解與生成功能融合的大一統(tǒng)模型架構(gòu)�！睆埧×直硎�，“業(yè)內(nèi)對(duì)大一統(tǒng)多模態(tài)大模型的期望是，其能接納任意形態(tài)的輸入，如文字、圖片、視頻、音頻乃至最新的觸覺與行為模態(tài)，并生成相應(yīng)形態(tài)的內(nèi)容，其發(fā)展方向是實(shí)現(xiàn)統(tǒng)一模型對(duì)各類輸入的兼容與多樣化輸出的生成�！�

張俊林接著介紹了微博在多模態(tài)應(yīng)用方面的創(chuàng)新實(shí)踐�！拔⒉┒嗄B(tài)應(yīng)用的整體架構(gòu)底層為算力平臺(tái)，之上構(gòu)建了微博知微大模型�！睆埧×直硎荆⒉v經(jīng)十余年積累了豐富且具特色的數(shù)據(jù)，如實(shí)時(shí)熱點(diǎn)信息、豐富的事件脈絡(luò)以及網(wǎng)絡(luò)流行語與熱梗等，“我們結(jié)合通用數(shù)據(jù)和微博特色數(shù)據(jù)構(gòu)建了知微大模型，并在此基礎(chǔ)上開發(fā)了多款不同場(chǎng)景的具體應(yīng)用，例如評(píng)論機(jī)器人、劇綜虛擬角色生成、博主 AI 助手、MBTI 小行家等。”

在現(xiàn)場(chǎng)，張俊林對(duì)評(píng)論機(jī)器人和劇綜虛擬角色進(jìn)行了具體介紹。“微博評(píng)論機(jī)器人具有雙重價(jià)值，既能提升社區(qū)活躍度，又能為用戶提供情緒價(jià)值。其技術(shù)架構(gòu)的核心是多模態(tài)評(píng)論大模型以及支持評(píng)論機(jī)器人不同人設(shè)設(shè)置的人設(shè)大模型�！睆埧×直硎�，“我們利用微博大量的優(yōu)質(zhì)內(nèi)容及對(duì)應(yīng)的高質(zhì)量評(píng)論數(shù)據(jù)來微調(diào)這兩個(gè)模型。當(dāng)用戶發(fā)出微博后，評(píng)論機(jī)器人會(huì)把評(píng)論問題拆解成若干子任務(wù)，分別理解文字與多張圖片的內(nèi)容，再依據(jù)對(duì)應(yīng)人設(shè)生成有特點(diǎn)的回復(fù)，之后還可以精選高互動(dòng)的機(jī)器人評(píng)論，作為新的訓(xùn)練數(shù)據(jù)進(jìn)一步改善模型效果，數(shù)據(jù)形成閉環(huán)，持續(xù)迭代優(yōu)化評(píng)論機(jī)器人的效果�！�

在劇綜虛擬角色方面，張俊林指出，角色扮演是大模型的熱門應(yīng)用領(lǐng)域，如Character.ai的用戶平均使用時(shí)長超過40分鐘。“這類應(yīng)用的用戶黏性非常強(qiáng)，微博在這方面的大模型應(yīng)用重點(diǎn)布局在影視劇綜的虛擬角色扮演上，旨在解決劇綜賬號(hào)活躍周期短的維護(hù)難題�！睆埧×直硎�，其架構(gòu)核心在于構(gòu)建通用的角色大模型，并結(jié)合多模態(tài)RAG融入具體劇情與圖片信息，使大模型能以符合角色身份的方式與用戶互動(dòng)，應(yīng)用場(chǎng)景涵蓋虛擬角色賬號(hào)創(chuàng)建、用戶互動(dòng)與評(píng)論區(qū)互動(dòng)等。數(shù)據(jù)表明，引入多模態(tài)大模型后，評(píng)論互動(dòng)率以及用戶交互輪次都有明顯提升，彰顯了多模態(tài)大模型在實(shí)際場(chǎng)景中的巨大應(yīng)用價(jià)值。

（責(zé)任編輯：王治強(qiáng) HF013）

【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn)，與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱：news_center@staff.hexun.com

看全文

寫評(píng)論已有條評(píng)論跟帖用戶自律公約

提交還可輸入500字

2024智能傳媒技術(shù)發(fā)展論壇丨張俊林：業(yè)界正聚焦大一統(tǒng)多模態(tài)大模型的構(gòu)建

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

2024智能傳媒技術(shù)發(fā)展論壇丨張俊林：業(yè)界正聚焦大一統(tǒng)多模態(tài)大模型的構(gòu)建

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

推薦閱讀