RTE2024產(chǎn)品論壇：拓展AI時(shí)代下RTE產(chǎn)品版圖，滿足創(chuàng)新性場(chǎng)景需求

2024-10-30 10:28:52 商業(yè)在線

過去一年里，大模型技術(shù)在持續(xù)進(jìn)化，作為 RTE 云服務(wù)行業(yè)的引領(lǐng)者，聲網(wǎng)也在不斷精進(jìn)技術(shù)，豐富 RTE 產(chǎn)品版圖，探索 AI 與 RTE 相結(jié)合的無限可能。

10月25日下午，RTE2024 第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)產(chǎn)品論壇專場(chǎng)正式拉開帷幕。聲網(wǎng)產(chǎn)品天團(tuán)多位重磅大咖，全方位的展示了聲網(wǎng)當(dāng)下最熱門、最受歡迎的產(chǎn)品與在 AI+RTE 時(shí)代下的行業(yè)實(shí)踐。

從 RTC 到 AI+RTE 產(chǎn)品10年的變與不變

數(shù)據(jù)顯示，2014年 RTC 在 MAU Top10000 APP 中滲透率不足1%，場(chǎng)景使用量不到20個(gè)。在聲網(wǎng)與眾多行業(yè)伙伴的驅(qū)動(dòng)下，RTE場(chǎng)景和體驗(yàn)快速升級(jí)。截止2024年，RTC 在 MAU Top10000 App 的滲透率已超過10%、場(chǎng)景使用數(shù)量超過300個(gè)，服務(wù)也從 QoS 進(jìn)化到了 QoE。

從 RTC 行業(yè)建立到走向 AI+RTE 這10年，聲網(wǎng)的產(chǎn)品和方案能力體系有哪些變與不變？在 RTE2024 產(chǎn)品論壇上，聲網(wǎng)COO劉斌帶來了聲網(wǎng)產(chǎn)品的演進(jìn)分享與思考。

他指出，隨著 5G 和終端設(shè)備的發(fā)展，從專線、專網(wǎng)到公共網(wǎng)絡(luò)，從硬件、SaaS 到 PaaS、云網(wǎng)能力，RTC 正在讓實(shí)時(shí)互動(dòng)成為了一項(xiàng)通用能力。在劉斌的分享中可以清晰的看到，聲網(wǎng)最早成立時(shí)只有基礎(chǔ)能力層的公有云、核心層的RTC Core、以及拓展的社交娛樂場(chǎng)景能力3個(gè)產(chǎn)品。在今天的 AI+RTE 全產(chǎn)品和方案能力體系中，聲網(wǎng)不僅在網(wǎng)絡(luò)基礎(chǔ)層增加了私有云、混合云服務(wù)，RTE Core 層也增加了極速直播、云信令RTM、即時(shí)通訊IM以及最新的 AI Agent框架等。為了讓開發(fā)者更好的使用底層 API，聲網(wǎng)還將部分 RTE Extension 封裝成了更貼近業(yè)務(wù)的工具，并推出了覆蓋社交娛樂、在線教育、智能硬件、數(shù)字化轉(zhuǎn)型、直播電商、AIGC、出海等領(lǐng)域的場(chǎng)景解決方案。

在不斷探索 AI+RTE 的實(shí)踐過程中，聲網(wǎng)還打造了延遲最低、組裝定制最靈活的 AI+RTE 解決方案，能達(dá)到延遲低至500ms、支持隨時(shí)打斷&多次打斷，并提供 AI 降噪+背景人聲消除等能力，助力開發(fā)者打造 AI killer App。劉斌指出，隨著大模型能力的不斷提升以及與RTC能力結(jié)合之后將催生更多AI業(yè)態(tài)的發(fā)展。

回首10年，劉斌認(rèn)為，實(shí)時(shí)互動(dòng)場(chǎng)景的構(gòu)建中，“體驗(yàn)”是其中一個(gè)非常重要的部分。相比此前只追求連通率，是否有能力在不同編碼、不同清晰度、不同設(shè)備以及網(wǎng)絡(luò)下，做到高穩(wěn)定、低延時(shí)、絲滑流暢、強(qiáng)同步以及優(yōu)質(zhì)的音視頻質(zhì)量將成為整個(gè)行業(yè)的無止境追求。

場(chǎng)景化API助力開發(fā)者快速搭建實(shí)時(shí)互動(dòng)場(chǎng)景

在開發(fā)者體驗(yàn)上，聲網(wǎng)為幫助開發(fā)者快速集成高質(zhì)量的實(shí)時(shí)互動(dòng)場(chǎng)景，在今年推出了場(chǎng)景化API。聲網(wǎng)視頻娛樂產(chǎn)品經(jīng)理陳際陶介紹，場(chǎng)景化 API 是面向客戶業(yè)務(wù)場(chǎng)景化的一體化開發(fā)工具包，通過簡(jiǎn)單幾個(gè) API 就能快速實(shí)現(xiàn)場(chǎng)景構(gòu)建，并通過預(yù)設(shè)參數(shù)配置幫助客戶實(shí)現(xiàn)場(chǎng)景的最佳實(shí)踐。場(chǎng)景化API 具備四大核心優(yōu)勢(shì)：簡(jiǎn)化功能開發(fā)、上線即最佳、開源支持修改、數(shù)據(jù)上報(bào)完善透明。

從事社交娛樂 APP 開發(fā)工程師的都知道，由于 APP 更依賴用戶體驗(yàn)、紅利期搶占刻不容緩的客觀事實(shí)，開發(fā)工程師經(jīng)常會(huì)面臨減少異常，降低難度；縮短開發(fā)時(shí)間；滿足各個(gè)業(yè)務(wù)線既要、又要、還要的三大挑戰(zhàn)。

聲網(wǎng)視頻娛樂產(chǎn)品經(jīng)理陳際陶認(rèn)為，業(yè)務(wù)指標(biāo)的達(dá)成要依賴于兩點(diǎn)，一是通過不斷迭代的用戶體驗(yàn)完成轉(zhuǎn)化率提升，二是快速上線大家一致看好的新場(chǎng)景、新玩法，促進(jìn)更多的新付費(fèi)轉(zhuǎn)化。她指出，聲網(wǎng)場(chǎng)景化API正是基于這樣的邏輯誕生的，作為資深的B端服務(wù)商，聲網(wǎng)場(chǎng)景化API考慮到了所有開發(fā)者架構(gòu)上的通用適配性，在保證底層 SDK 足夠靈活的同時(shí)，兼顧了各細(xì)分賽道開發(fā)者的易用性，同時(shí)還提供了 SDK 層的 Scenario API 供客戶一鍵調(diào)用最佳音視頻策略，進(jìn)而滿足業(yè)務(wù)端口的既要、又要、還要。

目前，場(chǎng)景化 API 覆蓋了 5 大泛娛樂業(yè)務(wù)場(chǎng)景，包含1v1呼叫、美顏、K歌、直播秒開/秒切、音頻直播等，適用于企業(yè)期待快速完成開發(fā)上線的泛娛樂業(yè)務(wù)場(chǎng)景，并能跨級(jí)提升用戶體驗(yàn)。

AI Agent 賦能實(shí)時(shí)互動(dòng)行業(yè)萬象

10年時(shí)間，音視頻內(nèi)容生產(chǎn)和消費(fèi)趨勢(shì)也發(fā)生了翻天覆地的變化。從單向、雙向到多人互動(dòng)，音視頻內(nèi)容互動(dòng)性越來越強(qiáng)；從離線到在線，從秒級(jí)到毫米級(jí)，音視頻內(nèi)容消費(fèi)延遲越來越低。

聲網(wǎng) AI音視頻產(chǎn)品經(jīng)理常云青介紹到，伴隨著音視頻的變化趨勢(shì)，聲網(wǎng)也一直在用各種產(chǎn)品去踐行“低延遲、強(qiáng)互動(dòng)、超高清”的理念。在生成式AI時(shí)代到來的今天同樣如此，為了更好的賦能行業(yè)萬象，聲網(wǎng)基于各個(gè)行業(yè)客戶及開發(fā)者們大量的真實(shí)場(chǎng)景和需求，順勢(shì)推出了基于實(shí)時(shí)互動(dòng)的 AI Agent 服務(wù)平臺(tái)。

聲網(wǎng) AI Agent 是一套云邊端一體的 PaaS 服務(wù)，聚焦實(shí)時(shí)音視頻互動(dòng)場(chǎng)景，結(jié)合市場(chǎng)上最優(yōu)秀的模型能力，充分發(fā)揮聲網(wǎng)音視頻算法及 SD-RTN 的傳輸優(yōu)勢(shì)，助力中小客戶快速搭建低延遲、高可用的人機(jī)交互應(yīng)用，支持聽、說、讀、寫、畫、看等核心能力，并具備低延遲、高識(shí)別準(zhǔn)確率、低成本接入和業(yè)務(wù)高度靈活四大核心優(yōu)勢(shì),適用于泛娛樂、教育、企業(yè)協(xié)作等多個(gè)行業(yè)場(chǎng)景。

在活動(dòng)現(xiàn)場(chǎng)，常云青還展示了其利用聲網(wǎng) AI Agent 生成的 Demo，其中對(duì)話式語音助手中的虛擬人對(duì)話完美呈現(xiàn)了類似真人的低延遲效果，并具備智能打斷能力；AI同聲傳譯同樣達(dá)到了真人同傳的體驗(yàn)效果。

聲網(wǎng) Video AI & Voice AI 的探索與應(yīng)用

作為音視頻領(lǐng)域的實(shí)踐者，聲網(wǎng)在 Video AI 和 Voice AI 的探索就從未停止過。

聲網(wǎng) Video AI 產(chǎn)品經(jīng)理沈偲暐介紹，聲網(wǎng)在 Video AI 層面的探索與應(yīng)用主要有以下幾點(diǎn)，如為成熟的數(shù)字人廠商提供傳輸上的質(zhì)量保證，并通過開源模型和自研的算法，幫助廠商提升數(shù)字人在嘴形對(duì)齊、延遲、自然的商業(yè)化動(dòng)作等體驗(yàn)。在視頻理解上，通過 YOLO 物品檢測(cè) + 眼神追蹤這種多模型串聯(lián)方式做過監(jiān)考場(chǎng)景的內(nèi)容審核等。

與此同時(shí)，聲網(wǎng)還推出了實(shí)時(shí)風(fēng)格化解決方案。得益于聲網(wǎng)統(tǒng)一的 AI Agent 框架，該方案可以直接使用聲網(wǎng)產(chǎn)品矩陣中的多個(gè)前后處理功能，比如鳳鳴引擎、虛擬背景、超級(jí)畫質(zhì)等，甚至還具備借用聲網(wǎng)平臺(tái)對(duì)接云市場(chǎng)中插件的能力，無論終端用戶在哪個(gè)平臺(tái)。都可以直接讓直播變得風(fēng)格化。

沈偲暐表示，視頻的生成、增強(qiáng)、處理以及理解四個(gè)維度是 Video AI 與 RTC 的核心交集。從現(xiàn)階段的情況來看，Video AI 的發(fā)展道阻且長。Video AI 作為集大成者現(xiàn)階段還處于發(fā)展早期，如果沒有語言、音頻保證，用戶的交互體驗(yàn)將很難推進(jìn)。

聲網(wǎng)創(chuàng)新產(chǎn)品經(jīng)理曹躍帶來了聲網(wǎng) Voice AI 的分享，他指出，AI 過去幾年在音頻領(lǐng)域的應(yīng)用主要集中在 AI 降噪、AI CoDeck 音頻處理等，但隨著大模型出現(xiàn)，音頻的體驗(yàn)變得更加自然，聲網(wǎng) Voice AI 也正在由音頻處理走向內(nèi)容服務(wù)。目前，聲網(wǎng) Voice AI 提供了包括語音到文本（實(shí)時(shí)語音轉(zhuǎn)文字、實(shí)時(shí)語音翻譯）、語音到語音（同聲傳譯、實(shí)時(shí)文本轉(zhuǎn)語音）以及內(nèi)容處理的 AI Agent 產(chǎn)品（總結(jié)AI、對(duì)話AI）在內(nèi)的一系列服務(wù)。

在分享聲網(wǎng) AI Agent 解決方案時(shí)，曹躍特別強(qiáng)調(diào)，如果企業(yè)內(nèi) AI 助手的問答信息被用于大模型的二次訓(xùn)練，企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)和運(yùn)營行為就會(huì)被大模型復(fù)制，從而導(dǎo)致企業(yè)喪失競(jìng)爭(zhēng)優(yōu)勢(shì)。聲網(wǎng) AI Agent 與其它應(yīng)用的主要區(qū)別是能夠解決企業(yè)的數(shù)據(jù)安全顧慮，提供大模型私有域的支持，并可以通過就近部署、就近接入等方案，保持?jǐn)?shù)據(jù)的安全以及優(yōu)秀的交互體驗(yàn)。

靈動(dòng)會(huì)議、智能紀(jì)要，AI重塑會(huì)議體驗(yàn)

隨著技術(shù)的發(fā)展，企業(yè)對(duì)會(huì)議安全、信息流和業(yè)務(wù)流的傳遞產(chǎn)生了更多的訴求。未來，云視頻會(huì)議融合、深入企業(yè)業(yè)務(wù)流、AI 深入會(huì)議場(chǎng)景或?qū)⒊蔀闀?huì)議行業(yè)發(fā)展的三個(gè)趨勢(shì)。

在此次的 RTE2024 產(chǎn)品論壇上，聲網(wǎng)靈動(dòng)會(huì)議產(chǎn)品經(jīng)理邰倫裕分享了提供豐富UI 組件、支持快速UI集成的聲網(wǎng)靈動(dòng)會(huì)議。邰倫裕介紹到，開發(fā)者借助靈動(dòng)會(huì)議僅通過4個(gè)方法和回調(diào)，就可快速實(shí)現(xiàn)UI定制，幫助企業(yè)大幅度降低了開發(fā)投入與集成時(shí)間。目前，靈動(dòng)會(huì)議的功能覆蓋率已經(jīng)實(shí)現(xiàn)了與行業(yè)標(biāo)桿對(duì)齊，會(huì)中功能覆蓋率超過90%。能夠滿足包含遠(yuǎn)程協(xié)作、在線教育、大規(guī)模企業(yè)會(huì)議在內(nèi)到各種類型的會(huì)議需求。

“未來通過智能體、多模態(tài)的發(fā)展，或許可以更加充分地把會(huì)議基礎(chǔ)信息提煉出來，形成會(huì)議和 AI 的雙向匹配�；蛟S未來有一天不用本人開會(huì)，會(huì)議就已經(jīng)開完了�！�邰倫裕展望到。

會(huì)議紀(jì)要產(chǎn)出作為開會(huì)過程中一個(gè)耗時(shí)耗力的問題，如何更快更好更低成本的產(chǎn)出成了行業(yè)面臨的共同挑戰(zhàn)。聲網(wǎng)AI云平臺(tái)產(chǎn)品經(jīng)理?xiàng)畛栔赋觯?strong>可以幫助會(huì)議瘦身、助力決策高效的“聲網(wǎng)智能紀(jì)要”解決了行業(yè)中聽、寫和整理三個(gè)環(huán)節(jié)里核心面臨的問題。

聲網(wǎng)智能紀(jì)要采用了可插拔的靈活架構(gòu)，兼容行業(yè)頭部和自研的自動(dòng)語音識(shí)別（ASR）技術(shù)和大語言模型（LLM），結(jié)合高質(zhì)量的實(shí)時(shí)通信技術(shù)與前沿的音頻采集算法，實(shí)現(xiàn)了高品質(zhì)、低成本、超好用的會(huì)議紀(jì)要能力。相較于其他紀(jì)要服務(wù)提供商，聲網(wǎng)智能紀(jì)要還解決了用戶擔(dān)心的安全隱私問題，通過傳輸鏈路加密協(xié)議保障用戶數(shù)據(jù)私有，采用高可用框架保障客戶的數(shù)據(jù)安全和高可用。

他指出，聲網(wǎng)“智能紀(jì)要”已在內(nèi)部投入使用近一年，后續(xù)將會(huì)以“會(huì)議場(chǎng)景集成接入”的形式開放給更多客戶使用。

實(shí)時(shí)數(shù)據(jù)質(zhì)量透明和實(shí)時(shí)應(yīng)用快速構(gòu)建

解決實(shí)時(shí)數(shù)據(jù)行業(yè)的質(zhì)量透明、幫助RTE領(lǐng)域快速構(gòu)建實(shí)時(shí)互動(dòng)應(yīng)用是聲網(wǎng)兩個(gè)重要的探索方向，在此次的產(chǎn)品論壇上，聲網(wǎng)AI云平臺(tái)產(chǎn)品經(jīng)理?xiàng)畛柡吐暰W(wǎng)后端產(chǎn)品經(jīng)理孟小玉分別分享了聲網(wǎng)在這兩方面的進(jìn)展。

楊超陽指出，質(zhì)量透明是實(shí)時(shí)數(shù)據(jù)行業(yè)的生命線，服務(wù)狀態(tài)同步是質(zhì)量透明的必經(jīng)之路。為了守住這一生命線，聲網(wǎng)一直在質(zhì)量體驗(yàn)優(yōu)化和質(zhì)量透明方面持續(xù)重點(diǎn)投入，并成功推出了集中展示聲網(wǎng)重要產(chǎn)品及服務(wù)實(shí)時(shí)運(yùn)行狀態(tài)、用戶體驗(yàn)質(zhì)量及影響可用性故障事件、維護(hù)通知的聲網(wǎng)健康看板（Status Page）。

相比于傳統(tǒng)的 Status Page，聲網(wǎng)健康看板在狀態(tài)展示上根據(jù)國際電信級(jí)質(zhì)量評(píng)估標(biāo)準(zhǔn)，構(gòu)建了 QoE 指標(biāo)體系，可以更加客觀的反映當(dāng)前服務(wù)是否可用、好用。在實(shí)時(shí)性上，更是超越了傳統(tǒng)云服務(wù)。在高效同步上，從告警發(fā)生，到事件過濾、處理、同步，可以做到15min內(nèi)完成。與此同時(shí)，聲網(wǎng)健康看板還具備支持回查十年后的當(dāng)前事件，并提供了7*24小時(shí)全球運(yùn)維保障等優(yōu)勢(shì)。

在實(shí)時(shí)應(yīng)用的快速構(gòu)建上，孟小玉帶來了聲網(wǎng) RTM2.0產(chǎn)品的分享。他指出，聲網(wǎng) RTM 現(xiàn)在已經(jīng)成為 RTE 領(lǐng)域最重要、最不可或缺的基礎(chǔ)組件產(chǎn)品，以及快速構(gòu)建實(shí)時(shí)互動(dòng)應(yīng)用的必備產(chǎn)品。在行業(yè)應(yīng)用上，RTM2.0覆蓋范圍也涉及到了在線醫(yī)療、智能設(shè)備、多人游戲、物流與運(yùn)輸?shù)阮I(lǐng)域。

私有化平臺(tái)2.0助力數(shù)字化轉(zhuǎn)型

數(shù)字化轉(zhuǎn)型近年來一直是 RTE 大會(huì)的焦點(diǎn)。在今年的產(chǎn)品論壇上，聲網(wǎng)私有化平臺(tái)產(chǎn)品經(jīng)理任政再次帶來了新的思考。他指出，在傳統(tǒng) IT 架構(gòu)進(jìn)入轉(zhuǎn)型升級(jí)期、國家對(duì)特殊行業(yè)嚴(yán)格監(jiān)管要求提升等大背景下，私有化將成為數(shù)字化轉(zhuǎn)型浪潮里不可或缺的重要能力底座。一套支持軟硬解耦、開源兼容、可持續(xù)演進(jìn)式的架構(gòu)體系對(duì)于企業(yè)數(shù)字化轉(zhuǎn)型來說尤為重要。目前，聲網(wǎng) RTC 私有化平臺(tái)就具備標(biāo)準(zhǔn)化產(chǎn)品、輕量化運(yùn)維、可持續(xù)演進(jìn)的優(yōu)勢(shì)，并在各種規(guī)模架構(gòu)支持上進(jìn)行了全面的覆蓋與成功案例實(shí)踐。

任政表示，要真正實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型的期待，就必須推動(dòng)私有化平臺(tái)從1.0邁入2.0，解決過去定制化、重運(yùn)維、煙囪林立以及業(yè)務(wù)封閉等問題。新一代私有化平臺(tái)不僅要具備產(chǎn)品標(biāo)準(zhǔn)化、服務(wù)普適化，還需要把私有化平臺(tái)作為政企統(tǒng)一管理底座的其中一環(huán)去做整體設(shè)計(jì)，才能滿足不同部署方式的靈活切換，與各種平臺(tái)和終端的適配，最終支撐起海量的業(yè)務(wù)場(chǎng)景。

關(guān)于私有化平臺(tái)下 AI 的發(fā)展方向，任政認(rèn)為，通用模型的訓(xùn)練方式肯定不足以應(yīng)對(duì)各種各樣的場(chǎng)景，私有化部署的數(shù)據(jù)庫、私有化下的 Infra 設(shè)計(jì)最終一定都會(huì)落地到私有化平臺(tái)。

可以看到，無論是 AI 的爆發(fā)，還是泛娛樂、教育、數(shù)字化轉(zhuǎn)型、IoT 等場(chǎng)景的演進(jìn)，聲網(wǎng)持續(xù)在 RTE 領(lǐng)域做出革新和深耕。未來，在生成式 AI 能力的加持下，聲網(wǎng)持續(xù)的產(chǎn)品迭代與創(chuàng)新將助力各行各業(yè)邁上新的臺(tái)階。

（責(zé)任編輯：張曉波）

【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn)，與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱：news_center@staff.hexun.com

看全文

寫評(píng)論已有條評(píng)論跟帖用戶自律公約

提交還可輸入500字

最新評(píng)論

查看剩下100條評(píng)論

RTE2024產(chǎn)品論壇：拓展AI時(shí)代下RTE產(chǎn)品版圖，滿足創(chuàng)新性場(chǎng)景需求

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

RTE2024產(chǎn)品論壇：拓展AI時(shí)代下RTE產(chǎn)品版圖，滿足創(chuàng)新性場(chǎng)景需求

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

推薦閱讀