合合信息:以文檔解析技術(shù)賦能大模型,破解語料難題

2024-09-22 16:31:01 大京生活

在大模型迅速發(fā)展的背景下,模型訓(xùn)練語料的質(zhì)量和數(shù)量成為關(guān)鍵因素。然而,當(dāng)前面臨著高質(zhì)量語料短缺的問題,大量有價(jià)值的語料沉睡在各種文檔中,難以被有效利用。合合信息的文檔解析技術(shù)為解決這一難題提供了新的途徑。

據(jù)人工智能研究人員小組Epoch研究估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。以中文語料為例,其在全球通用的大模型數(shù)據(jù)訓(xùn)練集中占比僅為1.3%,數(shù)量和質(zhì)量都存在不足。同時(shí),文檔的復(fù)雜版面結(jié)構(gòu)也制約了大模型的訓(xùn)練語料處理能力。

為了應(yīng)對(duì)這一挑戰(zhàn),合合信息在WAIC 2024和CCIG 2024上分別展示了其用于大模型語料訓(xùn)練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺(tái)。該平臺(tái)由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。

TextIn文檔解析在處理復(fù)雜語料方面表現(xiàn)出色。以銀行基金對(duì)賬單托管業(yè)務(wù)為例,面對(duì)眾多基金公司不同的賬單樣式和復(fù)雜表格,TextIn文檔解析能夠快速、準(zhǔn)確地從非結(jié)構(gòu)化圖文信息中抽取數(shù)據(jù),并智能還原文檔的閱讀順序。它還能處理無線表、跨頁表格、公式等復(fù)雜元素,最快1.5秒就能完成百頁長文檔的解析。此外,在面對(duì)多類型樣本問題時(shí),TextIn文檔解析注重圖表數(shù)據(jù)訓(xùn)練,能將柱狀圖、折線圖、餅圖等十余種常見圖表還原為Json或Markdown格式,讓大模型更好地理解圖表數(shù)據(jù)和學(xué)習(xí)專業(yè)文檔的論證邏輯。

TextIn Embedding模型則能提高大模型信息搜索和問答的質(zhì)量、效率和準(zhǔn)確性。它像“指南針”一樣,通過深入學(xué)習(xí)大量中文語料,迅速找到目標(biāo)信息定位并提取有效文本特征,完成分類和聚類任務(wù)。該模型還引入了持續(xù)學(xué)習(xí)訓(xùn)練方式,支持可變輸出維度,提升了模型系統(tǒng)的性能和體驗(yàn)。

OpenKIE是一個(gè)可用于圖像文檔的信息抽取工具,能自動(dòng)抽取文檔中所需信息,并應(yīng)用或?qū)氲狡渌到y(tǒng)中。例如,合合信息與百川智能合作,將百頁文檔的整體處理速率提升超過10倍,共同破解了多文檔元素識(shí)別、版面分析等難題。

在CCIG 2024上,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚(yáng)分享了智能文檔處理技術(shù)在文檔解析領(lǐng)域的工作。文檔解析的難點(diǎn)在于準(zhǔn)確識(shí)別文檔元素和理解其邏輯關(guān)系,需要關(guān)注“物理版面分析”和“邏輯版面分析”。合合信息通過十幾年技術(shù)積淀,打通了文檔智能化處理的全流程,能靈活識(shí)別各種版面元素,準(zhǔn)確還原文檔閱讀順序,為大模型提供精準(zhǔn)的訓(xùn)練語料和文檔問答應(yīng)用體驗(yàn)。

目前,TextIn智能文檔處理平臺(tái)已可覆蓋金融、醫(yī)學(xué)、財(cái)經(jīng)、媒體等47個(gè)場(chǎng)景,共3200余類文檔,被用于百川智能等多家頭部大模型廠商的預(yù)訓(xùn)練流程,并積累了小批量開發(fā)者用戶。

未來,合合信息將重點(diǎn)瞄準(zhǔn)金融、醫(yī)療等行業(yè)推出垂直領(lǐng)域產(chǎn)品,同時(shí)面向開發(fā)者推進(jìn)內(nèi)測(cè)計(jì)劃,吸納更多用戶參與到產(chǎn)品共創(chuàng)和優(yōu)化中,以持續(xù)提升文檔解析技術(shù)在大模型領(lǐng)域的應(yīng)用價(jià)值。

合合信息的文檔解析技術(shù)為大模型的發(fā)展提供了有力支持,有望推動(dòng)大模型在各行業(yè)的廣泛應(yīng)用,為數(shù)字化轉(zhuǎn)型帶來新的機(jī)遇。

(責(zé)任編輯:郭健東 )

【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn),與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com

看全文
寫評(píng)論已有條評(píng)論跟帖用戶自律公約
提 交還可輸入500

最新評(píng)論

查看剩下100條評(píng)論

熱門閱讀

    和訊特稿

      推薦閱讀

        武邑县| 额济纳旗| 沈阳市| 昌乐县| 信阳市| 于都县| 始兴县| 桃园县| 鸡东县| 郑州市| 剑河县| 突泉县| 宜丰县| 河曲县| 浮梁县| 荆州市| 揭东县| 始兴县| 凤阳县| 曲阜市| 龙门县| 垫江县| 镇江市| 铁岭市| 泰来县| 鸡西市| 磴口县| 广德县| 德阳市| 大兴区| 洛南县| 乌拉特前旗| 剑河县| 毕节市| 黑龙江省| 格尔木市| 增城市| 吉木萨尔县| 青河县| 炉霍县| 余江县|