亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

基于預訓練模型的非結構化文檔智能化處理

  文/師謙 泰康養(yǎng)老保險股份有限公司

  摘要:企業(yè)日常運營中頻繁面臨非結構化數(shù)據(jù)的檢索、編輯與分析工作,在文檔整理、內容比對、報告撰寫等方面耗費大量人力成本。本文以職業(yè)年金信息披露處理的典型應用場景為例,梳理了對多數(shù)據(jù)源復雜非結構化文檔的數(shù)據(jù)抽取、比對中面臨的挑戰(zhàn)與困難,對比分析了機器人流程自動化(robotic process automation,RPA)和預訓練模型兩種解決方式,闡述了基于預訓練模型的方案設計實現(xiàn)及優(yōu)勢。通過預訓練模型,極大地提高了非結構化文檔智能化處理水平。

  關鍵詞:非結構化文檔;自然語言處理;預訓練模型;機器學習

  引言

  在企業(yè)日常運營產(chǎn)生的數(shù)據(jù)中,非結構化數(shù)據(jù)占企業(yè)數(shù)據(jù)總量的80%[1]。員工日常工作中面臨繁重的非結構化文檔處理任務,由于文檔格式復雜、行文標準不統(tǒng)一,處理過程既困難又耗時,產(chǎn)生了高昂的人力成本和時間成本。

  盡管機器人流程自動化(robotic process automation,RPA)、大模型在文本切片處理方面表現(xiàn)出色,但對于非結構化文檔的數(shù)據(jù)抽取效果卻不盡如人意。例如,文檔中表格出現(xiàn)單元格合并、無邊框、標題行列與內容行列不對應等情況時,識別可能為空或錯誤數(shù)據(jù)。

  筆者團隊以職業(yè)年金信息披露這一典型應用場景為例,詳細闡述了對復雜非結構化文檔的自動化和智能化處理的探索研究。

  1. 職業(yè)年金信息披露應用場景介紹

  職業(yè)年金是為完善機關事業(yè)單位多層次養(yǎng)老保險體系而建立的補充養(yǎng)老保險制度[2]。隨著年金市場化投資運營穩(wěn)步推進,年金基金投資規(guī)模不斷增長。為加強基金監(jiān)管,保障基金安全,要求各基金管理機構加強基金信息報告和信息披露行為[3-4]。

  泰康養(yǎng)老保險股份有限公司(以下簡稱“泰康養(yǎng)老”)作為受托人,須收集來自投資管理人和托管人等管理機構的信息披露報告,進行數(shù)據(jù)比對后形成受托人信息披露報告報送。各機構信息披露報告通常以多種非結構化文檔形式傳遞,在行業(yè)內沿用多年并得到普遍認可。泰康養(yǎng)老雖曾多次嘗試通過數(shù)字化轉型推動信息數(shù)字化報送,但由于行業(yè)慣例根深蒂固,基于非結構化文檔信息交換的方式在短期內難以被完全取代。

  面對日益增長的年金運營規(guī)模,人工信息披露比對暴露出效率低下、易出錯且難以應對復雜多樣數(shù)據(jù)情況等問題。因此,如何在現(xiàn)有情況下,實現(xiàn)對非結構化文檔數(shù)據(jù)的精準抽取與比對,成為提升年金運營效率、保障信息披露質量的關鍵挑戰(zhàn)。

  2. 非結構化文檔處理解決方案探索

  基于以上問題,筆者團隊進行了非結構化文檔智能處理的探索。

  2.1 RPA+DeepSeek

  自動化探索初期,筆者團隊采用“RPA[5]+DeepSeek[6] ”方式嘗試解決數(shù)據(jù)抽取和比對問題。包括以下三個步驟:

 ?。?)表格數(shù)據(jù)抽取。將每個省份的信息披露報告的所有表格標題分別存儲到對應省份列表中,通過PDFplumber.getTable方法找到對應標題下的表格,最后將表格抽取到Excel中,形成各省份的特征表格。

 ?。?)DeepSeek模型學習。將特征表格中抽取的行列標題存儲到對應省份字典中,再將字典結構輸入DeepSeek模型,通過數(shù)據(jù)結構訓練,構建出包含各省份特征的模型庫。

  (3)特征表格數(shù)據(jù)抽取和比對。將源文件傳送給特征模型庫進行數(shù)據(jù)抽取,通過Python編程實現(xiàn)最終的數(shù)據(jù)比對和校驗。

  但此方案仍有以下三個方面的不足:

 ?。?)表格抽取偏移量計算不準確。因無法保證表格最后的單元格為標準格式,如存在合并單元格、插入公式等情況,導致RPA無法準確計算偏移量值,使數(shù)據(jù)抽取丟失。

 ?。?)須手動配置字典庫。如某個省份表格字段發(fā)生變化,須手動更新對應省份字典庫。

  (3)模型訓練效果不理想。因DeepSeek對表格復雜格式學習效果欠佳,無法較好理解表格字段邏輯,所以成功率僅35%。

  2.2 預訓練模型

  預訓練模型是指在大規(guī)模數(shù)據(jù)集上預先訓練的神經(jīng)網(wǎng)絡模型,在自然語言處理(NLP)、圖像識別等領域應用廣泛,常見模型包括循環(huán)神經(jīng)網(wǎng)絡(RNN)、基于 Transformer 的雙向編碼器表征(bidirectional encoder representations from transformers,BERT)模型[7]、詞向量(Word2Vec)模型[8]等。在大規(guī)模數(shù)據(jù)集上,通過某些特定任務進行模型預先訓練。通過預訓練,讓模型學習到數(shù)據(jù)內在結構和規(guī)律,以及語言通用表示。經(jīng)筆者團隊反復實驗及論證,最終采用預訓練模型技術方案進行智能化處理,具體方案及技術見后文。

  3. 非結構化文檔智能處理方案設計

  參照人工信息披露處理流程,基于預訓練模型設計了非結構化文檔智能處理方案,具體設計如下文所述。

  3.1 數(shù)據(jù)輸入與預處理

  (1)支持用戶上傳多種格式的年金信息披露報告文檔。

  (2)自動進行文本清洗和格式標準化。

  3.2 信息抽取

  通過預訓練模型強大的學習能力,自動識別文本中的表格和關鍵信息。系統(tǒng)能處理多樣化及復雜化的表格結構,確保準確抽取所需字段信息。

  3.3 上下文理解與分析

  通過預訓練階段學習到的上下文語義關系,對抽取到的信息進行深入學習與分析,掌握語義之間的邏輯關系。

  3.4 比對結果報告生成與輸出

  將處理后的數(shù)據(jù)比對結果生成結構化報告,支持導出PDF或Excel格式,便于進一步分析。

  4. 預訓練模型關鍵技術分析

  本方案技術難點在于預訓練模型訓練和訓練階段數(shù)據(jù)處理。通過對信息披露報告中表格樣本進行特征抽取和訓練,建立非結構化文檔智能模型,實現(xiàn)對各種復雜、動態(tài)表格數(shù)據(jù)的精準抽取,完成數(shù)據(jù)比對(如圖1所示),具體分為三個步驟。

  (1)表格切片。以表格為中心進行切割,將表格拆分為“表格標題”“列標題”“行標題”和“數(shù)據(jù)區(qū)域”。

 ?。?)模型訓練。根據(jù)拆分后的表格切片確定字段和數(shù)據(jù)抽取的模型和算法,通過TensorFlow[9]進行模型訓練,生成對應表格模型。

 ?。?)數(shù)據(jù)提取。將不同表格樣本數(shù)據(jù)輸入對應表格訓練模型,抽取所有字段數(shù)據(jù)。

  下面分別闡述各環(huán)節(jié)中涉及的相關技術。

  4.1 表格切片

  切片時文本中存在各種特殊情況,會產(chǎn)生大量噪聲干擾,對數(shù)據(jù)準確抽取與比對有很大影響。實踐中筆者團隊遇到的情況包括表格標題位置差異、表格格式復雜多樣、相似度文本識別等。

  (1)表格標題位置差異。源文件標題位置和標準文件中位置不一致,無法通過默認標題位置找到對應數(shù)據(jù)。

  (2)表格格式復雜多樣。第一,表格標題、行列分布等特征結構繁多,如表格標題在表格內層、表格外層等。第二,同一實體在不同報告中存在差異,包括標題、表格字段、基金名稱等。第三,部分省份接收到的報告規(guī)范化較差,存在連體表格、隱藏目錄等情況。

  (3)相似度文本識別。實際樣本數(shù)據(jù)中存在大量相似度文本,如“受托戶凈資產(chǎn)變動表、受托財產(chǎn)資產(chǎn)變動表”“占凈資產(chǎn)比例(%)、占組合凈資產(chǎn)比例(%)”等,極易被解析為同義詞。

  為減少文本數(shù)據(jù)干擾,確保表格切片準確度,筆者團隊進行了文本降噪和相似度處理的研究和解決。筆者團隊采用自然語言處理(NLP)工具SpaCy和NLTK雙模型降噪方法,對兩種模型降噪結果進行比對,取交集,提高可信度,減少因降噪帶來的誤差。

  4.1.1 SpaCy模型

  第一,分詞階段。使用分界符(表格中特定的標點符號)初始化分詞器,切分原始文本,獲得單獨token。例如,將“定期存款/協(xié)議存款”進行分詞,剔除分隔符,轉換成“定期存款”“協(xié)議存款”。

  第二,模式匹配階段。將上一步得到的分詞,建立parten(要進行匹配的短語模式列表)在文中查找符合各自模式的短語。

  第三,將短語中的分詞進行詞性標注,構建具有年金信息披露特征的語料庫,用于模型訓練。

  第四,將訓練好的模型應用于全部樣本,最終查找出符合匹配規(guī)則的對象。

  4.1.2 NLTK模型

  第一,分詞。使用NLTK模型中的函數(shù)work_tokenize將樣本切割成單詞。

  第二,降噪。采用停用詞庫篩選掉分詞后的無意義詞語。

  第三,標注詞性。為分詞的每個單詞標注詞性,建立單詞、單詞屬性映射表。

  第四,使用正則表達式定義簡單的語法規(guī)則來表示名詞短語,NP表示名詞短語,NN表示名詞。

  第五,使用解析器對標注后的文本進行解析,并抽取出符合語法規(guī)則的短語。

  NLTK模型是SpaCy模型的有效補充,能有效提高文本分詞精準度。通過使用兩種降噪方法,模型能更準確地理解和處理信息,實現(xiàn)了100%精確匹配。

  另外,筆者團隊采用基于NLP文本相似度處理技術,解決相似度文本問題。例如,對于“受托戶凈資產(chǎn)變動表、受托財產(chǎn)資產(chǎn)變動表”,通常模型處理時會產(chǎn)生幻覺問題,容易把這類相似度文本理解為同義詞,造成數(shù)據(jù)抽取混亂。

  為解決這個問題,筆者團隊采用詞嵌入方法,通過預訓練詞向量(Word2Vec)模型加載詞向量,構建高維空間,并將每個短語映射到高維空間中,通過余弦相似度方法計算出兩個文本的相似度。以“資產(chǎn)”“受托戶”“凈資產(chǎn)”“受托資產(chǎn)”“受托組合”為例,在分詞設計中,每個分詞按照7D維度張量解釋,最后通過余弦相似度找到分詞間的差異。如圖2所示,可以看出分詞向量點之間的距離差異,從而實現(xiàn)分詞之間相似度匹配。

  圖2 余弦相似度分析結果

  4.2 模型訓練及數(shù)據(jù)提取

  筆者團隊在TensorFlow中使用卷積神經(jīng)網(wǎng)絡[10]實現(xiàn)表格特征信息抽取,為本方案核心技術。具體包括以下步驟。

  4.2.1 特征表格分析

  通過對各省份樣本數(shù)據(jù)分析,歸結出不同類型的表格情況,抽取表格特征包括:表格標題位置;行、列標題位置;列標題位置;數(shù)據(jù)起始、終止位置。

  4.2.2 設計卷積神經(jīng)網(wǎng)絡結構

  設計卷積神經(jīng)網(wǎng)絡結構用于提取上述表格特征。本模型由兩個卷積層、兩個池化層以及兩個全連接層組成,激活函數(shù)使用常見的ReLU函數(shù)。

 ?。?)模型輸入是一個32×32×64張量,分別為行列標題、數(shù)據(jù)區(qū)域。

 ?。?)卷積層。第一層應用32個過濾器用于提取表格基本特征。隨著網(wǎng)絡加深,特征圖空間維度逐漸減少,特征數(shù)量逐漸增加;第二層卷積采用64個過濾器。

  (3)根據(jù)輸入數(shù)據(jù)特征,兩個池化層均采用最大池化層,可更好地保留顯著特征。

  (4)在神經(jīng)網(wǎng)絡最后放置兩個全連接層配合ReLU函數(shù)對結果進行分類并輸出。

  4.2.3 模型實現(xiàn)

  用Sequential()函數(shù)類定義表格特征模型,并用add()函數(shù)將每層神經(jīng)網(wǎng)絡添加到模型中,最后通過summary()函數(shù)得到整體模型架構,如圖3所示。模型中包含每一層類型、特征形態(tài)、訓練參數(shù)總數(shù)的全部信息。

  最終經(jīng)過各省份樣本數(shù)據(jù)的模型訓練,通過show_curve()輔助函數(shù)繪制模型訓練后的數(shù)據(jù)準確度、精準度(如圖4所示)。當模型訓練樣本數(shù)據(jù)不足5個時,訓練準確度和精度已達到68%。隨著樣本數(shù)據(jù)增加到80%,模型準確率接近95%,從而驗證了預訓練模型的有效性。

  圖4 模型訓練準確度圖

  4.2.4 數(shù)據(jù)提取

  模型訓練確定后,對所有樣本數(shù)據(jù)進行切片,逐一輸入模型,根據(jù)模型特征找到對應的解析算法,完成數(shù)據(jù)提取。

  最后,筆者團隊將預訓練模型的識別準確度與“RPA+DeepSeek”進行了效果對比,如表1所示,預訓練模型對表格特殊類型的識別成功率均明顯高于“RPA+DeepSeek”。

  5. 進化方向

  由于當前案例場景獲取的樣本數(shù)據(jù)有限,模型訓練還有較多需完善和優(yōu)化的空間。筆者團隊下階段主要聚焦預訓練模型降噪能力的提升和改進。

  5.1 增強模型降噪能力

  當前各省文檔存在較多噪聲干擾,部分嚴重噪點須通過手工預處理才可提交模型解析。

  5.2 建立定制化預訓練模型

  增加更多維度文檔特征,如隱藏數(shù)據(jù)、表格錯位、連體表格等特征,按省份建立定制化預訓練模型,進一步減少手工干預,提升智能化和效率。

  最終,通過持續(xù)科學嚴謹?shù)哪P蛢?yōu)化,實現(xiàn)對非結構化文檔數(shù)據(jù)提取和比對的端到端全流程智能化操作。

  結語

  本文選擇采用年金信息披露數(shù)據(jù)比對這一典型復雜場景,來進行技術方案的實驗和研究,結果表明能大幅提高數(shù)據(jù)提取準確度。除此之外,該技術在政府機構、企事業(yè)單位、金融機構等擁有大量非結構化文檔數(shù)據(jù)的組織中也有廣泛應用場景,并可與其他技術結合,拓展應用場景。例如,結合圖形圖像處理技術、模型訓練和自然語言處理工具,可應用于智能問答語料的切片處理、標書編寫、機構年報編寫等場景,顯著提高作業(yè)效率、降低人工成本、提升數(shù)據(jù)處理準確性,也可應用于非結構化文檔的數(shù)據(jù)治理,賦能數(shù)據(jù)價值的挖掘和實現(xiàn)。

  參考文獻:

  [1]中國新聞網(wǎng).電子標準院-鴻翼非結構化數(shù)據(jù)管理解決方案聯(lián)合實驗室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.

  [2]國務院辦公廳.國務院辦公廳關于印發(fā)機關事業(yè)單位職業(yè)年金辦法的通知(國辦發(fā)〔2015〕18號)[EB/OL].(2015-04-06)[2025-03-20].https://www.gov.cn/zhengce/content/2015-04/06/content_9581.htm.

  [3]人社部 財政部印發(fā)職業(yè)年金基金管理暫行辦法(人社部發(fā)〔2016〕92號)[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.

  [4]工商銀行.《職業(yè)年金基金信息報告和信息披露暫行辦法》(人社廳發(fā)〔2019〕120號)[EB/OL].https://icbc.com.cn/page/721852693214953512.html.

  [5]廖萬里.金融行業(yè)企業(yè)級RPA案例分析[J].金融科技時代,2021,29(7):32-34.

  [6]Bi X,Chen DL,Chen GT,et al.DeepSeek LLM: Scaling Open-Source Language Models with Longtermism[EB/OL].(2024-01-05)[2025-03-20].https://arxiv.org/abs/2401.02954.

  [7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.[EB/OL].(2018-10-11)[2025-03-20].https://arxiv.org/abs/1810.04805.

  [8]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[EB/OL].(2013-01-16)[2025-03-20].https://arxiv.org/abs/1301.3781.

  [9]Abadi M,Agarwal A,Barham P,et al.TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03-20].https://arxiv.org/abs/1603.04467.

  [10]Fukushima, K.Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202.

  作者簡介:師謙,碩士研究生,277525428@qq.com,研究方向:智能化處理技術。

關注讀覽天下微信, 100萬篇深度好文, 等你來看……