一、傳統(tǒng)數(shù)據(jù)治理之痛
隨著數(shù)據(jù)治理2.0時代的來臨,傳統(tǒng)人工及半自動化手段進(jìn)行的數(shù)據(jù)資源盤點,在日益復(fù)雜的數(shù)據(jù)環(huán)境中暴露出諸多痛點,嚴(yán)重制約了數(shù)據(jù)價值的釋放和治理效率的提高,同時也加劇了成本和風(fēng)險的上升,具體表現(xiàn)為:
(1)效率低下、耗時費力
高度依賴人工搜索、識別、記錄數(shù)據(jù)源和元數(shù)據(jù),線下盤點的成果難以快速轉(zhuǎn)化為線上成果,過程繁瑣,一次全面盤點可能需要數(shù)月甚至更長時間,難以頻繁進(jìn)行,資源消耗大。
(2)深度不足、洞察有限
元數(shù)據(jù)管理通常只記錄表名、字段名、數(shù)據(jù)類型等基礎(chǔ)技術(shù)元數(shù)據(jù),缺乏對數(shù)據(jù)內(nèi)容、業(yè)務(wù)語義、敏感信息、數(shù)據(jù)質(zhì)量、價值的深入理解和記錄。
(3)準(zhǔn)確性差、質(zhì)量不高
數(shù)據(jù)環(huán)境(如數(shù)據(jù)結(jié)構(gòu)、含義)瞬息萬變,人工盤點維護(hù)的元數(shù)據(jù)和目錄極易過時,失去參考價值,人工記錄元數(shù)據(jù)易出錯或不一致。
二、智能體自動駕駛之路
為突破傳統(tǒng)數(shù)據(jù)治理的能力局限,三維天地基于公司SunwayLink智能體開發(fā)平臺,構(gòu)建了數(shù)據(jù)資源盤點智能體。該智能體能夠?qū)崿F(xiàn)數(shù)據(jù)目錄的自動生成、數(shù)據(jù)內(nèi)容的智能洞察以及元數(shù)據(jù)的智能更新,有效推動數(shù)據(jù)治理模式從“人治”向“智治”轉(zhuǎn)變,顯著提升了數(shù)據(jù)治理的自動化和智能化水平。
(1)數(shù)據(jù)目錄自動生成
基于采集的元數(shù)據(jù)和線下完成的數(shù)據(jù)資源盤點成果文件(如調(diào)研報告),自動從調(diào)研報告中自動提取關(guān)鍵要素,快速生成數(shù)據(jù)資源目錄,從而顯著縮短盤點周期、降低人工成本,幫助企業(yè)精準(zhǔn)掌握數(shù)據(jù)資產(chǎn)現(xiàn)狀。
(2)數(shù)據(jù)內(nèi)容智能洞察
利用NLP和LLM技術(shù)自動推斷字段的業(yè)務(wù)含義(語義標(biāo)簽)、識別敏感數(shù)據(jù)類型、識別數(shù)據(jù)域(客戶、產(chǎn)品、財務(wù)等)、發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題(空值、異常值模式),自動生成或豐富業(yè)務(wù)術(shù)語描述,自動解析數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)含義、血緣關(guān)系,豐富了數(shù)據(jù)資源盤點的成果。
(3)元數(shù)據(jù)智能更新
監(jiān)控元數(shù)據(jù)變更、數(shù)據(jù)分布變化,自動檢測元數(shù)據(jù)缺失、不一致、過時等問題,并能根據(jù)AI建議自動更新元數(shù)據(jù)或觸發(fā)告警,保障技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)的一致性,提升元數(shù)據(jù)的準(zhǔn)確性和鮮活度。
三、智能體實現(xiàn)之路
(1)文本解析與內(nèi)容生成
提取非結(jié)構(gòu)化文檔內(nèi)容信息,識別文字、圖片、表格,進(jìn)行文本內(nèi)容解析,基于自然語言指令,按照特定模板和格式,進(jìn)行內(nèi)容總結(jié)和提煉,自動生成數(shù)據(jù)資源目錄結(jié)構(gòu)。
(2)語義理解和關(guān)系解析
利用NLP自動識別數(shù)據(jù)結(jié)構(gòu)、理解代碼邏輯以提取更豐富的技術(shù)元數(shù)據(jù)(表、列、視圖、存儲過程、作業(yè)依賴)和初步的業(yè)務(wù)上下文(如注釋),進(jìn)行內(nèi)容解析,補全業(yè)務(wù)元數(shù)據(jù)信息,自動生成數(shù)據(jù)血緣關(guān)系。
(3)異常檢測和動態(tài)更新
監(jiān)聽數(shù)據(jù)源元數(shù)據(jù)信息,基于LLM對元數(shù)據(jù)結(jié)構(gòu)變更、配置變更、語義變更進(jìn)行異常掃描,識別元數(shù)據(jù)變更點,對變更的元數(shù)據(jù)進(jìn)行自動更新并觸發(fā)預(yù)警。
四、智能體的應(yīng)用價值
以某軍工單位為例,在落地該智能體后:
(1)盤點周期縮短 :將單個業(yè)務(wù)域的數(shù)據(jù)資源盤點時間縮短60%以上,減少數(shù)據(jù)工程師、業(yè)務(wù)專家手動收集、清洗、記錄元數(shù)據(jù)的工作量,人工參與小時數(shù)下降70%。
(2)元數(shù)據(jù)豐富度提升 :字段級業(yè)務(wù)語義標(biāo)簽、敏感數(shù)據(jù)標(biāo)識、質(zhì)量規(guī)則的自動填充率從20%上升到85%。
(3)數(shù)據(jù)發(fā)現(xiàn)效率提升 :業(yè)務(wù)用戶找到所需數(shù)據(jù)的平均耗時大幅下降。
(4)血緣覆蓋率提升 :自動構(gòu)建的血緣鏈路覆蓋關(guān)鍵數(shù)據(jù)鏈路的比例從10%提升到75%。
(5)自動化覆蓋率提升 :智能體自動完成的任務(wù)步驟占比(發(fā)現(xiàn)、采集、解析、分類、血緣追蹤等)占比提升至80%以上。
數(shù)據(jù)資源盤點是數(shù)據(jù)治理中至關(guān)重要的一環(huán)。智能體不僅是技術(shù)能力的升級,更是企業(yè)管理范式的深刻變革?;赟unwayLink構(gòu)建的數(shù)據(jù)資源盤點智能體,正通過端到端的自動化和智能化水平提升,加速企業(yè)數(shù)據(jù)治理進(jìn)程,有力助推企業(yè)數(shù)字化轉(zhuǎn)型成功。
相關(guān)稿件