雲知聲(09678)U1-OCR架構範式升級 開放標準化API 重構OCR 3.0時代
時間:2026-04-21 12:04:29
雲知聲
智通財經APP獲悉,雲知聲(09678)於2月26日發佈首個工業級文檔智能基礎大模型Unisound U1-OCR,開啓了OCR 3.0時代,為後續U1-OCR系列模型的迭代升級奠定了堅實基礎。今天(4月21日),歷經底層架構重構與海量真實場景打磨,雲知聲U1-OCR能力實現再度進化,推出系列模型。同時,該模型同步全量上線雲知聲Token Hub大模型服務平台,開放標準化API,支持一鍵接入、按需調用,採用Token計費模式,大幅降低企業接入成本與部署門檻,讓OCR 3.0時代的文檔智能能力惠及更多行業。
雲知聲U1-OCR架構範式升級,拋棄傳統NMS,用統一結構精修解決級聯誤差,複雜版面解析質的飛躍。技術實力經權威認證,公司多篇核心論文入選ACL2026,雙權威數據集登頂,性能可驗可追溯。此外,行業全場景適配,支持金融、醫療、教育、交通等複雜文檔處理,結構理解+順序恢復一步到位。
複雜文檔解析的典型難點在於,結構信息未被穩定整理,難以高效交付給下游模塊。U1-OCR的目標遠不只是“把文字識別出來”,更要切實解決複雜文檔頁面中的結構理解與閲讀順序恢復難題。針對這一行業普遍存在的問題,雲知聲在U1-OCR中採用了面向複雜文檔場景的解析設計,從本質上可拆解為兩個核心子任務:一是結構識別,即判斷頁面中每個區域的內容類型、確定需保留的區域;二是順序推理,即規劃保留區域的合理閲讀路徑。
圍繞這兩個任務設計專屬關鍵技術,U1-OCR不僅在多個公開權威數據集上取得了領先成績,更為真實業務場景中最容易被忽略的檢測器與解析器交接環節(detector-to-parserhandoff),提供了更穩定、更可靠的處理方式。
實驗結果同樣表明,在結構更復雜、佈局變化更豐富的頁面中,U1-OCR模型矩陣能更高效地處理區域邊界判定、類別區分與整體結構恢復問題,精準實現“將競爭候選假設穩定為解析器可用結構輸入”的設計目標。
這也意味着,文檔解析正從單純的OCR文字識別,升級為更貼合真實業務需求的文檔理解能力。此次U1-OCR全量上線雲知聲TokenHub大模型服務平台,同步開放標準化API和一鍵調用功能,將進一步降低文檔智能技術的使用門檻,為醫療、交通、金融、教育等多個行業,提供高效、精準的文檔解析服務,助力各行業順利實現數字化轉型升級。
免責聲明:本資訊不構成建議或操作邀約,市場有風險,投資需謹慎!


