云知声(09678)U1-OCR架构范式升级 开放标准化API 重构OCR 3.0时代
时间:2026-04-21 12:04:29
云知声
智通财经APP获悉,云知声(09678)于2月26日发布首个工业级文档智能基础大模型Unisound U1-OCR,开启了OCR 3.0时代,为后续U1-OCR系列模型的迭代升级奠定了坚实基础。今天(4月21日),历经底层架构重构与海量真实场景打磨,云知声U1-OCR能力实现再度进化,推出系列模型。同时,该模型同步全量上线云知声Token Hub大模型服务平台,开放标准化API,支持一键接入、按需调用,采用Token计费模式,大幅降低企业接入成本与部署门槛,让OCR 3.0时代的文档智能能力惠及更多行业。
云知声U1-OCR架构范式升级,抛弃传统NMS,用统一结构精修解决级联误差,复杂版面解析质的飞跃。技术实力经权威认证,公司多篇核心论文入选ACL2026,双权威数据集登顶,性能可验可追溯。此外,行业全场景适配,支持金融、医疗、教育、交通等复杂文档处理,结构理解+顺序恢复一步到位。
复杂文档解析的典型难点在于,结构信息未被稳定整理,难以高效交付给下游模块。U1-OCR的目标远不只是“把文字识别出来”,更要切实解决复杂文档页面中的结构理解与阅读顺序恢复难题。针对这一行业普遍存在的问题,云知声在U1-OCR中采用了面向复杂文档场景的解析设计,从本质上可拆解为两个核心子任务:一是结构识别,即判断页面中每个区域的内容类型、确定需保留的区域;二是顺序推理,即规划保留区域的合理阅读路径。
围绕这两个任务设计专属关键技术,U1-OCR不仅在多个公开权威数据集上取得了领先成绩,更为真实业务场景中最容易被忽略的检测器与解析器交接环节(detector-to-parserhandoff),提供了更稳定、更可靠的处理方式。
实验结果同样表明,在结构更复杂、布局变化更丰富的页面中,U1-OCR模型矩阵能更高效地处理区域边界判定、类别区分与整体结构恢复问题,精准实现“将竞争候选假设稳定为解析器可用结构输入”的设计目标。
这也意味着,文档解析正从单纯的OCR文字识别,升级为更贴合真实业务需求的文档理解能力。此次U1-OCR全量上线云知声TokenHub大模型服务平台,同步开放标准化API和一键调用功能,将进一步降低文档智能技术的使用门槛,为医疗、交通、金融、教育等多个行业,提供高效、精准的文档解析服务,助力各行业顺利实现数字化转型升级。
免责声明:本资讯不构成建议或操作邀约,市场有风险,投资需谨慎!


