福建省数据管理局


(福建省数字福建建设领导小组办公室)

数字经济 | 智能标注闭环体系重塑 AI数据工程
时间:2025-12-22 15:17
  “十四五”时期,数字福建建设深耕细作、硕果盈枝。在数字经济、数字政府、城市治理、民生服务等领域打造了一批具有福建特色的标杆案例。这些案例不仅破解了群众急难愁盼的现实问题,更以技术创新、机制革新为核心,多项成果跻身全国前列。本专栏精选的典型案例,系统展现数字福建建设的创新实践与惠民成效,是全省上下协同推进数字化转型的生动缩影,为“十五五”时期数字福建高质量发展积蓄经验、凝聚力量。期待这些鲜活案例能发挥示范引领作用,推动数字变革红利惠及更多领域、更多群众。

  一、整体情况

  为解决数据标注工程师标注效率差、质量低等问题,福州数据集团有限公司通过构建智能化数据标注体系,标注数据反哺模型训练,10分钟即可完成一天标注工作量,实现标注效率提升超百倍,关键领域标注准确率突破95%,处理周期缩短90%,降低标注成本,为人工智能产业提供高质量数据支撑。标注高质量语料超300T,服务企业超400家。

图1整体框架图

  二、主要做法

  一是全流程、自动化、多模态、零基础标注。建立“AI初标—专家校准—模型迭代”三级作业体系,50多种数据格式,覆盖文本、图视频、语音全模态。建立全链路标注平台,从数据整理、人工预处理、手工标注、人工审查简化为上传数据、抽样校验,业务人员可一键开启数据标注,效率提升80%。

  二是支撑多场景应用创新。在智慧政务场景,通过标注海量政务非结构化数据,构建政务语料,10多个政府部门数据自动化进行从数据到算据语料标注,覆盖12345、公安、民政、医疗等场景。在公共教育场景,自动解析教案文本,标注知识点关联关系,形成可追溯教学逻辑链;同步标注PPT中文本、公式、图示元素,建立课件组件复用库,教师备课素材获取时间缩短70%;运用大模型及NLP技术标注试题对应课标条目,构建千万级试题—知识点关联数据库,提升组卷匹配精度。在工业制造场景,通过大规模语料自动标注,自动识别生产制造中的技术要求、作业中的隐性知识及关键参数,构建工业知识图谱;通过标注百万级设备记录,构建工业维修语料,建立“故障现象—查找原因—解决方案”流程,提升故障诊断准确率,缩短平均维修决策时间。

  三是确保标注数据安全。采用数据加密、屏幕水印等技术确保数据隐私安全,通过标注数据回流优化模型性能,形成“数据标注—模型迭代—业务赋能”闭环生态,解决传统人工标注效率低、误差率高、隐私风险大等痛点。

  三、特色亮点

  一是具备强大标注能力。通过大量、丰富且类型多样的高质量训练数据,构建基于AI的标注体系;通过“预训练—标注—回流”技术闭环,打破传统单一模态标注局限性。

图2智能标注闭环体系图

  二是支撑AI算力建设。构建覆盖数据治理、智能标注、价值释放的全产业级数据中枢,支撑国家级AI算力网络建设。

  三是构建产业协同生态。建立标注动态优化机制,构建“标注工具链—数据服务商—模型开发商”赋能体系,打通行业数据孤岛,进一步提升模型性能。

  四、应用成效

  通过建立标注数据反哺模型训练的闭环工作机制,有效推动人工智能产业发展实现三大突破性成效::一是效率革命性跃升,单日标注工作量压缩至10分钟内完成,整体效率提升超百倍;二是质量精准突破,重点领域标注准确率突破95%;三是周期成本双优化,处理时效提升90%的同时标注成本显著下降。该体系已累计产出高质量标注语料超300TB,为400余家企业提供智能升级数据底座,有效支撑人工智能产业高质量发展。

  在支撑多场景应用创新方面:在智慧政务场景,通过标注海量政务非结构化数据,构建政务语料,10多个政府部门数据自动化进行从数据到高质量数据集、语料库,覆盖12345、公安、民政、医疗等场景。在公共教育场景,自动解析教案文本,标注知识点关联关系,形成可追溯教学逻辑链;同步标注PPT中文本、公式、图示元素,建立课件组件复用库,教师备课素材获取时间缩短70%;运用大模型及NLP技术标注试题对应课标条目,构建千万级试题与知识点关联的数据库,提升组卷匹配精度。在工业制造场景,通过大规模语料自动标注,自动识别生产制造中的技术要求、作业中的隐性知识及关键参数,构建工业知识图谱;通过标注百万级设备记录,构建工业维修语料,建立“故障现象一查找原因一解决方案“流程,提升故障诊断准确率,缩短平均维修决策时间。

  (由福州市数据管理局推荐)

来源:福建省发展和改革委员会网站
附件下载

扫一扫在手机上查看当前页面

相关链接