职贝云数AI新零售门户
标题:
别再为数据标准吵架了!用AI大模型协同制定并自动化检查数据标准
[打印本页]
作者:
ebE3N
时间:
4 小时前
标题:
别再为数据标准吵架了!用AI大模型协同制定并自动化检查数据标准
在数据管理范畴,有一个经典的“笑话”:
“我们闭会讨论‘客户称号’这个字段到底叫CUST_NAME还是CUSTOMER_NAME,吵了三个月。最后项目延期,老板说,你们先用着,当前再一致。”
这不只是笑话,这是每天发生在有数企业的真实悲剧。数据标准化的过程,往往伴随着无休止的撕扯、妥协和最终的烂尾。
明天,我不想讲那些虚头巴脑的实际,只想聊聊我们团队在过去半年里,如何尝试应用AI大模型,把这场旷日持久的“标准拉锯战”变成一场高效的“协同共创会”,并最终完成了标准的自动化落地检查。
一、 传统形式的阵痛:我们到底在为什么吵架?
在引入AI之前,我们制定数据标准通常遵照“瀑布流”:
业务提需求:业务部门说,我需求这个字段。标准组定稿:数据管理委员会闭会,翻看《GB/T 某标准》或《金融行业数据字典》。技术部落地:开发人员看着厚厚的Word文档,凭感觉建表。吵架/返工:数仓开发说字段长度不够,报表开发说枚举值对不上。
反思1:吵架的核心不是“标准”,而是“语境”
业务人员说“创建工夫”,指的是“订单生成的工夫”。技术人员说“创建工夫”,指的是“数据库记录插入的工夫”。分析师说“创建工夫”,指的是“用户初次点击下单按钮的工夫”。 同一个词,三种语境。传统的标准文档(Excel/Word)是静态的,无法承载这种多维度的语义。当标准文档扔给开发时,语境丢失,冲突便由此产生。
二、 AI带来的转机:从“裁判”变“翻译”
我们看法到,不能再靠几个“标准委员”闭门造车。我们需求一个工具,能了解一切人的话,并翻译成一种通用言语。我们选择了开源大模型+企业知识库的道路。
案例1:用AI协同制定“会员等级”标准
背景:市场部、运营部、CRM系统、数据中台对“会员等级”的定义完全不分歧(有的用数字1-5,有的用文字“钻石”“黄金”,有的用字母A/B/C)。
传统闭会场景: PM拿着PPT:“我们定义V01代表普通会员,V02代表白银...” 运营总监打断:“我们习气叫Level_1,改了系统要重构!” 争持半小时,无果。
AI协同制定流程:
我们设计了一个“AI掌管的标准共创会”流程:
详细体验:
需求导入:我把市场部的PPT、运营的Excel、CRM的数据库建表语句(DDL)统统扔给大模型(经过API)。AI解析:模型不只提取了字段名,还提取了背后的逻辑。例如,它发现市场部的PPT里写着“钻石会员:年消费10万以上”,而CRM的建表语句里有一个字段 VIP_LEVEL,枚举值有 DIA。AI提议:模型自动生成了一个建议标准:
标准称号:member_level_cd (会员等级代码)数据类型:STRING(10)业务定义:基于会员年度消费金额划分的身份标识。枚举值建议:PLATINUM, GOLD, SILVER, DIAMOND (注:AI根据出现频率建议保留DIAMOND)映射关系:CRM的DIA -> 标准DIAMOND;市场部的“钻石会员” -> 标准DIAMOND。
效果: 当我们把这份AI生成的草案发给业务和技术看时,大家第一次不再吵架,而是末尾讨论:“AI提炼的这几个维度挺全,但我建议把DIAMOND改成DIA,由于现有系统存量数据太多。”
这就是协同——AI提供了“最大公约数”,人类担任基于理想约束做“微调”。
三、 自动化检查:把标准“写进代码里”
标准定完了,以前最头疼的是落地。通常要派人去数仓里翻表,或者指望开发自觉遵守。如今我们完成了 “Pipeline as a Standard”。
案例2:实时阻拦“脏数据”
我们将最终发布的数据标准,经过AI转化成了机器可读的规则文件(例如:JSON Schema或SQL断言)。
自动化检查流程可视化:
(, 下载次数: 0)
上传
点击文件名下载附件
真实体验: 上周,某运用开发同窗在表中新增了一个字段 order_status,并定义了新枚举值 P9(表示“已退款”)。在提交代码合并央求(MR)时,我们的AI检查引擎自动运转:
发现成绩:在“订单形态”标准中,P 扫尾的代码是预留给“支付中”形态的(P0-P3),P9 不符合枚举值前缀规范。AI干涉:机器人自动在代码评论区留言:“检测到枚举值 P9 不符合标准(标准允许前缀:I-初始化,P-支付中,S-成功,F-失败)。根据上下文语义,建议修正为 F-REFUND(退款失败)或 S-REFUND(退款成功),请确认。”结果:开发同窗看到后,恍然大悟,修正了代码,避免了后期数据污染。
反思2:AI不是万能的,但它是“极好的杠精”AI检查虽然准,但也曾引发过“误杀”。有一次,业务需求暂时接入一个外部数据源,字段名全是乱码(如 fld_2893hjd)。AI引擎直接回绝了入库,理由是“字段名不符合可读性标准”。 这引发了我们的新思索:标准需求柔性。后来我们调整了策略,允许“暂时表”绕过命名检查,但强迫要求数据血缘追踪,并在三天后由AI提示业务方完成标准化映射。
四、 给同行们的详细建议
1. 别一末尾就想“大一统”
错误做法:把一切历史数据都灌给AI,让它生成一套终极企业标准。正确做法:场景驱动。选择冲突最激烈的范畴切入,比如“客户主数据”或“订单形态”。先让AI帮几个吵架的部门把标准定了,尝到甜头再铺开。
2. 把“词根表”喂给AI做训练
假如你的企业曾经有了一些不成文的命名规范(例如:一切布尔值字段必须以 is_ 或 flg_ 扫尾),务必整理成词根表喂给大模型(放在Prompt里或做RAG检索)。这能极大提升AI生成标准的准确性。否则AI会天马行空,给你造出各种美丽的英文单词,但开发看不懂。
3. 流程上要做“人工确认闭环”
如图所示,AI永远只能出草案。必须有一个人工确认的按钮。这不只是为了准确,更是为了责任归属。假如AI定的标准出了成绩,谁担任?所以,最后确认的人,必须是业务或数据 owner。
4. 自动化检查要嵌入“开发环境”
不要把检查工具做成一个每周跑一次的离线报表,没人看的。要把它做成像代码语法检查器一样,在开发写代码的瞬间(IDE插件)、在提交代码的时分(Git Hooks)、在发布上线前(CI/CD流水线) 就发挥作用。痛点在哪儿,工具就放哪儿。
五、 总结
用了AI大模型之后,我们数据管理组的角色变了。我们不再是拿着鞭子抽着大家改字段名的“数据警察”,而是变成了训练AI、优化规则、处理异常的“引导者”。
虽然如今的AI偶然还会给出一些离谱的建议(比如建议把手机号字段长度设为11位,却忘了思索国际区号),但它至少让团队从无休止的争持中摆脱出来,把精神聚焦在了真正有价值的业务讨论上。
数据标准的将来,不是一本死板的字典,而是一个由AI驱动、持续退化、与代码同生共存的“语义网络”。 别再为那些鸡毛蒜皮的命名吵架了,让AI去处理这些琐事,我们去思索数据背后的业务价值吧。
(, 下载次数: 0)
上传
点击文件名下载附件
Tips:数据仓库/数据建模/数据开发/数据体系&目的体系&标签体系&数据仓库&平台架构&数据管理/主数据/元数据/数据标准/数据资产/数字化/处理方案/行业报告/建设方案/数据中台/大数据平台/架构等⏬
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5