开启左侧

别再为数据标准吵架了!用AI大模型协同制定并自动化检查数据标准

[复制链接]
在线会员 ebE3N 发表于 4 小时前 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录


正在数据办理范围,有一个典范的“见笑”:

“咱们休会会商‘客户称呼’那个字段终归嚷CUST_NAME仍是CUSTOMER_NAME,吵了三个月。最初名目脱期,老板道,您们先用着,目前再分歧。”

那不但是见笑,那是天天发作正在无数企业的实在喜剧 。数据尺度化的历程,常常陪伴着无停止的撕扯、让步战终极的烂尾。

来日诰日,尔没有念道这些实头巴脑的实践,只念聊聊咱们团队正在已往半年里,怎样测验考试使用AI年夜模子,把那场昙花一现的“尺度推锯战”酿成一场下效的“配合同创会”,并终极完毕了尺度的主动化降天查抄。
1、 保守情势的阵痛:咱们终归正在为何打骂?

正在引进AI以前,咱们订定数据尺度凡是依照“瀑布流”:
    营业提需要:营业部分道,尔需要那个字段。尺度组定稿:数据办理委员会休会,翻瞅《GB/T 某尺度》或者《金融止业数据字典》。手艺部降天:开辟职员瞅着薄薄的Word文档,凭觉得修表。打骂/返工:数仓开辟道字段少度不敷,报表开辟道列举值对于没有上。

深思1:打骂的中心没有是“尺度”,而是“语境”
    营业职员道“创立时间”,指的是“定单天生的时间”。手艺职员道“创立时间”,指的是“数据库记载拔出 的时间”。阐发师道“创立时间”,指的是“用户初度面打下单按钮的时间”。 统一个词汇,三种语境。保守的尺度文档(Excel/Word)是固态的,没法装载这类多维度的语义。当尺度文档扔给开辟时,语境丧失,抵触就由此发生。
2、 AI戴去的起色:从“裁判”变“翻译”

咱们观点到,不克不及再靠多少个“尺度委员”凭空杜撰。咱们需要一个东西,能理解统统人的话,并翻译成一种通用语言。咱们挑选了启源年夜模子+企业常识库的门路。
案例1:用AI配合订定“会员品级”尺度

布景:商场部、经营部、CRM体系、数据中台对于“会员品级”的界说完整没有不合(有的用数字1-5,有的用笔墨“钻石”“黄金”,有的用字母A/B/C)。

保守休会场景: PM拿着PPT:“咱们界说V01代表一般会员,V02代表明银...” 经营总监挨断:“咱们习惯嚷Level_1,改了体系要沉构!” 辩论半小时,无因。

AI配合订定过程:

咱们设想了一个“AI垄断的尺度同创会”过程:

具体体会:
    需要导进:尔把商场部的PPT、经营的Excel、CRM的数据库修表语句(DDL)通通扔给年夜模子(颠末API)。AI剖析:模子不但提炼了字段名,借提炼了面前 的逻辑。比方,它发明商场部的PPT里写着“钻石会员:年消耗10万以上”,而CRM的修表语句里有一个字段 VIP_LEVEL,列举值有 DIA。AI发起:模子主动天生了一个倡议尺度:
      尺度称呼:member_level_cd (会员品级代码)数据范例:STRING(10)营业界说:鉴于会员年度消耗金额分别的身份标记。列举值倡议:PLATINUM, GOLD, SILVER, DIAMOND (注:AI按照呈现频次倡议保存DIAMOND)映照干系:CRM的DIA ->规范 DIAMOND;商场部的“钻石会员” ->规范 DIAMOND。


结果: 当咱们把那份AI天生的草案收给营业战手艺瞅时,各人第一次再也不打骂,而是开端会商:“AI提取的那多少个维度挺齐,但是尔倡议把DIAMOND改为DIA,因为现有体系存质数据太多。”

那即是配合——AI供给了“最至公约数”,人类担当鉴于幻想束缚干“微调”。
3、 主动化查抄:把尺度“写退代码里”

尺度定完了,从前最头痛的是降天。凡是要派人来数仓里翻表,大概期望开辟自发服从。现在咱们完毕了 “Pipeline as a Standard”。
案例2:及时拦阻“净数据”

咱们将终极公布的数据尺度,颠末AI转移成为了机械可读的划定规矩文献(比方:JSON Schema或者SQL断行)。

主动化查抄过程可望化:

别再为数据尺度打骂了!用AI年夜模子配合订定并主动化查抄数据尺度w2.jpg

实在体会: 上周,某使用开辟同学正在表中新删了一个字段 order_status,并界说了新列举值 P9(暗示“已经进款”)。正在提交接码兼并恳求(MR)时,咱们的AI查抄引擎主动运行:
    发明成就:正在“定单形状”尺度中,P 收尾的代码是预留给“付出中”形状的(P0-P3),P9 没有契合列举值前缀标准。AI干预:机械人主动正在代码批评区留行:“检测到列举值 P9 没有契合尺度(尺度许可前缀:I-初初化,P-付出中,S-胜利,F-失利)。按照高低文语义,倡议改正为 F-REFUND(进款失利)或者 S-REFUND(进款胜利),请确认。”成果:开辟同学瞅到后,豁然开朗,改正了代码,制止了前期数据净化。

深思2:AI没有是全能的,但是它是“极佳的杠粗”AI查抄固然准,但是也曾激发过“误杀”。有一次,营业需要临时交进一个内部数据源,字段名满是治码(如 fld_2893hjd)。AI引擎间接拒绝了进库,来由是“字段名没有契合可读性尺度”。 那激发了咱们的新思考:尺度需要柔性。厥后咱们调解了战略,许可“临时表”绕过定名查抄,但是自愿请求数据血统跟踪,并正在三天后由AI提醒营业圆完毕尺度化映照。
4、 给偕行们的具体倡议

1. 别一开端便念“年夜一统”

    毛病作法:把统统汗青数据皆灌给AI,让它天生一套最终企业尺度。准确作法:场景启动。挑选抵触最剧烈的范围切进,好比“客户主数据”或者“定单形状”。先让AI助多少个打骂的部分把尺度定了,尝到长处再放开。
2. 把“词汇根表”喂给AI干锻炼

    假设您的企业已经有了一点儿不可文的定名标准(比方:统统布我值字段必需以 is_ 或者 flg_ 收尾),必得收拾整顿成词汇根表喂给年夜模子(搁正在Prompt里或者干RAG检索)。那能极年夜提拔AI天生尺度的精确性。不然AI会天马止空,给您制出各类斑斓的英文单词汇,但是开辟瞅陌生。
3. 过程上要干“野生确认关环”

    如图所示,AI永久只可出草案。必需有一小我私家工确认的按钮。那不但是为了精确,更是为了义务回属。假设AI定的尺度出了成就,谁担当?以是,最初确认的人,必需是营业或者数据 owner。
4. 主动化查抄要嵌进“开辟情况”

    没有要把查抄东西干成一个每一周跑一次的离线报表,出人瞅的。要把它干成像代码语法查抄器一致,正在开辟写代码的霎时(IDE插件)、正在提交接码的时候(Git Hooks)、正在公布上线前(CI/CD流火线) 便阐扬感化。痛面正在哪女,东西便搁哪女。
5、 归纳

用了AI年夜模子以后,咱们数据办理组的脚色变了。咱们再也不是拿着鞭子抽着各人改字段名的“数据差人”,而是酿成了锻炼AI、劣化划定规矩、处置非常的“指导者”。

固然现在的AI偶尔借会给出一点儿离谱的倡议(好比倡议把脚机号字段少度设为11位,却记了思考国内区号),但是它最少让团队从无停止的辩论中挣脱进去,把肉体散焦正在了真实有代价的营业会商上。

数据尺度的未来,没有是一原枯燥的字典,而是一个由AI启动、连续退步、取代码共死同存的“语义收集”。 别再为这些鸡毛蒜皮的定名打骂了,让AI去向理那些杂事,咱们来思考数据面前 的营业代价吧。

别再为数据尺度打骂了!用AI年夜模子配合订定并主动化查抄数据尺度w3.jpg

Tips:数据堆栈/数据修模/数据开辟/数据系统&目标系统&标签系统&数据堆栈&仄台架构&数据办理/主数据/元数据/数据尺度/数据财产/数字化/处置计划/止业陈述/建立计划/数据中台/年夜数据仄台/架构等⏬
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )