开启左侧

计算一个简单AI模型——从线性回归到实践运用

[复制链接]
在线会员 Ph55Ox 发表于 2025-3-11 08:57:56 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
计较一个简朴AI模子——从线性返回到理论使用

计较一个简朴AI模子——从线性返回到理论使用-1.jpeg


目次
计较一个简朴AI模子——从线性返回到理论使用
弁言:AI的起步——从数教到机械进修
第一部门:线性返回根底——机械进修的初学
1.1 线性返回是甚么?
1.2 线性返回的道理
1.3 为何挑选线性返回?
第两部门:脚动计较线性返回——逐步拉导
2.1 线性返回的计较步调
2.2 计较均值
2.3 计较斜率 w
2.4 计较偏偏置 b
2.5 终极模子
第三部门:模子评介取劣化——怎样进步猜测精确性
3.1 模子评介
3.2 劣化模子
3.3 过拟开取短拟开
第四部门:线性返回的扩大——多元返回取理论使用
4.1 多元线性返回
4.2 线性返回正在理论中的使用
第五部门:线性返回正在贸易中的使用
5.1 线性返回正在贸易中的使用
5.2 线性返回取机械进修的干系
第六部门:线性返回取深度进修的比照
6.1 线性返回取深度进修的干系
6.2 深度进修的劣势取挑战
第七部门:线性返回的现代开展取手艺延长
7.1 线性返回的劣化——岭返回取Lasso返回
7.2 线性返回取时间序列阐发
第八部门:实践中的挑战取思考
8.1 数据预处置的主要性
8.2 模子挑选取调劣
8.3 机械进修的伦理成就
从简朴模子到深度理解
第九部门:数据科学取AI的未来——线性返回的启迪
9.1 从根底到庞大——AI的开展路子
9.2 线性返回取主动化决议计划
9.3 注释性AI的需要
9.4 机械进修的专制化
9.5 线性返回取伦理
结语:把握根底,驱逐未来


计较一个简朴AI模子——从线性返回到理论使用-2.jpeg



弁言:AI的起步——从数教到机械进修

跟着野生智能(AI)战机械进修的快速开展,咱们糊口中的很多范围皆被那些手艺所变化。咱们天天使用的举荐体系、主动驾驭、语音帮忙等,面前 皆有着庞大的AI手艺正在运做。可是,很多人觉得那些手艺太庞大、太易以理解。实在,AI的中心观点其实不像它的名字这样一目了然。邪如咱们糊口中许多手艺一致,AI面前 是鉴于数教、统计教战计较机科学的根底道理。
原篇文章将戴您走退AI的天下,介绍一个简朴的机械进修模子——线性返回,而且脚把脚学您怎样正在纸上计较一个简朴的AI。您将从理论的例子开端,逐步理解机械进修面前 的思惟方法,把握怎样使用数据截至猜测。
第一部门:线性返回根底——机械进修的初学

1.1 线性返回是甚么?

线性返回是机械进修战统计教中最根底的算法之一,它用于找出目标变质战自变质之间的线性干系。它颠末成立一个线性模子去对于未来的数据截至猜测。正在线性返回中,目标是颠末已经知数据去揣度出最好的曲线,使患上猜测偏差最小。
假定咱们有一个数据散,此中包罗输出战对于应的输出。比方,输出能够是衡宇的里积,输出则是衡宇的价钱。咱们期望颠末已经知的衡宇里积去猜测衡宇价钱。
线性返回模子的数教暗示为:
y=wx+b
    y 是咱们念要猜测的目标变质(房价),x 是输出特性(衡宇里积),w 是斜率(权沉),b 是偏偏置(截距)。
咱们的目标是找到恰当的 w 战 b,使患上模子能够精确天猜测已知的房价。
1.2 线性返回的道理

计较一个简朴AI模子——从线性返回到理论使用-3.jpeg


线性返回的根本道理是颠末最小化猜测值战理论值之间的偏差去找到最劣的 w 战 b。最经常使用的偏差襟怀办法是均圆偏差(MSE,Mean Squared Error),它计较的是猜测值取实在值之间的差别的仄圆,并供其均匀值。公式以下:
MSE=N1​i=1∑N​(yi​−y^​i​)2
    yi​ 是第 i 个数据面的理论值,y^​i​ 是模子猜测的第 i 个数据面的值,N 是数据集合的总额据面数。
最小化均圆偏差的历程能够颠末各类劣化算法去完毕,此中最多见的是梯度降落
1.3 为何挑选线性返回?

线性返回是机械进修中最根本、最直觉的模子之一。固然它的使用范畴无限,但是它正在很多场景中仍然十分有用,特别是正在数据的散布靠近线性干系时。线性返回模子易于理解、完毕战计较,因而它凡是动作理解机械进修的初学模子。
第两部门:脚动计较线性返回——逐步拉导

2.1 线性返回的计较步调

咱们交下来将具体介绍怎样脚动计较一个线性返回模子的参数。那不但能辅佐您理解模子怎样事情,借能减深您对于机械进修算法面前 数教道理的理解。
假定咱们有一个数据散,暗示衡宇里积取房价的干系:
衡宇里积(仄圆英尺)房价(千美圆)
500150
1000250
1500350
2000450
目标是颠末衡宇里积去猜测房价。咱们将颠末如下步调脚动计较出线性返回模子的参数——斜率 w 战偏偏置 b。
2.2 计较均值

起首,咱们计较输出特性(衡宇里积)战目标变质(房价)的均值。均值是计较返回系数的根底:
    衡宇里积均值 xˉ:
xˉ=4500+1000+1500+2000​=1250仄圆英尺
    房价均值 yˉ​:
yˉ​=4150+250+350+450​=300千美圆
2.3 计较斜率 w

计较斜率 w 的公式是:
w=∑(xi​−xˉ)2∑(xi​−xˉ)(yi​−yˉ​)​
咱们需要计较每一个数据面的好值,并将其代进公式中。颠末一系列计较,终极咱们获得:
w≈0.333
2.4 计较偏偏置 b

偏偏置 b 的计较公式为:
b=yˉ​−w⋅xˉ
代进咱们计较的值,获得:
b≈−116.25
2.5 终极模子

颠末那些计较,咱们获得了终极的线性返回模子:
y=0.333x−116.25
第三部门:模子评介取劣化——怎样进步猜测精确性

3.1 模子评介

获得了线性返回模子后,交下来咱们需要评介它的猜测才气。正在机械进修中,评介模子的经常使用办法有许多种,最多见的包罗均圆偏差(MSE)决定系数(R2)
计较一个简朴AI模子——从线性返回到理论使用-4.jpeg


    均圆偏差(MSE):暗示猜测值取实在值之间差异的仄圆战的均匀值,越小暗示模子越佳。决定系数(R2):暗示模子能够注释数据变同的比率,与值范畴正在0到1之间,越靠近1暗示模子拟开越佳。
3.2 劣化模子

固然线性返回是一个十分根底的模子,但是咱们仍然能够颠末一点儿办法去劣化它。比方,使用邪则化手艺(如Lasso返回或者Ridge返回)去避免过拟开,大概使用多项式返回去处置非线性数据。
3.3 过拟开取短拟开

正在锻炼机械进修模子时,过拟开战短拟开是罕见的二种成就。过拟开指的是模子正在锻炼散上表示十分佳,但是正在尝试散上却表示好;而短拟开则是模子没法捕获到数据中的主要情势,招致部分功用好。
颠末穿插考证、邪则化等办法,咱们能够有用天削减那些成就,进步模子的泛化才气。
第四部门:线性返回的扩大——多元返回取理论使用

4.1 多元线性返回

当输出特性不但仅是一个变质,而是多个变质时,咱们便需要使用多元线性返回。多元返回的模子方法为:
计较一个简朴AI模子——从线性返回到理论使用-5.jpeg


y=w1​x1​+w2​x2​+⋯+wn​xn​+b
多元返回能够处置更庞大的情况,好比正在猜测房价时,咱们不但思考衡宇里积,借能够参加其余特性(如房龄、职位等)去进步猜测精确性。
4.2 线性返回正在理论中的使用

线性返回不但仅范围于房价猜测,它普遍使用于很多范围,如经济教、金融阐发、商场营销、调理安康等。比方,正在金融范围,线性返回被用去猜测股票价钱,大概正在告白中,颠末告白加入取贩卖额的干系去猜测未来的支益。
第五部门:线性返回正在贸易中的使用

5.1 线性返回正在贸易中的使用

正在理论的贸易场景中,线性返回模子的使用十分普遍,特别是正在数据阐发战猜测决议计划圆里。如下是多少个罕见的贸易使用真例:
    贩卖猜测:假定您是一个零售商,念要颠末已往的告白加入战贩卖额数据去猜测未来某个期间的贩卖情况。您能够使用线性返回去成立模子,找出告白加入战贩卖之间的干系,而后颠末此干系猜测未来的贩卖额。好比,您能够输出差别的告白估算,并猜测每一个估算水平下的贩卖额。
    库存办理:正在库存办理中,线性返回能够辅佐猜测产物需要,按照汗青贩卖数据去预算未来的库存需要。那关于实时补货、制止库存多余大概缺货十分主要。
    客户举动阐发:正在线上零售战电子商务仄台,商野经常使用客户的浏览举动、购置汗青等数据去猜测客户未来的购置举动。颠末线性返回模子,商野能够猜测某一一定客户正在未来某个时间段内乱的购置偏向,并据此定造本性化的举荐战略。
    人力资本办理:线性返回能够用于职工绩效评介、薪资猜测等。比方,能够颠末职工的事情年限、教诲布景、经历、事情表示等变质去猜测职工的薪资水平或者提拔时机。
5.2 线性返回取机械进修的干系

固然线性返回素质上是一个统计教办法,但是它也是机械进修的一个根本算法。正在机械进修中,线性返回属于监视进修(Supervised Learning)的一种,使用标注数据去锻炼模子,并截至猜测。取线性返回类似的另有许多其余的返回算法,好比逻辑返回(用于分类任务)战岭返回(用于处置多沉同线性成就)。那些模子战线性返回有类似的锻炼历程,但是它们正在差别的使用场景中有差别的劣势。
取线性返回相干的一个主要观点是过拟开短拟开。过拟满意味着模子过分庞大,致使于它很佳天拟开了锻炼数据,但是正在新数据上表示欠好。短拟开则表示着模子过于简朴,没法捕获到数据中的主要情势。因而,挑选适宜的模子庞大度十分主要。
第六部门:线性返回取深度进修的比照

6.1 线性返回取深度进修的干系

线性返回是机械进修中的根底算法之一,而深度进修是机械进修的一种更加庞大战强大的办法。固然线性返回瞅起去战深度进修之间仿佛不间接干系,但是它们之间实在有一点儿类似性。深度神经收集中的每层也能够被看做是一个减权战的计较历程,那取线性返回中的计较道理是类似的。理论上,线性返回能够看做是神经收集的一个十分简朴的惯例。
正在深度进修中,神经收集的每层城市施行类似于线性返回的计较,即减权战并参加偏偏置。差别的地方正在于,深度进修模子中的每层皆颠末非线性激活函数的处置,那使患上模子能够处置更加庞大战抽象的特性。
6.2 深度进修的劣势取挑战

取线性返回比拟,深度进修的劣势正在于它能够处置大批庞大的数据,特别长短线性干系。线性返回模子假定数据之间存留着线性干系,但是许多幻想天下的数据常常显现非线性散布,这时候分深度进修模子就能够更佳天截至修模。
比方,正在图象识别、语音识别战天然语言处置等范围,深度进修常常能够清楚进步精确率,而线性返回模子则分歧适这种任务。那是因为深度神经收集具备多层构造,能够正在差别条理上提炼特性,捕获数据中越发庞大的情势。
可是,深度进修也面对一点儿挑战,好比计较资本需要下、锻炼时间少,和对于大批标注数据的需要。那些挑战使患上深度进修正在很多任务中的使用受到必然限定。而线性返回的计较质较小,关于一点儿简朴的猜测任务,反而越发下效。
第七部门:线性返回的现代开展取手艺延长

7.1 线性返回的劣化——岭返回取Lasso返回

正在理论使用中,线性返回常常面对数据中存留多沉同线性(即特性之间下度相干)的情况。这时候,一般的线性返回可以会发生没有颠簸的估量成果,以至招致过拟开。为了应付那一成就,统计教野战数据科学野提出了二种劣化办法:岭返回(Ridge Regression)Lasso返回(Lasso Regression)
    岭返回:岭返回颠末正在一般最小两乘法的丧失函数中参加一个L2邪则化项(即权沉仄圆战的处罚项),去限定模子的庞大度。那个邪则化项能够避免模子对于锻炼数据的过分拟开,使患上模子越发光滑战颠簸。
    Lasso返回:Lasso返回取岭返回类似,但是它使用的是L1邪则化(即权沉绝对值的处罚项)。Lasso返回的一个共同的地方是,它能够将一点儿特性的系数膨胀为整,进而起到特性挑选的感化。颠末Lasso返回,咱们能够从大批的特性中选择出最主要的特性,削减冗余数据。
7.2 线性返回取时间序列阐发

线性返回不但合用于固态数据,借能够用于时间序列数据的阐发。时间序列数据是指按时间挨次陈设的数据,比方股市的价钱、气鼓鼓温变革、贩卖记载等。正在线性返回模子中,咱们能够将时间动作一个特性,去猜测未来的趋势。
计较一个简朴AI模子——从线性返回到理论使用-6.jpeg


自返回模子(AR)、**挪动均匀模子(MA)ARIMA模子(自返回积分滚动均匀模子)**等,皆是鉴于线性返回思惟的时间序列阐发办法。那些模子颠末捕获数据中的时序干系,辅佐阐发职员对于未来数据截至猜测。
第八部门:实践中的挑战取思考

8.1 数据预处置的主要性

线性返回模子的胜利施行常常依靠于数据的品质。正在理论使用中,数据常常是“净的”,可以包罗缺得值、非常值大概没有不合性。数据预处置是所有机械进修模子胜利的枢纽步调之一。关于线性返回,罕见的数据预处置办法包罗:
    缺得值处置:用均匀值、中位数或者寡数弥补缺得数据,大概间接简略缺得数据。尺度化取回一化:将特性值调解到分歧的范畴,制止特性的标准差别作用模子结果。非常值处置:颠末数据可望化办法(如箱线图)识别非常值,并截至响应处置。
8.2 模子挑选取调劣

线性返回不过浩瀚机械进修算法中的一种,怎样挑选最适宜的算法并截至调劣,常常是理论名目中的困难。差别的任务需要差别的模子。好比,正在面临大批种别数据时,可以更适宜使用逻辑返回或者决议计划树平分类算法;而正在数据干系越发庞大、非线性的情况下,可以需要使用撑持背质机(SVM)或者神经收集等更加庞大的模子。
计较一个简朴AI模子——从线性返回到理论使用-7.jpeg


8.3 机械进修的伦理成就

跟着机械进修使用的不竭扩大,咱们也面对着伦理战社会义务的成就。怎样保证模子正在差别集体之间的公允性、制止算法蔑视、包管数据隐衷等成就,已经成为社会会商的热门。线性返回固然是一个简朴的算法,但是它也需要正在实在使用中处置那些伦理成就。
从简朴模子到深度理解

机械进修是一门不竭开展的教科,跟着手艺战算法的不竭进步,咱们能够等候未来有更多强大而庞大的模子呈现。可是,不管手艺怎样开展,返回到最根底的数教道理,它们不断是理解战促进AI平息的基石。正在理解了线性返回等根本算法后,咱们不但能够更佳天使用机械进修模子,借能为理论成就的处置供给科学公道的阐发框架。因而,固然现代AI的庞大度不竭提拔,但是回忆根本算法,特别是像线性返回如许的典范模子,仍然具备主要的意思。
第九部门:数据科学取AI的未来——线性返回的启迪

9.1 从根底到庞大——AI的开展路子

跟着数据质战计较才气的不竭增加,AI战机械进修的使用范畴也正在不竭扩大。现现在,咱们已经有了深度神经收集、加强进修等强大的算法,它们能够处置越发庞大的任务,如图象识别、天然语言处置等。可是,AI的未来不但仅正在于怎样建立越发宏大战庞大的模子,更正在于怎样有用天使用数据、建立智能体系,进而处置幻想天下中的成就。
正在线性返回的根底上,很多更加庞大的机械进修办法患上以开展。比方,撑持背质机(SVM)决议计划树,和更现代的深度神经收集等,均可以处置非线性成就,处置更百般化的猜测任务。那些算法的呈现年夜年夜扩大了机械进修的使用范围,可是它们的中心思惟仍然离没有启线性返回模子中的数教根底——减权战、偏差最小化等。
机械进修取野生智能的未来,很可以是一个从根底到庞大,逐步过度的历程。根底的统计办法,如线性返回,依旧正在机械进修的进修战使用中饰演着不成或者缺的脚色,辅佐咱们理解怎样正在庞大成就中提炼枢纽特性、低落维度、干出公道的猜测。
9.2 线性返回取主动化决议计划

正在很多止业,主动化决议计划已经成为进步服从战削减报酬毛病的主要伎俩。不管是金融范围的危急评介,仍是调理范围的徐病猜测,主动化体系皆需要一个强大的数据阐发模子去干出鉴别。线性返回果其繁复性、可注释性战下效性,正在那些任务中仍然占有着一席之天。
比方,正在银止的存款审批中,模子需要颠末阐发恳求人的汗青诺言记载、收入水平、欠债情况等变质去鉴别可否赞成存款。颠末线性返回模子,银止能够患上出一个精确的诺言评分,进而辅佐决议计划者快速干出决定。
正在调理安康范围,线性返回也被普遍使用于徐病猜测取防备。比方,钻研职员能够使用患者的体征数据(如血压、体温、血糖等)去猜测可否得了某种徐病(如糖尿病或者心净病)。颠末线性返回模子的锻炼,体系能够按照已经无数据猜测病情的平息,实时干出干预。
那些主动化决议计划面前 ,固然手艺日新月异,但是许多时候,返回到简朴而有用的线性返回模子,仍然是最合用战间接的处置计划。
9.3 注释性AI的需要

跟着AI手艺的深入使用,特别是正在人类糊口战事情中饰演愈来愈主要脚色时,可注释性成了AI开展的一个主要问题。很多现代机械进修算法,特别是深度神经收集,因为其宏大的模子构造战庞大的计较历程,被称为“乌盒”模子,缺少充足的通明度,易以背用户供给大白的注释。
可是,线性返回模子果其简朴的数教构造,天然具备较下的可注释性。咱们能够大白天瞅到每一个特性对于猜测成果的奉献,和模子中各个参数(如斜率战偏偏置)怎样作用终极的输出。因而,线性返回不但能辅佐咱们得到下效的猜测成果,共时也能够为决议计划历程供给明了、直觉的注释。那关于调理、金融、法令等范围特别主要,因为那些范围需要大白的、能够经患上起考证的注释,以保证AI决议计划的通明性取公平性。
9.4 机械进修的专制化

跟着机械进修的提高,愈来愈多的企业、教者战开辟者开端使用启源东西战争台,测验考试截至机械进修模子的开辟取使用。TensorFlowPyTorchscikit-learn等启源框架使患上机械进修变患上越发易于使用,进而促进了AI手艺的专制化。正在那一过程当中,线性返回动作机械进修的初学模子,同样成为了入门者的?课。
颠末理解线性返回,进修者能够把握机械进修的中心思惟,如锻炼模子、评介模子、劣化参数等。那些根底的观点战妙技为加入越发庞大的机械进修算法战深度进修范围挨下了坚固的根底。未来,跟着机械进修的教诲战东西的提高,更多的人将能够颠末简朴、易懂的东西战办法,截至数据阐发战修模,进而促进全部社会背更智能、更主动化的标的目的开展。
9.5 线性返回取伦理

跟着AI手艺逐步渗透到各止各业,咱们也不能不思考到手艺的伦理成就。AI手艺,特别是机械进修算法,常常是鉴于汗青数据截至锻炼的。可是,那些汗青数据可以隐露着偏见(比方性别、种族或者年齿的偏见),假设没有给以留神,AI体系可以会正在决议计划中承袭那些偏见,进而发生没有公允的成果。
线性返回模子固然绝对简朴,但是它异常面对着类似的成就。比方,正在猜测房价时,模子可以会受到汗青数据中没有公允因素(如某些地区的汗青房价较高,招致高收入集体没法得到公道的住宅存款)的作用。为了不这类偏见,咱们需要对于数据截至来偏偏处置、使用公允算法去对于模子截至束缚,并保证统统集体正在模子决议计划中得到公允看待。
这类对于伦理成就的存眷,表示了咱们不但要正在手艺上寻求更下的粗度,更要正在社会义务战公允性上连续勤奋,保证AI手艺能够制祸每个人,而没有是加重社会的不合错误等。
结语:把握根底,驱逐未来

颠末对于线性返回的全面会商,咱们不但理解了它的根本道理、计较办法、使用场景,借瞅到了它正在现代AI手艺中的主要职位。固然线性返回自己是一个绝对简朴的模子,但是它倒是理解战使用更庞大的机械进修算法的基石。不管是正在贸易范围的贩卖猜测,仍是正在调理安康中的徐病猜测,线性返回皆能供给繁复而有用的处置计划。
共时,咱们也观点到,机械进修的未来不但是纯真依靠更强大的计较才气战更庞大的模子,更正在于怎样颠末公道的数教模子来理解、猜测战劣化幻想天下中的庞大成就。线性返回、岭返回、Lasso返回等根底模子将持续阐扬着它们的感化,促进数据科学战AI的提高取开展。
跟着AI的不竭进步,咱们迎去了一个越发智能化的未来。把握了根底的机械进修算法,出格是像线性返回如许的典范模子,咱们就能够更佳天适应那一变革,并正在理论事情中活络使用那些手艺。瞻望未来,AI将不但仅是手艺范围的博著名词汇,更将深入到每一个人的一样平常糊口中,成为智能化社会不成或者缺的一部门。
让咱们从最简朴的线性返回开端,根究无尽的可以性,驱逐越发智能的未来!
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )