职贝云数AI新零售门户
标题:
多模态数据管理-DeepSeek加速AI落地
[打印本页]
作者:
A1PZT7rw
时间:
4 天前
标题:
多模态数据管理-DeepSeek加速AI落地
公众号晋级,可以经过发送音讯“获取材料”,收费获取DeepSeek若干最新技术干货。
一、什么是多模态数据管理
多模态数据管理指对多种数据结构的数据停止有效管理、存储、处理、分析和运用的过程。多模态数据次要包括文本、图片、视频、音频等类型的数据。多模态数据管理的目的是让不同类型的数据可以互相交融,构成
新的内容
供运用。我们可以把这个过程了解为是一个新内容创作和生成的过程。
二、为什么多模态数据管理成为一种趋向
是传统数据管理失灵了吗?还是时代发展的必然?
随着移动互联、物联网等设备的运用,数据类型和来源越来越丰富,全球近80%的数据为非结构化数据,而传统的数据管理形式无法有效处理这些多源异构的数据;随着人工智能技术的发展,传统数据管理形式也不断更新,交融了更多AI技术,处理异构多来源数据,在垂直范畴也表现出了一定的优势,比如文本处理、图片处理;大模型技术的演进为多模态数据管理提供了更弱小的工具支撑,不只是工具本身,甚至在算法层面、实际研讨,为数据管理注入新的活力。
数据管理本身作为一门不断发展迭代的技术,自2018年DAMA-DMBOK 2发布至今,其实际体系也不断完善,不只交融了数智化的工具以及技术,同时也在向着数据要素价值释放的方向在探求。多模态数据管理更像是对传统数据管理实际的补充和完善。
三、多模态数据管理三步法
(1)先预备:数据预备
数据预备阶段完成数据搜集、存储以及预处理。详细看<DG4AI:人工智能+数据管理,如何交融?>
(2)再整合:数据整合
数据整合是多模态数据管理的核心,触及将不同模态的数据交融为一个一致的数据集。这一阶段的目的是确保不同模态数据之间的协异性和互补性,为后续的建模提供支持。次要完成数据标注、数据划分与数据加强。详细看<DG4AI:人工智能+数据管理,如何交融?>
(3)后训练:模型训练与优化
模型训练与优化是多模态数据管理的最终目的,触及运用清洗、转换和整合后的数据训练模型,并评价和优化模型功能。这一阶段的目的是构建高效、准确的模型,以满足实践运用需求。触及到模型训练、模型验证、模型推理及评价。详细看<DG4AI:人工智能+数据管理,如何交融?>
四、DeepSeek在多模态数据管理方面的优势
DeepSeek多模态数据管理次要在四个板块与其别人工智能数据管理值得深化了解:
1
、数据采集与预处理
多模态数据的采集和预处理,次要是对文本、图片、视频和音频等多类型数据的采集,并停止数据清洗、去重、归一化等操作,以提升数据的全体质量。
DeepSeek提供多种数据源接入方式,支持结构化数据、半结构化数据和非结构化数据的接入。其功能比市面上绝大部分大模型产品的才能要突出,且是开源产品。
2
、数据存储与备份
多模态数据的数据类型各不相反,内容层次也不同步,呈现出多样性、异构性、内容关联性、时空特性、复杂性等特点。需求选择合适的数据存储方式,停止数据备份及运用。
DeepSeek本身也能提供存储服务,用户也可以选择自有的存储服务或者云上存储服务,DeepSeek也提供兼容,尤其是与Hadoop生态的兼容性上。此外,DeepSeek本身的存储系统DeepSeek 3FS与Hadoop的HDFS在设计理念上有一定的相似性,都支持大规模分布式存储,作为Hadoop生态中的一个存储选项,为人工智能义务提供较强的支持。
这是DeepSeek优于其他大模型产品最突出的特点,其专门为处理AI训练和推理工作负载而设计,这也是DeepSeek出道时最大的亮点之一。
3
、数据交融与特征提取
数据交融和特征提取的过程是完成多模态数据有效应用的关键步骤。针对不同数据单独设计特定的特征提取方法,再将停止合并交融。该阶段在数据处理的不同时期交融方式不同,技术也不同。
实践项目中,结合数据特征以及详细运用场景,选择合适的交融策略,也可以在一个场景中采用多种交融策略的组合。
目前实操中,针对文本、图片、视频和音频等数据,停止单独的特征提取,如文本数据采用分词、TF-IDF、词嵌入等方法提取语义特征;图像数据则采用CNN(卷积神经网络)技术提取图像的视觉特征;音频数据采用RNN(循环神经网络)或MFCC(梅尔频率倒谱系数)来提取音频特征。提取特征后,单独停止训练,应用决策层输入结果再停止决策层数据交融,构成一致的表示。思索用该种方式,次要是由于人工智能跨范畴训练推理人才不足、以及单独模型训练更容易构成知识库等方面的影响。尤其是数据早期交融中,多模态数据数据不分歧性是非常普遍的,且停止的数据层面的交融往往是浅层次的,无法满足复杂场景下内容提取以及运用。
(引荐一篇技术性文章,来源 博客园:小吴的日常,其实际研讨相对明白。
https://www.cnblogs.com/wupiao/articles/11693143.html
)
在该范畴,不同的大模型各有优势,详细取决于义务需求和数据类型,DeepSeek并没有表现的特别突出。基于
Transformer
架构的其他几款大模型在文本数据交融、跨模态数据交融层面,表现相对出色。
4
、数据建模、训练与优化
数据分析与建模是对多模态数据停止清洗、转换、整合等操作的过程。
传统数据管理往往采用适当的建模工具,比如Power Designer等建模工具完成概念模型、逻辑模型和物理模型的建设,实理想体关系建设、模型映射以及逆向工程等。
多模态数据管理中其建模过程次要触及模型选择、模型训练、模型验证与推理以及模型评价优化的方面。目前针对大模型范畴,更侧重模型结构优化以及参数优化方面,尤其在超参数调整方面,将会是比较长一段工夫的主流方式。
在决策层面停止数据交融,往往是垂直层面决策层输入结果的交融,从落地项目反馈,在客户看来,多模态数据管理项目更像是一次实验,而实验的结果则更注重输入场景的适配分歧性。
DeepSeek在该场景下突出优势体如今数据处理质量、训练效率、推理效率和才能、长文本推理逻辑处理、多义务学习的泛化才能以及多范畴自顺应上较为抢眼。DeepSeek模型结构次要基于Transformer框架完成的变体结构,也存在解释性差、知识库时效性差等成绩,且在面对高度复杂或专业性极强的成绩时,DeepSeek能够无法提供足够深化或精准的答案。
(引荐一篇技术性文章,来源 CSDN:【AIGC调研系列】DeepSeek模型的优势和优势,经过大量调研给出了一系列结果。
https://blog.csdn.net/weixin_39648954/article/details/137033968
)
五、企业如何迈出第一步
企业在切入多模态数据管理业务时,囿于多模态技术落地、业务流程、技术栈的选择等存在很多不可估计的要素,普通建议采用“小场景切入”“由点带面”的方式,而非全盘改造,做一个片面的“数字化转型”方案。
多模态数据管理从业务执行层面,建议遵照数据管理框架,由建立“数据管理委员会”末尾,停止组织变革,打破IT、业务之间的壁垒为始,切合详细业务场景做具象化的方案,落实举动步骤。
举动清单:
清点现有数据资产,辨认高价值多模态场景(如视频创作:对外宣传短视频)。
选择1-2个工具停止PoC验证。
结尾的话
虽然多模态数据管理概念已提出了一段工夫了,但目前来看,囿于人工智能技术在数据管理范畴的运用牵涉到工程化完成的过程,全体进程相对较慢。DeepSeeK的出现,应用其本身的优势,推进了多模态数据管理加速AI落地的过程,面向人工智能范畴的数据管理研讨框架也将会持续不断完善。
--------------------------------
关注公众号
,获取
DeepSeek相关材料
下载地址
欢迎大家多多关注“数据那些事”,打破“为什么”的瓶颈。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5