职贝云数AI新零售门户

标题: 彻底爆了！一文吃透AIGC、Agent、MCP的概念和关系 [打印本页]

作者: QfICegVe 时间: 2025-7-13 10:13
标题: 彻底爆了！一文吃透AIGC、Agent、MCP的概念和关系

(, 下载次数: 0)

👉目录
1 AIGC
2 智能体 Agent
3 MCP

4 总结
近两年 AI 技术发展迅猛，一日千里。大言语模型 (LLM)、AIGC、多模态、RAG、Agent、MCP 等各种相关概念层出不穷，若不深化了解，极易混淆。本文旨在简要引见这些 AI 技术的核心概念、基本原理及其互相关系，次要协助非 AI 行业的开发者建立基础认知。文中触及的每项技术在其垂直范畴都值得深化探求，本文仅作概念性和原感性的概述。如有疏漏或错误，欢迎指正。

关注腾讯云开发者，一手技术干货提早解锁👇

鹅厂程序员面对面直播继续，每周将约请鹅厂明星技术大咖讲解 AI 时代下的“程序员护城河”。更有蛇年公仔等精巧周边等你来拿，记得提早预定直播～👇
近年来，人工智能范畴涌现出许多新概念和新技术，其中AIGC、MCP和Agent成为了业界和学术界的抢手话题。本文将深化浅出地引见这三个概念，协助读者片面了解它们的外延、区别与联络，以及在实践运用中的价值。
01

AIGC

AIGC，全称为 AI Generated Content，意为“人工智能生成内容”。它指的是应用人工智能技术（尤其是大模型，如GPT、Stable Diffusion等）自动生成文本、图片、音频、视频等多种内容的过程。2022 年 11 月 30 日，OpenAI 的 ChatGPT 正式上线（基于 GPT-3.5），引爆了 AIGC 热潮。

(, 下载次数: 0)

1.1 多模态技术

单模态：只处理一种类型的数据，比如只处理文本（如GPT-3.5）、只处理图像（如图像辨认模型）。
多模态：可以同时处理两种及以上类型的数据。例如，既能了解图片内容，又能了解文本描画，甚至还能结合音频、视频等信息停止综合分析和生成。对应的场景有。

场景	主流模型
文生图片	DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图（腾讯）等
文生视频	Sora(OpenAI)、Stable Video Diffusion(Stability AI)
图生文（图片了解）	GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL（阿里）
图文生视频	Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI)
视频生文（视频了解）	Gemini 1.5 / Gemini Pro Vision（Google）

1.2 RAG 技术

RAG（Retrieval-Augmented Generation，检索加强生成）技术，是一种将信息检索（IR）与大型言语模型（LLM）的文本生成才能相结合的人工智能框架。其核心思想是：当 LLM 需求回答一个成绩或生成文本时，不是仅依赖其外部训练时学到的知识，而是先从一个外部知识库中检索出相关的信息片段，然后将这些检索到的信息与原始成绩/指令一同提供给LLM，让LLM基于这些最新、最相关的上下文信息来生成更准确、更牢靠、更少幻觉的答案。
大型言语模型虽然拥有海量的知识和弱小的言语了解与生成才能，但也存在一些关键限制：

RAG 正是为了处理这些成绩而诞生的。

(, 下载次数: 0)

智能体 Agent

“智能体”（Agent）在计算机迷信和人工智能范畴指的是一个可以感知环境、自主决策并采取举动以完成特定目的的实体或系统。它可以是软件程序、机器人硬件，甚至是生物实体（如人类或动物），但在 AI 范畴通常指软件智能体。
Agent 和 AIGC 最大的区别：

Agent 最大的特点是，借助 Function Call 模型，可以自主决策运用外接的一些工具来完成特定的义务。
2.1 Function Call 模型

2.1.1 什么是 Fucntion Call 模型

Function Calling（函数调用）是大型言语模型的关键技术。后面有提到过 RAG技术是为了处理模型无法和外接数据交互的成绩，但是 RAG 的局限在于只赋予了模型检索数据的才能，而 Function Calling 允许模型了解用户央求中的潜在意图，并自动生成结构化参数来调用外部任何函数/工具，从而打破纯文本生成的限制，完成与真实世界的交互，比如可以调用查天气、发邮件、数学计算等工具。
Function Call 模型最早由 OpenAI 在 2023 年 6 月 13 正式提出并发布，初次在 GPT-4 模型上完成了 Function Calling 才能。OpenAI 作为大言语模型的带路人，其发布的模型的 API 协议都会行业标准，后面国内外新发布模型都会按照 OpenAI 的协议作为标准完成。截止目前，支持 Fucntion Calling 才能的主流模型如下表：

模型	开发者	初次支持 Function Calling 工夫
GPT-4	OpenAI	45090
Claude-3	Anthropic	45355
Gemini-2.0	Google	45627
DeepSeek-R1	深度求索公司	45709

除了下面的知名度高的模型，还有一些其他开源或闭源模型也支持了 Fucntion Calling 才能，但是截止目前为止，GPT-4 依然是公认的 Fucntion Calling 才能最强的模型。
2.1.2 工作原理：三步闭环流程

Function Call 模型的工作流程如下图：

(, 下载次数: 0)

步骤详解：
1、定义函数（开发者预设）
向 LLM 描画函数的用途、输入参数格式（JSON Schema），例如：
{ "name": "get_current_weather", "description": "获取指定城市的天气", "parameters": { "type": "object", "properties": { "city": {"type": "string", "description": "城市称号"}, "unit": {"enum": ["celsius", "fahrenheit"]} }, "required": ["city"] }}name 是工具称号
description 是这个工具的用途
parameters 是这个工具需求的输入参数
2、模型决策与生成参数
用户发问：“北京明天需求带伞吗？”
→ LLM 辨认意图需调用 get_current_weather
→ 生成结构化参数：
{"city": "北京", "unit": "celsius"}
3、执行函数 & 前往结果

2.1.3 核心优势：LLM 的“手和眼睛”

才能	传统LLM	支持Function Calling的LLM
获取实时信息	❌ 依赖训练数据	✅ 调用搜索引擎/数据库
执行精准计算	❌ 常出错（如复杂数学）	✅ 调用计算器/Python
操作外部系统	❌ 无法执行	✅ 发送邮件/控制智能家居
前往结构化数据	❌ 文本难解析	✅ 输入标准JSON

2.2 Agent

OpenAI 发布 Function Call 模型后，Agent 才末尾发展。而 Agent 真正进入到公众视野，被大家广泛关注的事情是 2025年4月 Manus 发布了通用智能体产品，引入了 Computer Use 和 Browser Use，初次展现出智能体的弱小才能。
2.2.1 Agent 的工作流程

实践上上文提到的 Function Call 模型的工作流程图，曾经算是一个 Agent 的雏形了，不同点是，Agent 完成一次义务，实践上会循环调用模型，能够会调用多次 Function Calling，每次需求调用什么工具，完全由模型决策。一个最简单的 Agent 调用流程图如下：

(, 下载次数: 0)

比如有一个出行规划的智能体，这个智能体配置有天气查询、驾车规划、公共交通规划、骑行规划、步行规划等工具。用户讯问“我在深圳，5月1日想去自驾去北京游览，帮我规划一下出行方案。”，一个能够的详细的执行流程如下：

(, 下载次数: 0)

2.2.2 怎样开发一个本人的 Agent

最简单的方法就是把 Agent 的提示词（prompt）、工具、llm 调用，工具执行都硬编码到代码中，这样的确可以疾速开发一个特定功能的 Agent。这样的完成会带来一些成绩：

为了处理这一系列的成绩，coze 、dify 、腾讯云智能体开发平台等智能体开发平台相继出现。借助这些平台，开发者甚至不需求会编程，不需求服务器资源，就可以开发一个本人的Agent，Agent 的整个执行流程完全由平台在云上执行。智能体开发平台的架构普通包含插件配置、Agent 配置、Agent 执行模块、插件执行模块，发布模块。

(, 下载次数: 0)

插件配置：一切 Agent 的工具都一致管理起来，而不是散落在各个 Agent 外部，这样可以做到工具的复用。普通平台会自带一些插件，比如网络搜索、文件上传、AIGC 工具等，同时也支持开发者添加本人的自定义插件。
Agent 配置：配置 Agent 的提示词 (prompt)，运用的模型，以及选择插件配置中的一批工具提供给模型做选择。
发布配置：开发者把本人的 Agent 开发调试波动当前，发布成波动版本就可以提供给用户运用了。
插件执行：执行某个特定的插件，前往结果。
Agent 执行：完成通用的 Agent 执行流程，调用插件执行模块完成工具调用。
下图是用腾讯云智能体开发平台，开发一个简单的 Agent 配置和实践执行效果图。

(, 下载次数: 0)

2.2.3 Multi-Agent

除了运用智能体开发平台疾速开发本人的 Agent 以外，还可以运用 sdk 的方式停止开发。2025 年 3 月 11 日，OpenAI 重磅发布 OpenAI Agent SDK！AI 开发范式彻底颠覆！运用 sdk 可以疾速配置一个自定义的 Agent 后执行，相比智能体开发平台，sdk 具有更高的灵敏性和自主可控性。
同时，在 OpenAI Agent SDK 中，初次引入了 Mulit Agent 的概念。在此之前，经过智能体开发平台，我们开发出来的 Agent 都只是单 Agent。一个单 Agent 的才能有限，只能处理特定范畴的一个义务，而一个复杂义务往往需求执行多个范畴的义务才能完成。而 OpenAI Agent SDK 可以让开发者定义多个范畴的 Agent，并且给这些 Agent 配置一些转交关系，允许某个 Agent 把特定的义务交给另外一个合适范畴的 Agent 来执行，多个 Agent 之间协同和互动来完成一个复杂义务。

在 OpenAI Agent SDK 发布当前，以腾讯云智能体开发平台为代表的相关产品都相继支持了 Multi-Agent 形式。
2.3 Agent 的发展

Agent 目前的发展还处于一个较初期的阶段，但是发展速度很快。在一些垂直范畴比如代码生成 Cursor/腾讯云 AI 代码助手 CodeBuddy、广告营销等方向曾经有了比较好的落地。而更通用的 Agent 目前除了看到 Manus 落地以外，还没看到其他比较好的运用形式落地。置信随着工夫发展，会有越来越好用，越来越通用的 Agent 运用诞生。
03

MCP

3.1 什么是 MCP

MCP（Model Context Protocol，模型上下文协议）是由人工智能公司 Anthropic 于 2024 年 11 月 24 日正式发布并开源的协议标准。Anthropic 公司是由前 OpenAI 核心人员成立的人工智能公司，其发布的 Claude 系列模型是为数较少的可以和 GPT 系列抗衡的模型。
3.2 为什么需求 MCP

MCP 协议旨在处理大型言语模型（LLM）与外部数据源、工具间的集成难题，被比喻为“AI运用的USB-C接口“。经过标准化通讯协议，将传统的“M×N集成成绩”（即多个模型与多个数据源的点对点衔接）转化为“M+N形式”，大幅降低开发成本。

(, 下载次数: 0)

在 MCP 协议没有推出之前：

没有标准，整个行业生态很难有大的发展，所以 MCP 作为一种标准的出现，是 AI 发展的必然需求。
总结：MCP 如何重塑 AI 范式：

维度	传统形式	MCP 形式	变革价值
集成成本	每对接新工具需定制开发	一次开发，全网复用	开发效率提升 10 倍
功能范围	单一工具调用	多工具协同执行复杂义务链	AI 从“助手”晋级为“执行者”
生态开放性	封闭式 API，厂商锁定	开源协议，社区共建工具库	催生“AI 运用商店”形式
安全可控性	API 密钥暴露风险	数据不离域，权限分级管控	满足企业级合规需求

3.3 MCP 的发展状况

MCP 自 2024 年 11 月 24 日发布以来，OpenAI、Google、微软、腾讯、阿里、百度等头部企业纷纷接入 MCP，推进其成为理想性行业标准。并且相继出现了 mcp.so 、mcpmarket 等超大体量的 MCP 服务提供商。国内的头部企业也相继加入 MCP 服务商的竞争中。在如此庞大的 MCP 市场下，开发者基本不需求开发本人的插件，直接运用 MCP 服务商的插件就可以直接开发大量 Agent。
同时很多头部企业，末尾把本身原有的 API 业务开发成封装成 MCP 服务对外提供。比如：

将来趋向：

MCP 不只是技术协议，更是 AI 消费力革命的基石——它让模型真正融入理想世界，成为人类工作的无缝延伸。
04

总结

全体上看，Agent 是在 AIGC、MCP 、大言语模型 LLM 等原子才能的基础上停止编排，以提供更复杂的 AI 运用。

-End-

原创作者｜镇高红

感激你读到这里，不如关注一下？👇

(, 下载次数: 0)

📢📢来领开发者专属福利！点击下方图片中转👇

(, 下载次数: 0)

在实践运用中，你更看好AIGC、Agent还是MCP？欢迎评论留言补充。我们将选取1则优质的评论，送出腾讯云定制文件袋套装1个（见下图）。7月17日半夜12点开奖。

(, 下载次数: 0)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)