职贝云数AI新零售门户

标题: AIGC 草稿拾遗 001 期 [打印本页]

作者: A1PZT7rw 时间: 6 天前
标题: AIGC 草稿拾遗 001 期
你好，我是潦草学者，这是第 001 期的 AIGC 草稿拾遗

这是一份 AI 驱动的 Newsletter，内容来源于潦草学者日常的草稿笔记，内容关于 AI、个人成长、效率工具、互联网商业

"预测将来的最好方式就是创造它" via. Alan Kay

🍻 草稿拾遗第二季

草稿拾遗是我在 2021 年末尾更新的 Newsletter，在 2021 到 2024 年的三年工夫里，我断断续续地更新了 50 多期。后因由于个人精神的缘由停更了。

但在明天，在 AI 的协助下，我发现可以用 10% 的工夫就完成 Newsletter 的写作，同时保证 Newsletter 的效果。

因此在明天我决议恢复 Newsletter 的更新。

《草稿拾遗》从明天末尾将晋级为《AIGC草稿拾遗》

AIGC: AI Generate Content

《AIGC草稿拾遗》的更新计划：

🤔 思想碎片

01 AI Native C 端运用何时迸发？

前段工夫，Sora2 发布，又看到关于捏它 App 的创始人胡修涵最近分享的"二次元版Sora"的故事。

我本人不断在探求 AI to C 的大的运用机会， Sora 2 的出现给大家打了一个样，但还不够完美。技术只是基础，真正的迸发需求的是：技术成熟度、用户接受度、运用场景的完美结合。这三者的交汇点，才是AI Native C端运用迸发的机遇。

隐约感觉，2026 年年终，to C 的运用机会将会迎来一波高潮。

02 AI 内容创作的边界思索

在即刻发布了运用 AI 将文字转换为图文的讨论，如今借助最新的模型，都可以将文本，转换成一个网站，或是好看的图片。

我将本人的一篇长文《读以忘却》转换成了一个精巧的网站，视觉效果的确很好。

https://liaocaoxuezhe.github.io/new_excel_today

(, 下载次数: 0)

模态之间的边界越来越模糊，但价值的边界照旧是明晰的。虽然技术完成很棒，但运用场景却不明晰。这引发了我对AI内容创作边界的思索：这样的转换，真的创造了新的价值吗？

思来想去，能想到的运用场景似乎只要协助博客主将内容转换成更好看的样式。但这也面临应战：HTML作为一种内容媒介，在中文市场似乎不太make sense，海外生态也不熟习。这让我看法到，AI内容创作不应该只是方式的转换，而应该是价值的再造。

技术擅长的，是"把已知的方式运用在新的内容上"。但人类擅长的，是"定义什么内容值得被创造"。这能够就是AI内容创作的边界：AI担任扩展能够性，人类担任判别价值。找到这个边界的平衡点，或许是AI Native运用的关键。

03 这篇论文能够成为大言语模型持续学习的新范式

读到了论文《经过稀疏记忆微调完成持续学习 Continual Learning via Sparse Memory Finetuning》提出了将 Transformer FFN交换成记忆查找模块的方法，有能够成为 LLM Memory 的新范式。

(, 下载次数: 0)

这篇论文处理的是传统上下文窗口限制的根本成绩。经过稀疏微调，模型可以在不遗忘旧知识的同时学习新知识，这对于AI系统的持续退化具有重要意义。与传统方法不同，这种稀疏记忆微调方法在记忆效果上分明优于全参数微调和 LoRA，为促进 LLM 持续学习提供了新的技术途径。

假如AI可以像人类一样持续学习、不断退化，那将是通往AGI的重要一步。这篇论文揭示的能够不只是技术方法，更是AI发展的一个新方向。

论文地址：Continual Learning via Sparse Memory Finetuning https://arxiv.org/abs/2510.15103

📰 内容杯测

01 Claude Code Plugins 更新

Claude Code推出了 Plugins 插件系统，允许开发者经过斜杠命令、专属智能体、MCP服务器和钩子函数来扩展功能。这标志着AI开发工具从单一运用向生态系统的转变。

(, 下载次数: 0)

插件可以打包斜杠命令、专属智能体、MCP衔接和钩子函数，便于分享调试、部署、测试等工作流。典型用途包括一致团队开发规范、支持开源项目开发者、衔接外部工具并打包个性化工作流。所谓斜杠命令，就是为常用的操作创建自定义快捷方式；专属智能体则是安装为特定义务打造的智能体，协助完成专业开发工作；MCP服务器经过模型上下文协议衔接外部工具和数据源；hooks 函数则允许在Claude Code的工作流关键节点自定义行为。

这样你可以在互联网上疾速复制其别人的 claudencode 设置。对于团队来说，也可以将你的设置打包成插件当前，疾速在团队成员之间复制。

原文链接：https://x.com/dotey/status/1976470303003000852

02 Cursor Composer 模型晋级：用强化学习打造高效模型

Cursor 2.0 的更新中，晋级了他们的 Composer 模型。【1】新的 Composer 模型在 token 生成方面的效率比同等智能程度的模型高出四倍。

Cursor 团队在开发新的 Composer 模型时，遭到了 Tab 模型【2】的影响。他们发现工程师们对模型的生成速度要求很高，提高模型的生成速度，可以让开发人员在工作流程中保持思想延续性和工作流程不被打断。

因此他们基于用户反馈的数据，在原有的模型上停止强化学习训练：从用户查询末尾，模拟多个 “rollout”（途径），每个途径运用不同工具序列尝试处理成绩。然后评分这些途径，并据此更新模型参数。在保持交互式编码速度的同时提升了模型智能。它自发习得了复杂搜索、错误修复和单元测试等才能。

Composer 是 Cursor 团队为软件工程打造的高效智能代理模型，经过在大规模代码库和消费级工具上用强化学习训练，能疾速完成真实编码义务。它是一种支持长上下文的专家混合（MoE）模型，优化了工具调用、并行处理和减少无用回复，从而在交互式编码中速度和质量兼得。为支持大规模异步强化学习训练与运转，团队构建了定制化基础设备，使 Composer 在实践开发中已被广泛采用。

Composer 模型的诞生只是最基础的，更让人应该关注的是 Cursor 公司的工作方式。【3】

明天 Cursor 做模型的思绪是我目前看到最正确的 AI Native 产品构建方式。经过好的交互设计，让用户在运用的过程中反馈给模型优质的数据。基于数据，在开源模型的基础上停止 SFT 和 RL 的训练。这种方式让模型在 RL 过程中自发习得了执行复杂搜索、修复 linter 错误以及编写并运转单元测试等有用才能。这是 AI Native 运用公司必须掌握的事情——不是简单地调用API，而是经过数据飞轮持续优化模型。

参考链接：

【1】https://cursor.com/cn/blog/composer

【2】https://cursor.com/cn/blog/tab-rl

【3】https://www.youtube.com/watch?v=md8D8eNj5JM

03 SoulX-Podcast：真实的长音频播客生成

Soul 上上周开源了一个播客生成的模型，支持多种中文方言和副言语控制的多个说话人长篇播客模型，能生成超过90分钟的多轮对话，保持音色波动和说话人切换流利。

这个模型的特点是：第一，支持直接生成多人对话的内容，这对于播客制造来说是一个严重打破；第二，支持地方方言内容生成，让内容创作愈加丰富多元；第三，可以生成较长的多轮对话，并且保持音色较好。SoulX-Podcast 是 Soul AI Lab 开源的多说话人长篇播客级文本到语音模型，支持中英及多种中文方言并集成副言语控制。

但实践体验的时分，发现生成内容长了当前，内容还是会崩溃。不过曾经有提高了。在独白 TTS 和多轮对话合成义务上，SoulX-Podcast 达到或抢先于当前最先进程度。

这个项目对于播客制造、有声书等范畴有可取之处，特别是对于那些想要批量生成对话式内容的创作者来说，提供了一个弱小的技术基础。虽然还有波动性成绩，但曾经展现了AI在长音频内容生成上的潜力。

原文链接：https://soul-ailab.github.io/soulx-podcast/

04 AI Browser：Manus桌面版的完成

这个开源项目的开发者用 Next.js + Electron 开发的智能阅读器，支持自然言语义务描画和 AI 自动规划执行，合适信息采集、数据监控和自动化测试。

项目称号是 AI Browser，是一个可以用自然言语描画义务并由 AI 自动规划执行网页操作的智能阅读器。它支持多家 AI 服务商、义务可视化、定时调度、历史回放与跨平台运转，合适信息采集、数据监控、批量处理和自动化测试。

这个项目展现了 Agent 技术在实践运用中的潜力。经过自然言语与阅读器交互，让复杂的网页操作变得简单直观。你可以用自然言语告诉它"帮我在知乎上搜索关于AI的最新讨论并整理成表格"，它就能自动完成打开网页、搜索、提取信息、整理输入等一系列操作。这种"所想即所得"的交互方式，能够代表了将来人机交互的一个方向。对于那些需求频繁停止网页数据采集和自动化操作的用户来说，这是一个非常适用的工具。

原文链接：https://mp.weixin.qq.com/s/SzhNYSFa7kEp2zOP9Qgk3Q

05 Google Veo 3.1 的官方提示指南：五部分公式

Google的 Veo 3.1 经过"摄影、主体、动作、情境、风格"五部分提示公式，完成了对角色分歧性和影像风格的精细控制，支持720p/1080p短片生成。

Veo 3.1 是一款提高了提示遵照性和视听质量的生成式视频模型，支持720p/1080p短片和同步音频。它经过"五部分提示公式"（摄影、主体、动作、情境、风格）和多步工作流（如首帧/末帧、食材转视频、工夫戳）完成对角色分歧性和影像风格的精细控制。此外可与 Gemini 配合丰富提示词，生成带音效的连接场景，并在输入视频中加入 SynthID 水印。

假如你在研讨 Veo 3.1 的视频生成，这个文档是必需要看的。五部分公式为视频创作提供了一个结构化的思想框架：摄影（镜头言语）、主体（核心对象）、动作（运动方式）、情境（环境背景）、风格（视觉风格）。掌握这个公式，你就能更精准地控制AI视频生成的效果。这对于视频创作者、广告制造人、内容营销人员来说，是一个极具价值的工具。当技术门槛降低，创意就成为核心竞争力。

原文链接：https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1

06 DeepResearch的记忆紧缩新思绪

ReSum论文提出在强化学习中让模型学会更好地应用紧缩内容，将紧缩前后轨迹分成两条并分别给奖励，既保留生成摘要的激励，又让模型学会高效推理。

DeepResearch Agent 有一个很大的成绩就是多次的搜索阅读很容易就把上下文窗口用光了，常规的做法是像 Claude Code 一样，超过阈值就触发记忆紧缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地应用紧缩内容的方法。详细来说，当轨迹接近上下文窗口时，系统会触发总结生成一个新的轨迹B。

关键点在于，当B答对时，B的奖励会复制给A。这样做的好处是，虽然A没有直接得出答案，但它找到了一个有用的摘要，最终导向了正确的答案，所以A中的一切动作也得到了正向的激励。

这种双轨制的奖励机制设计很巧妙，处理了记忆紧缩中的核心难题：如何在紧缩信息的同时保留有用细节。经过这种方式，模型既能学会搜集可以产生优质摘要的关键信息，又能学会应用摘要信息来高效地完成义务。这种设计既保留了生成摘要的激励，又让模型学会用紧缩信息高效推理，为AI长文本处理提供了新的技术思绪，对处理上下文窗口限制成绩有重要启示。当记忆不再是简单的存储，而是智能的取舍，AI的才能边界就被重新定义了。

原文链接：https://x.com/Yonah_x/status/1969397374721098211

07 终端工具的选择

这篇文章对 Warp、iTerm2 和 Alacritty 三款终端的深度比较，从开箱即用、高度定制、轻量折腾等不同需求角度给出选择建议。

作者比较并配置了三款终端：开箱即用且功能弱小的 Warp、可高度定制的老牌 iTerm2 和轻量可折腾的 Alacritty。他根据简约、呼应快、可定制与可移植等需求，分享了 zsh/ohmyzsh、starship、tmux 与 neovim 的集成配置。结论很明白：Warp 合适新手，iTerm2 合适远程管理，Alacritty 合适喜欢深度折腾的用户。

原文链接：https://www.pseudoyu.com/zh/2022/07/10/my_config_and_beautify_solution_of_macos_terminal

结语

好了，本期的 AIGC 草稿拾遗就到这里。

本期草稿拾遗的内容范围基于 2025-10-27 ~ 2025-11.02 潦草学者的日常阅读的内容和笔记系统中的文字，由 AI 完成草稿的创作，笔者完成最后的微调和发布。

假如这篇文章对你有协助的话，可以给文章点个赞，点个引荐，或是转发给你喜欢的人，或是给我买杯咖啡，你的支持是我坚持下去的动力。如今微信中的公众号，上新了内容引荐算法，对创作者的文章阅读和转发比例有了更大的要求，希望可以多帮点点转发，感激。

假如你到草稿拾遗的内容感兴味，可以关注我的公众号，每周接收最新的草稿拾遗 Newsletter 。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)