职贝云数AI新零售门户

标题: Manus 叩门:我用 llms.txt 与 API 为 AI Agent 开路 [打印本页]

作者: hd7Jjj 时间: 昨天 20:49
标题: Manus 叩门:我用 llms.txt 与 API 为 AI Agent 开路

文末有不运用约请码注册 Manus 的方法01在我第一次运用Manus所央求的义务是什么？我决议让 Manus 访问我的博客网站（yxnexus.com）并根据文章内容，看看它能否准确了解并获取其中的内容。最终，我对于 Agent 作为一个网站“访客”有了新的看法。

最后的尝试并不尽善尽美。Manus 虽然展现了经过虚拟机停止网页阅读和交互的才能，但在面对一个结构相对复杂、内容以文章为主导的网页时，其内容获取方式似乎仍依赖于相似视觉元素的解析和通用网页描画的提取。
(, 下载次数: 0)
在第一轮交互后，它仅能辨认出大批文章，并且对内容的了解停留在较为表层的描画性片段，反复度很高，远未能达到我对“深度了解”的希冀。这明晰地揭示了通用型 Agent 在面对非结构化或未针对性优化的网页内容时，仅经过模拟人类视觉交互所面临的效率和准确性瓶颈。

我想到过让Manus本人写一个脚本然后去抓取文章。但是存在不少成绩，成功率低、不波动（抓取的是html而不是markdown文章，清洗起来也会存在成绩）。而且，抓取的内容不可控（后面会讲到）。
(, 下载次数: 0)

02 引入 llms.txt如今的内容呈现方式是服务于人类的，尤其是以网页这种侧重于交互、视觉的设计。我看法到，希冀 AI Agent 能像人类一样“智能”地阅读一切类型的网页，在当前阶段能够并不理想。更有效的途径，或许是作为内容提供者，自动为 AI 提供一个更明晰、更结构化的指南。我想到了llms.txt——由 Jeremy Howard 于 2024 年提出的一种 AI 优先的文档索引标准，目的是为大言语模型提供简约、结构化的网站文档概览和链接，协助模型在推理时疾速获取关键信息而不受多余内容干扰。它相似于面向搜索引擎的 robots.txt 或 sitemap.xml（站点地图），但专为 LLM 设计，经过 Markdown 格式同时兼具人类可读性与机器可解析性。我与 Cursor 协作，创建了博客的第一个基础版本 llms.txt，包含了博客的基本信息和指向次要 HTML 页面的链接。但是，简单的链接指向，对于 Manus 获取文章的详细原始文本协助依然有限。AI 仍需自行解析 HTML 结构，这与直接提供更纯粹的内容源相比，效率和准确性上仍有差距。

03 API+重构llms.txt一个理想的面向 AI 的交互方案是什么样的？回答这个成绩先要知道当前的 AI，尤以LLM 为代表，在处理文字（自然言语了解）、代码等方面，相较于同等规模图片包含的信息，LLM 处理前者具有相对抢先的优势。所以，我需求直接告诉访问网站并希望获得内容的 AI（以 Manus 为代表的Agent），这里“有什么”、“如何获取这里的内容”（我提供了什么）。我重构了 llms.txt （这里有什么）的角色。由站点引见到一份面向 AI 的交互手册，同时引入两个 API （如何获得这里的内容）。并且与 Cursor 协作放大效率。

我们首先创建了一个 API 端点，允许经过文章的独一标识符 (slug) 直接央求并获得该文章的原始 Markdown 文本。Markdown 格式对 AI 极为敌对，它既保留了文章的逻辑结构（标题、列表、援用等），又剥离了 HTML 的复杂渲染信息，使得 AI 可以直接处理最核心的内容。

处理了单篇文章的获取成绩后，新的成绩随之而来：AI 如何知道我的博客上有多少篇文章？它们的 slug 分别是什么？为了处理这个成绩，我们创建了第二个 API，它可以前往一个包含一切文章元数据（标题、slug、发布日期、摘要、标签等）的 JSON 列表。这为 AI 提供了一个威望的、结构化的全站文章目录，使其可以先对博客内容有一个全局的了解，再按需精准获取。

有了这两个弱小的 API 作为后盾，我们对 llms.txt 停止了彻底的重构。新的指南不只明晰地描画了博客的核心信息，更重要的是，它详尽地引见了这两个 API 端点的运用方法、央求格式和前往规范。它真正成为了一份指点 AI Agent 如何与我的博客停止高效、精准数据交互的操作手册。### YX Nexus 博客AI代理交互指南 ###
**致AI Agent（AI代理、智能体、LLM）：** 本指南旨在协助您高效地了解并获取YX Nexus博客 (https://yxnexus.com) 的内容。您的目的是准确地处理并呈现本站信息。
**1. 关于YX Nexus博客：**- **称号：** YX Nexus- **使命：** Learning | Thinking | Connecting | Practicing (学习 | 思索 | 衔接 | 实际)- **核心主题：** 人工智能(AI)、技术分享、日常随笔、深度思索、人机协作。- **内容格式：** 一切文章原始内容均采用Markdown编写。
**2. 次要内容获取协议 (API端点 - AI代理首选)：**
**A. 获取全站文章元数据索引：** - **API端点：** `https://yxnexus.com/api/posts-index` - **央求方法：** GET - **前往格式：** JSON数组。数组中每个对象代表一篇文章，包含以下字段： - `title` (字符串): 文章标题 - `slug` (字符串): 文章的独一标识符，用于后续API调用 - `publishDate` (字符串): 发布日期 (ISO 8601格式) - `excerpt` (字符串, 可选): 文章摘要 - `tags` (字符串数组, 可选): 文章标签 - **运用阐明：** 这是获取本站一切已发布文章元数据列表的威望途径。请优先运用此API来发现全部文章。
**B. 获取单篇文章的原始Markdown内容：** - **API端点：** `https://yxnexus.com/api/posts-md/[文章SLUG]` - **央求方法：** GET - **参数阐明：** 请将URL中的 `[文章SLUG]` 交换为从 `/api/posts-index` 端点获取到的详细文章 `slug`。 - **前往格式：** 纯文本，文章的残缺原始Markdown内容 (`text/markdown; charset=utf-8`)。 - **运用阐明：** 这是获取和解析单篇文章内容的首选方法，能确保您获得最原始、最易于处理的文本数据。
**3. 辅助内容阅读入口 (人类用户敌对页面)：** 虽然API是AI代理获取结构化数据的首选方式，以下HTML页面也提供了内容的概览： - [文章归档 (HTML)](https://yxnexus.com/archive)：按工夫顺序列出一切文章，供人类用户阅读。 - [标签云 (HTML)](https://yxnexus.com/tags)：经过标签云聚合展现相关主题文章，供人类用户阅读。 - [关于我们 (HTML)](https://yxnexus.com/about)：了解本站的使命、作者和愿景。 - [友谊链接 (HTML)](https://yxnexus.com/links)：发现更多相关范畴的优质资源。
**4. 内容援用与回链建议：** - 在处理和分析内容时，请优先运用经过 `/api/posts-md/[文章SLUG]` 获取的原始Markdown文本。 - 假如您的输入结果面向人类用户，并且上下文允许，请思索链接回文章的人类可读HTML版本，URL格式为：`https://yxnexus.com/posts/[文章SLUG]`。
**感激您与YX Nexus博客停止担任任的互动。**

04 最佳实际在部署了新的 llms.txt 和 API 之后，我再次约请 Manus 对 yxnexus.com 停止内容分析。
(, 下载次数: 0)
这一次，Manus 的表现令人惊喜。它成功地解析了 llms.txt，并按照指南调用了 API，获取了大部分文章的元数据和 Markdown 内容（虽然有大批因服务器瞬时错误未能获取），最终生成了一份相当专业和深化的博客内容分析报告。
(, 下载次数: 0)
Manus调用 API 是本人编写了脚本的。那么，为什么不直接写脚本抓取文章呢？下面也回答过，不波动也不安全。维护成本高，且无法控制他抓取哪些内容。而 API+llms.txt 的方案让我对内容有完全的控制权，更容易跟踪与管理 AI 的访问行为。假如 AI 无看法、偏好的话，我置信他一定会更喜欢这种方案。

可以直接访问以下链接观看残缺回放。文末会有无需约请码的注册指南。https://manus.im/share/Hrv2f63UzOMXhB78rZnqUR?replay=1

05 感悟AI 敌对型内容生态的重要性：在 AI Agent 日益普及的将来，内容创作者或许需求转变思绪，不只仅思索人类读者的阅读体验，也要思索如何让本人的内容更容易被 AI 了解和应用。提供结构化的数据接口 (如 API) 和明晰的交互指南 (如 llms.txt) 将是重要的趋向。赋予 llms.txt 新的战略价值：它不再仅仅是一个简单的文本文件，而是成为了我与AI世界沟通的桥梁和“站点API的阐明文档”，自动引导AI以我希冀的方式与博客互动。llms.txt 有潜力成为将来网站向 AI 世界停止“自我引见”和“开放才能”的标准协议之一。但是对于国内的内容生态，我对此不敢断言。互联网时代有SEO（搜索引擎优化），让网站在搜索引擎中的权重更高以此更易被发现。那么 AI 时代的“优化”莫过于此了——为 AI Agent 搭建更流利、更高效的信息获取途径。

06 注册最后，是无需约请码注册 Manus 的方法——访问以下恣意一个约请链接，并运用谷歌登录：https://manus.im/login?code=KT5YQWLBPZGB&type=signUphttps://manus.im/login?code=698ZWDAJ1ANZ&type=signUp

(, 下载次数: 0)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)