02 引入 llms.txt如今的内容呈现方式是服务于人类的,尤其是以网页这种侧重于交互、视觉的设计。我看法到,希冀 AI Agent 能像人类一样“智能”地阅读一切类型的网页,在当前阶段能够并不理想。更有效的途径,或许是作为内容提供者,自动为 AI 提供一个更明晰、更结构化的指南。我想到了llms.txt——由 Jeremy Howard 于 2024 年提出的一种 AI 优先的文档索引标准,目的是为大言语模型提供简约、结构化的网站文档概览和链接,协助模型在推理时疾速获取关键信息而不受多余内容干扰。它相似于面向搜索引擎的 robots.txt 或 sitemap.xml(站点地图),但专为 LLM 设计,经过 Markdown 格式同时兼具人类可读性与机器可解析性。我与 Cursor 协作,创建了博客的第一个基础版本 llms.txt,包含了博客的基本信息和指向次要 HTML 页面的链接。但是,简单的链接指向,对于 Manus 获取文章的详细原始文本协助依然有限。AI 仍需自行解析 HTML 结构,这与直接提供更纯粹的内容源相比,效率和准确性上仍有差距。
03 API+重构llms.txt一个理想的面向 AI 的交互方案是什么样的?回答这个成绩先要知道当前的 AI,尤以LLM 为代表,在处理文字(自然言语了解)、代码等方面,相较于同等规模图片包含的信息,LLM 处理前者具有相对抢先的优势。所以,我需求直接告诉访问网站并希望获得内容的 AI(以 Manus 为代表的Agent),这里“有什么”、“如何获取这里的内容”(我提供了什么)。我重构了 llms.txt (这里有什么)的角色。由站点引见到一份面向 AI 的交互手册,同时引入两个 API (如何获得这里的内容)。并且与 Cursor 协作放大效率。
第一个关键节点:内容获取 API
我们首先创建了一个 API 端点,允许经过文章的独一标识符 (slug) 直接央求并获得该文章的原始 Markdown 文本。Markdown 格式对 AI 极为敌对,它既保留了文章的逻辑结构(标题、列表、援用等),又剥离了 HTML 的复杂渲染信息,使得 AI 可以直接处理最核心的内容。
第二个关键节点:元数据索引 API
处理了单篇文章的获取成绩后,新的成绩随之而来:AI 如何知道我的博客上有多少篇文章?它们的 slug 分别是什么?为了处理这个成绩,我们创建了第二个 API,它可以前往一个包含一切文章元数据(标题、slug、发布日期、摘要、标签等)的 JSON 列表。这为 AI 提供了一个威望的、结构化的全站文章目录,使其可以先对博客内容有一个全局的了解,再按需精准获取。