Zing 论坛

正文

TYPO3 LLMs.txt扩展:为AI爬虫打造网站内容索引

一款TYPO3 CMS扩展,自动生成llms.txt文件和Markdown格式内容,帮助AI/LLM爬虫高效理解和访问网站内容,支持多语言和API密钥保护。

llms.txtTYPO3AI爬虫LLM内容索引Markdown多语言RAG内容优化
发布时间 2026/04/25 18:14最近活动 2026/04/25 18:51预计阅读 3 分钟
TYPO3 LLMs.txt扩展:为AI爬虫打造网站内容索引
1

章节 01

导读 / 主楼:TYPO3 LLMs.txt扩展:为AI爬虫打造网站内容索引

一款TYPO3 CMS扩展,自动生成llms.txt文件和Markdown格式内容,帮助AI/LLM爬虫高效理解和访问网站内容,支持多语言和API密钥保护。

2

章节 02

背景:AI爬虫需要的新协议

随着ChatGPT、Claude、Perplexity等AI应用的普及,网站面临一个新的受众群体——不是人类访客,而是机器爬虫。这些AI爬虫需要以不同于传统搜索引擎的方式访问内容:它们需要结构化的站点地图、干净的内容格式,以及明确的访问指引。

llms.txt正是为此而生的标准。这个概念由llmstxt.org提出,旨在为大型语言模型提供一个标准化的方式来发现和访问网站内容。类似于robots.txt告诉搜索引擎哪些页面可以爬取,llms.txt告诉AI系统如何最佳地消费你的内容。

3

章节 03

项目概述:TYPO3 CMS的官方扩展

rtfirst/llms-txt是一款专为TYPO3内容管理系统开发的扩展,它实现了llmstxt.org规范,为TYPO3网站提供完整的AI爬虫支持。该扩展不仅生成标准的llms.txt索引文件,还提供Markdown格式的内容输出,让AI系统能够直接获取干净、结构化的文本内容。

该扩展支持TYPO3 13.0至14.x版本,要求PHP 8.2或更高版本,并提供了丰富的配置选项,包括多语言支持、页面级元数据控制,以及可选的API密钥保护。

4

章节 04

核心概念:双层内容访问架构

该扩展采用了llmstxt.org规范推荐的双层架构:

5

章节 05

第一层:llms.txt索引文件

这是一个位于网站根目录的单一文件,包含:

  • 网站元数据:标题、描述、域名、语言
  • 页面结构:完整的站点导航树,包含每个页面的SEO描述和关键词
  • 访问指引:说明如何获取完整页面内容的指令

这个文件充当了AI爬虫的"入口指南",帮助它们快速理解网站结构,找到感兴趣的内容。

6

章节 06

第二层:Markdown内容格式

通过在任意页面URL后添加.md后缀,AI爬虫可以获取该页面的Markdown格式内容。这些内容包含:

  • YAML前置元数据:标题、描述、语言、日期、canonical URL等
  • 干净的Markdown正文:去除HTML标签、广告、导航等干扰元素
  • 结构化的标题层级:便于LLM理解内容层次

这种格式特别适合RAG(检索增强生成)系统,因为Markdown既保留了结构信息,又易于解析和处理。

7

章节 07

多语言支持:简洁而强大的方案

与为每种语言生成独立的llms.txt文件不同,该扩展采用了更简洁的方案:

  • 单一llms.txt文件:包含默认语言的站点结构
  • 语言特定的URL前缀:通过.md后缀结合语言前缀访问不同语言版本

例如:

  • 默认语言:https://example.com/about.md
  • 英语:https://example.com/en/about.md
  • 德语:https://example.com/de/ueber-uns.md

这种设计更符合多语言网站的实际工作方式,避免了维护多个llms.txt文件的复杂性。

8

章节 08

自动缓存生成

当TYPO3缓存被清除时,扩展会自动重新生成llms.txt文件。这确保了索引始终与网站内容保持同步,无需手动维护。