# TYPO3 LLMs.txt扩展：为AI爬虫打造网站内容索引

> 一款TYPO3 CMS扩展，自动生成llms.txt文件和Markdown格式内容，帮助AI/LLM爬虫高效理解和访问网站内容，支持多语言和API密钥保护。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-04-25T10:14:53.000Z
- 最近活动: 2026-04-25T10:51:22.032Z
- 热度: 161.4
- 关键词: llms.txt, TYPO3, AI爬虫, LLM, 内容索引, Markdown, 多语言, RAG, 内容优化
- 页面链接: https://www.zingnex.cn/forum/thread/typo3-llms-txt-ai
- Canonical: https://www.zingnex.cn/forum/thread/typo3-llms-txt-ai
- Markdown 来源: ingested_event

---

# TYPO3 LLMs.txt扩展：为AI爬虫打造网站内容索引

## 背景：AI爬虫需要的新协议

随着ChatGPT、Claude、Perplexity等AI应用的普及，网站面临一个新的受众群体——不是人类访客，而是机器爬虫。这些AI爬虫需要以不同于传统搜索引擎的方式访问内容：它们需要结构化的站点地图、干净的内容格式，以及明确的访问指引。

`llms.txt`正是为此而生的标准。这个概念由llmstxt.org提出，旨在为大型语言模型提供一个标准化的方式来发现和访问网站内容。类似于`robots.txt`告诉搜索引擎哪些页面可以爬取，`llms.txt`告诉AI系统如何最佳地消费你的内容。

## 项目概述：TYPO3 CMS的官方扩展

`rtfirst/llms-txt`是一款专为TYPO3内容管理系统开发的扩展，它实现了llmstxt.org规范，为TYPO3网站提供完整的AI爬虫支持。该扩展不仅生成标准的`llms.txt`索引文件，还提供Markdown格式的内容输出，让AI系统能够直接获取干净、结构化的文本内容。

该扩展支持TYPO3 13.0至14.x版本，要求PHP 8.2或更高版本，并提供了丰富的配置选项，包括多语言支持、页面级元数据控制，以及可选的API密钥保护。

## 核心概念：双层内容访问架构

该扩展采用了llmstxt.org规范推荐的双层架构：

### 第一层：llms.txt索引文件

这是一个位于网站根目录的单一文件，包含：

- **网站元数据**：标题、描述、域名、语言
- **页面结构**：完整的站点导航树，包含每个页面的SEO描述和关键词
- **访问指引**：说明如何获取完整页面内容的指令

这个文件充当了AI爬虫的"入口指南"，帮助它们快速理解网站结构，找到感兴趣的内容。

### 第二层：Markdown内容格式

通过在任意页面URL后添加`.md`后缀，AI爬虫可以获取该页面的Markdown格式内容。这些内容包含：

- **YAML前置元数据**：标题、描述、语言、日期、canonical URL等
- **干净的Markdown正文**：去除HTML标签、广告、导航等干扰元素
- **结构化的标题层级**：便于LLM理解内容层次

这种格式特别适合RAG（检索增强生成）系统，因为Markdown既保留了结构信息，又易于解析和处理。

## 多语言支持：简洁而强大的方案

与为每种语言生成独立的llms.txt文件不同，该扩展采用了更简洁的方案：

- **单一llms.txt文件**：包含默认语言的站点结构
- **语言特定的URL前缀**：通过`.md`后缀结合语言前缀访问不同语言版本

例如：
- 默认语言：`https://example.com/about.md`
- 英语：`https://example.com/en/about.md`
- 德语：`https://example.com/de/ueber-uns.md`

这种设计更符合多语言网站的实际工作方式，避免了维护多个llms.txt文件的复杂性。

## 功能特性详解

### 自动缓存生成

当TYPO3缓存被清除时，扩展会自动重新生成`llms.txt`文件。这确保了索引始终与网站内容保持同步，无需手动维护。

### 页面属性控制

每个TYPO3页面都有一个"LLM"标签页，提供以下控制选项：

| 字段 | 功能 |
|------|------|
| 从llms.txt排除 | 隐藏特定页面（如后台、测试页面） |
| LLM优先级 | 控制页面在索引中的排序（0-100） |
| LLM描述 | 自定义描述（默认使用meta描述） |
| LLM摘要 | 额外的摘要文本，以引用形式展示 |
| LLM关键词 | 逗号分隔的主题标签 |

这种细粒度的控制让内容管理员可以精确地管理AI爬虫看到的内容。

### HTML头部链接

扩展会自动在所有HTML页面头部添加以下标签：

```html
<link rel="alternate" type="text/plain" href="/llms.txt" title="LLM Content Guide">
```

这帮助AI爬虫从任意页面都能发现`llms.txt`文件的存在。

### API密钥保护

对于需要限制访问的场景，扩展支持API密钥保护：

- 在Site Settings中配置`llmsTxt.apiKey`
- 通过HTTP头`X-LLM-API-Key`或查询参数`api_key`传递密钥
- 未授权访问返回401错误

这个功能特别适合以下场景：
- 企业内网知识库，仅供内部RAG系统访问
- 付费内容，限制外部爬虫抓取
- 测试环境，防止未完成的页面被索引

## 配置指南

### 安装与激活

```bash
composer require rtfirst/llms-txt
ddev typo3 extension:setup
ddev typo3 cache:flush
```

### Site Settings配置

添加"LLMs.txt Generator"Site Set后，在Site Settings中配置：

| 设置项 | 说明 |
|--------|------|
| llmsTxt.baseUrl | 网站完整URL（如https://example.com） |
| llmsTxt.intro | 网站介绍，显示在llms.txt开头 |
| llmsTxt.excludePages | 排除的页面UID（逗号分隔） |
| llmsTxt.includeHidden | 是否包含隐藏页面 |
| llmsTxt.apiKey | API密钥（留空为公开访问） |

### robots.txt配置

建议添加以下内容，允许主流AI爬虫访问：

```
User-agent: GPTBot
Allow: /llms.txt

User-agent: Claude-Web
Allow: /llms.txt

User-agent: Anthropic-AI
Allow: /llms.txt
```

## 输出示例

生成的`llms.txt`文件结构如下：

```markdown
# My Website

> Your expert for quality products and services.

**Specification:** https://llmstxt.org/
**Domain:** https://example.com
**Language:** de
**Generated:** 2026-01-31 12:00:00

## LLM-Optimized Content Access

This site provides LLM-friendly Markdown output for all pages:

### Markdown Format
Append `.md` to any page URL to get plain Markdown with YAML frontmatter.
- **Example:** `https://example.com/page-slug.md`

## Page Structure

- **[Home](/)**
  Welcome to our website with all important information.
  [Markdown](/index.html.md)

  - **[About](/about/)**
    Learn about our company history and values.
    *Keywords: company, history, values*
    [Markdown](/about.md)
```

## Markdown输出格式

访问`/page.md`返回的内容包含：

```markdown
---
title: "About Us"
description: "Learn about our company..."
language: en
date: 2024-06-15
lastmod: 2026-01-31
canonical: "/about"
format: markdown
generator: "TYPO3 LLMs.txt Extension"
---

# About Us

> Learn about our company...

## Our History

Our company was founded in 1985...
```

这种格式既人类可读，又便于机器解析，是RAG系统的理想输入。

## 开发质量保障

该项目展示了专业开源项目的质量实践：

- **静态分析**：PHPStan Level 8严格检查
- **代码风格**：PHP-CS-Fixer统一格式
- **自动化重构**：Rector保持代码现代化
- **CI/CD**：GitHub Actions自动运行测试矩阵（PHP 8.2-8.4，TYPO3 13 & 14）
- **单元测试**：PHPUnit确保功能正确性

## 实际应用场景

### 企业知识库RAG

企业可以使用此扩展为内部知识库网站生成`llms.txt`，配合API密钥保护，确保只有授权的RAG系统能够访问。员工可以通过对话式AI助手查询公司政策、产品文档等内容。

### 内容创作者

博客作者、新闻网站可以启用此扩展，让自己的内容更容易被AI搜索工具发现和引用。当AI系统回答相关问题时，更有可能引用你的文章作为来源。

### 多语言电商

跨境电商网站可以利用多语言支持，为不同市场的AI系统提供本地化的内容索引，提升在各地AI搜索中的可见度。

## 与n8n等自动化工具的集成

扩展的API密钥支持使其易于与n8n等自动化平台集成。在n8n的HTTP Request节点中，只需添加`X-LLM-API-Key`头部即可安全访问受保护的内容。

## 总结与展望

`rtfirst/llms-txt`扩展代表了CMS生态对AI时代的积极响应。它不仅仅是技术实现，更是一种新的内容发布理念——网站不仅要为人类访客优化，也要为AI消费者优化。

对于TYPO3用户来说，这个扩展提供了一个零摩擦的方式来拥抱`llms.txt`标准。安装、配置、完成——你的网站现在就具备了AI友好的内容访问能力。

随着AI搜索和RAG应用的普及，我们可以预见`llms.txt`将成为与`robots.txt`、`sitemap.xml`并列的标准网站文件。早期采用这一标准的网站，将在AI驱动的信息检索时代占据先机。
