站点地图
站点地图是一个结构化文件,为搜索引擎提供网站上页面、图片、视频及其他内容的 URL 列表。它充当一张"地图",帮助搜索引擎爬虫更高效地探索和索引站点。
站点地图是一个结构化文件,为搜索引擎提供网站上页面、图片、视频及其他内容的 URL 列表。它充当一张"地图",帮助搜索引擎爬虫更高效地探索和索引站点。
为什么重要
搜索引擎通过跟踪链接来发现网页。然而,对于新创建的页面、内部链接不足的深层页面,或拥有数十万页面的大型站点,爬虫可能难以自然地发现每一个页面。站点地图直接将这些页面告知搜索引擎,从而提高抓取效率并防止索引遗漏。
在以下场景中,站点地图尤为不可或缺:
- 拥有 500 个或更多页面的大型站点
- 外部反向链接极少的新站点
- 含有大量图片、视频等富媒体内容的站点
- 内容频繁更新的新闻站点
站点地图是一个发现和重新抓取的提示,而非索引的保证。Google 可能从站点地图中抓取某个 URL,却仍然由于质量、重复、规范选择、noindex 指令或渲染问题而选择不予索引。
类型
站点地图根据用途分为几种类型:
XML 站点地图:最基本、应用最广泛的格式。它使用 <url>、<loc> 和 <lastmod> 等标签来构建每个页面的 URL 和元数据。
图片站点地图:一种专门向搜索引擎告知图片内容的格式。当你想最大化图片搜索可见度时很有用。
视频站点地图:包含视频内容的标题、描述、时长等元数据,帮助 Google 更好地理解你的视频。
新闻站点地图:面向新闻发布者的专用格式,只应包含最近 2 天内发布的文章。
站点地图索引:当单个站点地图文件超过 50,000 个 URL 或 50MB 时,将多个站点地图归组,并通过单个索引文件进行管理。
HTML 站点地图:一种面向用户而非搜索引擎的站点地图。它是一个汇集站点关键页面链接的页面,提升导航便利性。
设置指南
第 1 步 — 生成站点地图
生成站点地图有三种方法。第一,使用 CMS 或框架的内置功能或插件(例如 WordPress 的 Yoast SEO)。第二,使用 Screaming Frog 等抓取工具自动生成。第三,手动编写 XML 文件,适用于小型站点。
第 2 步 — 遵守必要规则
- 每个文件的 URL 保持在 50,000 个或以内,文件大小不超过 50MB
- 使用 UTF-8 编码
- 将 URL 写为绝对路径(例如
https://example.com/page) - 仅包含规范 URL。排除发生重定向或重复页面的 URL
- 仅当时间戳反映了有意义的内容变更时才使用
<lastmod>。不准确的时间戳会使搜索引擎忽略该信号。
第 3 步 — 部署并提交
将站点地图文件放在站点根目录下(例如 https://example.com/sitemap.xml)。在你的 robots.txt 文件中添加 Sitemap: https://example.com/sitemap.xml,并通过 Google Search Console 的"站点地图"菜单提交该 URL。
第 4 步 — 设置自动更新
将站点地图配置为在内容被添加、修改或删除时自动更新。在 <lastmod> 标签中使用准确的修改时间戳,以促使搜索引擎优先重新抓取已变更的页面。
对于超大型站点,将 URL 拆分为文章、分类、图片或视频等逻辑子站点地图,并通过站点地图索引引用它们。Bing 等引擎也可能支持 IndexNow 以加快发现速度,但它应当作为补充,而非取代一份干净的 XML 站点地图和内部链接。
常见错误
在站点地图中包含 noindex 页面:将带有 noindex 标签或被 robots.txt 屏蔽的页面加入站点地图,会向搜索引擎发送相互矛盾的信号。站点地图中只应包含你希望被索引的页面。
包含断链(404):如果已删除页面的 URL 仍留在站点地图中,Google Search Console 将报告"已提交的 URL 未找到(404)"错误。请定期审计站点地图并移除无效 URL。
包含重定向或非规范 URL:站点地图中的 URL 应是最终的规范目标。提交旧 URL、带跟踪参数的 URL 或备用规范版本会浪费抓取预算,并使诊断变得混乱。
日期格式错误:根据 SEMrush 的研究,约 62% 的 XML 站点地图错误源于日期格式问题。<lastmod> 必须遵循 W3C Datetime 格式(例如 2026-03-17 或 2026-03-17T09:00:00+09:00)。
URL 格式不一致:混用 https 和 http,或 www 和非 www,可能导致搜索引擎将同一页面视为不同的实体。站点地图内所有 URL 都应使用一种一致的格式。
生成了站点地图却未提交:即使你创建了站点地图文件,如果不将其提交到 Google Search Console 或 Bing Webmaster Tools,搜索引擎可能需要相当长的时间才能发现它。
Sources:
- 什么是站点地图 | Google Search Central
- XML 站点地图:它是什么以及如何生成 - Semrush
- 如何创建 XML 站点地图(并提交给 Google) - Ahrefs
- IndexNow 文档 - Bing Webmaster Tools
相关 inblog 文章
inblog 如何提供帮助
inblog 会动态生成 XML 站点地图,自动反映文章的发布与删除。