分面导航
分面导航是一种 UI 模式,让用户通过组合筛选和排序(分类、标签、价格、排序方式等)来收窄内容列表。它常见于电商分类页以及博客的标签或筛选页,能提升易用性,但也会制造出最棘手的技术 SEO问题之一:URL 爆炸。
分面导航是一种 UI 模式,让用户通过组合筛选和排序(分类、标签、价格、排序方式等)来收窄内容列表。它常见于电商分类页以及博客的标签或筛选页,能提升易用性,但也会制造出最棘手的技术 SEO问题之一:URL 爆炸。
为什么重要
三个筛选项、每个有 5 个选项,理论上会产生 5³ = 125 种 URL 组合。再加上更多筛选项,你面对的就是数以万计的 URL。当 Googlebot 把它们全部抓取一遍时,你会遇到:
- 浪费抓取预算:资源流向了筛选组合,而非真正的内容(实际的文章)。
- 重复内容:同一份文章列表在数十个排序和筛选 URL 下反复出现。
- 瘦内容:只有 0 到 2 条结果的筛选组合在索引中堆积。
- 稀释链接权重:反向链接落在带参数的 URL 上而非规范 URL 上,把排名信号打散了。
Google 推荐的处理方式
1. 只索引有价值的分面:允许有真实搜索需求的组合(例如"首尔的意大利餐厅")被索引,屏蔽无人搜索的组合(例如"按价格降序排列")。
2. 规范化归一:将语义等价的组合的规范标签指向一个有代表性的 URL,例如 /blog?tag=seo&sort=latest → 规范 /blog?tag=seo。
3. noindex, follow Meta 标签:在你不希望被索引的筛选页上使用 <meta name="robots" content="noindex, follow">。它会阻止索引,但仍允许 Google 跟踪内部链接。
4. 在 robots.txt 中 Disallow:对于你希望 Googlebot 完全跳过的 URL 模式(?sort=、?view=、?utm=),在 robots.txt 中屏蔽它们。请谨慎使用,因为它也会屏蔽来自指向这些 URL 的外部链接的排名信号。
5. 不再有 URL 参数工具:Google 已于 2022 年在 Search Console 中下线了 URL 参数工具。参数处理现在只能依靠规范标签、meta robots 和 robots.txt。
6. 在筛选链接上使用 rel="nofollow":对筛选链接应用 nofollow,让爬虫不去追踪它们。手段激进但有效。
哪些应索引、哪些应屏蔽
允许索引:
- 代表某个独立主题的主分类页和标签页
- 已被验证有搜索需求的筛选组合
- 配有独特描述、内容更丰富的着陆页
屏蔽索引:
- 排序方式 URL(
?sort=price_asc、?sort=date_desc) - 每页条目数 URL(
?per_page=20) - 站内搜索结果 URL(
?q=...) - 组合了 3 个以上筛选项的页面
- 带会话或追踪参数的 URL
如何诊断
- Search Console 覆盖率报告:检查被标记为"已抓取,但目前未编入索引"的 URL,排查参数滥用。
- Ahrefs / Screaming Frog 站点抓取:测量你的站点实际暴露了多少 URL。如果是你预期的 10 倍,你就有分面导航问题了。
- 日志文件分析:查看哪些 URL 模式在吞噬 Googlebot 的请求,以诊断抓取预算的浪费。
Sources: