软 404
软 404 是指服务器返回 HTTP 200(OK),但 Google 分析页面内容后判定该页面实际上并不存在的状态。页面在浏览器中能正常打开,但 Google 会将其排除在搜索结果之外,并在 Search Console 覆盖率报告中将其标记为"软 404"。
软 404 是指服务器返回 HTTP 200(OK),但 Google 分析页面内容后判定该页面实际上并不存在的状态。页面在浏览器中能正常打开,但 Google 会将其排除在搜索结果之外,并在 Search Console 覆盖率报告中将其标记为"软 404"。
为什么重要
软 404 处于灰色地带,"技术上没问题,对 SEO 却是灾难"。站点所有者很容易认为"页面能打开,所以没事",但 Google 既不会索引这些页面,也不会停止在它们身上消耗抓取预算,这会损害域名整体的抓取和索引效率。用 Ahrefs 对大型站点进行审计时,常会把 2% 到 8% 的 URL 归类为软 404。
软 404 vs 硬 404 vs 200
| 状态 | HTTP 代码 | Google 判定 | 用户体验 |
|---|---|---|---|
| 正常页面 | 200 | 已索引 | 内容齐全 |
| 硬 404 | 404 | 从索引中移除 | 错误页面 |
| 软 404 | 200 | 排除在索引外 | 内容稀薄或为空 |
Google 的明确指引是:"如果页面不存在,返回 404;如果存在,提供真实内容。"软 404 正是这两个条件都未满足的状态。
常见成因
缺货商品页:电商中已下架商品的页面,返回一行"无货"提示却带 200 状态码。
空搜索结果页:站内搜索返回"无结果"文本却带 200 状态码。
稀薄内容:只有标题、正文几乎为空,或只有一张图片的文章。
缺失重定向:已删除的页面返回"页面未找到"文本却带 200 状态码,而非真正的 404。
JavaScript 渲染失败:SPA 在 JS 加载之前向 Googlebot 交付空的 <body>。
需登录的内容:返回"访问被拒绝"文本却带 200 状态码的页面。
模板泛滥:成千上万个基于地区或分类的页面,使用基本相同的模板,几乎没有独特内容。
如何诊断
Search Console 覆盖率报告:"已排除"选项卡会直接标记"软 404"URL。
URL 检查:对比 Google 对某个特定 URL 的渲染结果与你的预期。
Screaming Frog:按响应代码筛选,找出内容稀薄的 200 页面。
HTTP 代码 + 内容长度矩阵:自定义审计,标记出状态为 200 且正文文本低于某阈值的 URL。
如何修复
返回真正的 404:如果页面不存在,将服务器配置为返回 404(永久移除则用 410)。这是最可靠的修复方法。
301 重定向:如果被移除的页面拥有有价值的反向链接,301 重定向到最相关的父页面以保住权重。
充实内容:为稀薄页面填充真正有价值的内容。缺货页面可以加入相似商品推荐。
noindex:对于站内搜索结果或稀薄的筛选组合,添加 noindex 元标签,让 Google 不再处理它们。
改用 SSR/SSG:如果是 JS 渲染延迟所致,迁移到服务端渲染。
减少模板页:合并或删除自动生成的稀薄页面。
Sources: