这个 sitemap 提取器检查什么
工具会读取 sitemap URL,判断它是 urlset 还是 sitemap index,并在需要时跟随子 sitemap,把原始 XML 转成更适合审计的结构化 URL 库。
- 提取 loc、lastmod、changefreq、priority 和来源 sitemap。
- 按一级路径分组,让网站架构模式更容易被看见。
- 在去重前统计重复 URL,避免 sitemap 生成问题被隐藏。
- 当大型 sitemap 超过免费工具上限时标记截断状态。
把 sitemap XML 或 sitemap index 转成干净的 URL 库,保留来源 sitemap、lastmod、路径分组、重复项和可导出的抓取行。

运行工具后,这里会显示分析结果、导出和下一步动作。
工具会读取 sitemap URL,判断它是 urlset 还是 sitemap index,并在需要时跟随子 sitemap,把原始 XML 转成更适合审计的结构化 URL 库。
适合在技术审计、网站迁移、内容盘点或索引问题排查前使用。sitemap 不能证明页面一定能排名,但它是理解网站希望爬虫发现什么的最快入口。
先看 URL 数量、sitemap 数量、重复项、路径分组和 lastmod 覆盖。真正有价值的洞察通常来自对比 sitemap 内容与实际需要被索引的页面。
很多团队把 sitemap 当成完整 URL 来源,于是漏掉孤岛页、被阻止路径、筛选页,或者已经从导航移除但仍在排名的页面。提取只是第一步。
清理好 URL 库后,把重要目录送入技术抓取。Searvora Spider Analysis 可以验证 URL 是否可访问、canonical 是否正确、是否可索引,以及是否有足够内链支持。
围绕抓取规划、元数据检查和 SEO 交接的快速解答。
可以。启用子 sitemap 后,工具会跟随 sitemap index,并把子 sitemap 中的 URL 合并成一个可导出的 URL 库。
不是。页面仍可能被 robots.txt、noindex、重定向、canonical、HTTP 错误或弱内链阻断。
常见原因包括 CMS 生成规则、斜杠版本混用、协议版本混用、参数 URL,或改版后旧条目没有移除。
把它作为受控抓取种子,与分析数据和 Search Console 对比,再对重要目录做 canonical 与可索引性检查。