Sitemap URL 提取器

不用手工清洗 XML,也能提取 sitemap 中的全部 URL。

把 sitemap XML 或 sitemap index 转成干净的 URL 库,保留来源 sitemap、lastmod、路径分组、重复项和可导出的抓取行。

跟随 sitemap index重复 URL 清理lastmod 与路径分组CSV 和 JSON 导出
Sitemap URL 提取器界面,将 XML sitemap 转成干净 URL 库
Sitemap 输入提取摘要URL 结构拆解URL 清单与导出下一步抓取动作

工具输入

填写 XML sitemap 或 sitemap index 地址。
最多返回 1 到 5000 个 URL。

结果

运行工具后,这里会显示分析结果、导出和下一步动作。

这个 sitemap 提取器检查什么

工具会读取 sitemap URL,判断它是 urlset 还是 sitemap index,并在需要时跟随子 sitemap,把原始 XML 转成更适合审计的结构化 URL 库。

  • 提取 loc、lastmod、changefreq、priority 和来源 sitemap。
  • 按一级路径分组,让网站架构模式更容易被看见。
  • 在去重前统计重复 URL,避免 sitemap 生成问题被隐藏。
  • 当大型 sitemap 超过免费工具上限时标记截断状态。

什么时候使用 sitemap URL 提取器

适合在技术审计、网站迁移、内容盘点或索引问题排查前使用。sitemap 不能证明页面一定能排名,但它是理解网站希望爬虫发现什么的最快入口。

  • 大站抓取前,选择优先抓取的 URL 组。
  • 迁移前后,对比新旧 sitemap 覆盖情况。
  • 内容裁剪前,发现陈旧目录和 lastmod 模式。
  • 把 URL 导出给其他 SEO 工作流或表格。

如何解读提取结果

先看 URL 数量、sitemap 数量、重复项、路径分组和 lastmod 覆盖。真正有价值的洞察通常来自对比 sitemap 内容与实际需要被索引的页面。

  • 大型路径组可能代表需要单独抓取规则的模板区。
  • 缺少 lastmod 不一定致命,但会降低新鲜度判断能力。
  • 重复 URL 往往指向生成规则、canonical 漂移或斜杠规则混乱。
  • 干净导出应该成为状态码、canonical 和可索引性检查的起点。

常见 sitemap 提取误区

很多团队把 sitemap 当成完整 URL 来源,于是漏掉孤岛页、被阻止路径、筛选页,或者已经从导航移除但仍在排名的页面。提取只是第一步。

  • 不要假设 sitemap 中的每个 URL 都可索引。
  • 不要在大站上忽略子 sitemap index。
  • 不要把重复 URL 直接导入抓取预算或报表。
  • 不要把陈旧 lastmod 当成近期内容更新的证据。

提取 URL 后下一步做什么

清理好 URL 库后,把重要目录送入技术抓取。Searvora Spider Analysis 可以验证 URL 是否可访问、canonical 是否正确、是否可索引,以及是否有足够内链支持。

  • XML 结构或 lastmod 质量有风险时,运行 sitemap validator。
  • 高价值重复模式出现时,使用 canonical checker。
  • 页面被收录困难但在 sitemap 中时,检查可索引性。
  • 需要责任人和修复队列时,进入 Spider Analysis。
  • 记录 URL 组、责任人、预期影响、验证步骤和下一步发布决策,让结果变成可执行的修复票据,而不是又一个导出的表格。
常见问题

Sitemap URL 提取器 常见问题

围绕抓取规划、元数据检查和 SEO 交接的快速解答。

这个工具能提取 sitemap index 吗?

可以。启用子 sitemap 后,工具会跟随 sitemap index,并把子 sitemap 中的 URL 合并成一个可导出的 URL 库。

出现在 sitemap 里就代表页面可索引吗?

不是。页面仍可能被 robots.txt、noindex、重定向、canonical、HTTP 错误或弱内链阻断。

为什么 sitemap 会出现重复 URL?

常见原因包括 CMS 生成规则、斜杠版本混用、协议版本混用、参数 URL,或改版后旧条目没有移除。

导出的 URL 清单应该怎么用?

把它作为受控抓取种子,与分析数据和 Search Console 对比,再对重要目录做 canonical 与可索引性检查。

Sitemap URL 提取器

把 sitemap 库变成抓取决策。

提取之后,需要验证这些 URL 是否足够干净,能不能作为更深度 Spider Analysis 的输入。 如果还需要确认其他 SEO 信号,可以先使用下方相关工具,再进入完整的 Spider Analysis 流程。