Sitemap URL 擷取器

不用手工清洗 XML,也能提取 sitemap 中的全部 URL。

把 sitemap XML 或 sitemap index 轉成乾淨的 URL 庫,保留來源 sitemap、lastmod、路徑分組、重複項和可匯出的抓取行。

跟随 sitemap index重複 URL 清理lastmod 與路徑分組CSV 和 JSON 匯出
Sitemap URL 擷取器界面,將 XML sitemap 轉成乾淨 URL 庫
Sitemap 輸入提取摘要URL 結構拆解URL 清單與匯出下一步抓取动作

工具輸入

填入 XML sitemap 或 sitemap index 位址。
最多回傳 1 到 5000 個 URL。

結果

執行工具後,這裡會顯示分析結果、匯出與下一步動作。

這個 sitemap 擷取器檢查什么

工具會讀取 sitemap URL,判斷它是 urlset 还是 sitemap index,並在需要時跟随子 sitemap,把原始 XML 轉成更適合審计的結構化 URL 庫。

  • 提取 loc、lastmod、changefreq、priority 和來源 sitemap。
  • 按一級路徑分組,讓網站架構模式更容易被看见。
  • 在去重前統计重複 URL,避免 sitemap 產生問題被隐藏。
  • 当大型 sitemap 超過免費工具上限時標記截斷狀態。

什么時候使用 sitemap URL 擷取器

適合在技術審计、網站遷移、內容盘点或索引問題排查前使用。sitemap 不能證明頁面一定能排名,但它是理解網站希望爬蟲發現什么的最快入口。

  • 大站抓取前,選擇優先抓取的 URL 組。
  • 遷移前後,對比新旧 sitemap 覆蓋情況。
  • 內容裁剪前,發現陈旧目錄和 lastmod 模式。
  • 把 URL 匯出给其他 SEO 工作流或表格。

如何解讀提取結果

先看 URL 數量、sitemap 數量、重複項、路徑分組和 lastmod 覆蓋。真正有价值的洞察通常来自對比 sitemap 內容與實際需要被索引的頁面。

  • 大型路徑組可能代表需要單独抓取規則的模板區。
  • 缺少 lastmod 不一定致命,但會降低新鲜度判斷能力。
  • 重複 URL 往往指向產生規則、canonical 漂移或斜杠規則混乱。
  • 乾淨匯出應該成為狀態碼、canonical 和可索引性檢查的起点。

常见 sitemap 提取误區

很多團隊把 sitemap 当成完整 URL 來源,於是漏掉孤岛頁、被阻止路徑、篩选頁,或者已經從導航移除但仍在排名的頁面。提取只是第一步。

  • 不要假設 sitemap 中的每個 URL 都可索引。
  • 不要在大站上忽略子 sitemap index。
  • 不要把重複 URL 直接導入抓取預算或報表。
  • 不要把陈旧 lastmod 当成近期內容更新的證據。

提取 URL 後下一步做什么

清理好 URL 庫後,把重要目錄送入技術抓取。Searvora Spider Analysis 可以驗證 URL 是否可訪問、canonical 是否正確、是否可索引,以及是否有足够內鏈支持。

  • XML 結構或 lastmod 品質有风險時,執行 sitemap validator。
  • 高价值重複模式出現時,使用 canonical checker。
  • 頁面被收錄困難但在 sitemap 中時,檢查可索引性。
  • 需要責任人和修復隊列時,進入 Spider Analysis。
  • 記錄 URL 群組、負責人、預期影響、驗證步驟和下一步發布決策,讓結果變成可執行的修復票據,而不是又一份匯出的表格。
常見問題

Sitemap URL 擷取器 常見問題

圍繞抓取規劃、metadata 檢查與 SEO 交接的快速解答。

這個工具能提取 sitemap index 吗?

可以。啟用子 sitemap 後,工具會跟随 sitemap index,並把子 sitemap 中的 URL 合並成一個可匯出的 URL 庫。

出現在 sitemap 里就代表頁面可索引吗?

不是。頁面仍可能被 robots.txt、noindex、重定向、canonical、HTTP 錯誤或弱內鏈阻斷。

為什么 sitemap 會出現重複 URL?

常见原因包括 CMS 產生規則、斜杠版本混用、协議版本混用、参數 URL,或改版後旧條目没有移除。

匯出的 URL 清單應該怎么用?

把它作為受控抓取种子,與分析資料和 Search Console 對比,再對重要目錄做 canonical 與可索引性檢查。

Sitemap URL 擷取器

把 sitemap 庫變成抓取决策。

提取之後,需要驗證這些 URL 是否足够乾淨,能不能作為更深度 Spider Analysis 的輸入。 如果還需要確認其他 SEO 訊號,可以先使用下方相關工具,再進入完整的 Spider Analysis 流程。