這個 sitemap 擷取器檢查什么
工具會讀取 sitemap URL,判斷它是 urlset 还是 sitemap index,並在需要時跟随子 sitemap,把原始 XML 轉成更適合審计的結構化 URL 庫。
- 提取 loc、lastmod、changefreq、priority 和來源 sitemap。
- 按一級路徑分組,讓網站架構模式更容易被看见。
- 在去重前統计重複 URL,避免 sitemap 產生問題被隐藏。
- 当大型 sitemap 超過免費工具上限時標記截斷狀態。
把 sitemap XML 或 sitemap index 轉成乾淨的 URL 庫,保留來源 sitemap、lastmod、路徑分組、重複項和可匯出的抓取行。

執行工具後,這裡會顯示分析結果、匯出與下一步動作。
工具會讀取 sitemap URL,判斷它是 urlset 还是 sitemap index,並在需要時跟随子 sitemap,把原始 XML 轉成更適合審计的結構化 URL 庫。
適合在技術審计、網站遷移、內容盘点或索引問題排查前使用。sitemap 不能證明頁面一定能排名,但它是理解網站希望爬蟲發現什么的最快入口。
先看 URL 數量、sitemap 數量、重複項、路徑分組和 lastmod 覆蓋。真正有价值的洞察通常来自對比 sitemap 內容與實際需要被索引的頁面。
很多團隊把 sitemap 当成完整 URL 來源,於是漏掉孤岛頁、被阻止路徑、篩选頁,或者已經從導航移除但仍在排名的頁面。提取只是第一步。
清理好 URL 庫後,把重要目錄送入技術抓取。Searvora Spider Analysis 可以驗證 URL 是否可訪問、canonical 是否正確、是否可索引,以及是否有足够內鏈支持。
圍繞抓取規劃、metadata 檢查與 SEO 交接的快速解答。
可以。啟用子 sitemap 後,工具會跟随 sitemap index,並把子 sitemap 中的 URL 合並成一個可匯出的 URL 庫。
不是。頁面仍可能被 robots.txt、noindex、重定向、canonical、HTTP 錯誤或弱內鏈阻斷。
常见原因包括 CMS 產生規則、斜杠版本混用、协議版本混用、参數 URL,或改版後旧條目没有移除。
把它作為受控抓取种子,與分析資料和 Search Console 對比,再對重要目錄做 canonical 與可索引性檢查。