SearchConsoleのxmlサイトマップを分割するメリット
2016年07月12日検索順位 SearchConsole
SearchConsole用のサイトマップ
サーチコンソール(旧WEBマスターツール)よりXML形式のサイトマップを送信することでクロールを促してサイトの隅々までインデックスして貰いたい訳ですが、
私の場合、ページが1000近いサイトでは、サイトマップを分割して送信しています。
「1つのサイトマップにはサイズが10MB以下、URLが50000件以下」
とありますので、1000ページ程度では、上限に達せず分割する必要は無いのですが、
サイトマップを分割送信することで、問題を抱えたページを見つけ出す為のヒントを得られます。
XML形式サイトマップ分割
画像は、サイトマップを4分割してSearchConsoleへ送信したものです。
(PCから閲覧の方は画像をクリックで拡大します)
(1)送信47件 登録46件
(2)送信393件 登録369件
(3)送信128件 登録128件
(4)送信164件 登録54件
■インデックスされないページを抽出する
(1)は、47件に対して1件登録されていません。
(2)は、24件登録されていません。
(3)は、全てインデックスに登録されていることがわかります。
この結果から、(1)と(2)では記述したページの中に「コンテンツが薄い」・「重複コンテンツ」・「内部リンクを受けていない」・「METAタグの設定ミス」等の理由でインデックスされていないページが存在します。
(ページをアップロードして間もない時期は、登録されない場合もあります)
以前より登録されていたページが「登録済み」から外れてしまった場合は、「コンテンツ量(薄い)」パターンが多いです。
上の図は、全体で約700ページのサイトの事例ですが、もし700ページを1つのsitmap.xmlファイルでSearch Consoleへ登録した場合、問題の切り出しに沢山の時間を要してしまいます。
そこである程度ジャンルで分けてsitmap1.xml sitmap2.xml…のように分割送信することで「インデックスされないページ」見付けやすくしています。
サイトにカテゴリーが有る場合は、そのカテゴリーでサイトマップを用意するのも良いかも知れません。インデックスから外したページの状況を確認
画像の4行目は、送信164件 登録54件となっています(過半数以上のページが登録されていません)
このサイトマップは、インデックスから消したい・外したいURLをまとめた物です。
サイトマップに記述したページには、全て
<meta name="robots" content="noindex">
を設定しています。
コンテンツ量が少なく、低品質なページ扱いを受ける可能性があるページをリライトするまでの期間、インデックスから削除する目的と
インデックスから消えていく状況を確認する為に、noindex設定したページをサイトマップに記載して送信しています。
SearchConsoleのサイトマップ送信には、「登録を促すこと」と「現在のインデックス状況を確認」の二つの使い方があります(もっとあるかも知れません)
サイトマップのまとめ方にもよるのですが、sitmap1.xmlは処理が早いけど、sitmap2.xmlは、3日に1回しか処理されないなど
xmlサイトマップを分割送信することでグーグルロボットからの評価を少しだけ垣間見れます。
2016年07月12日
検索順位 SearchConsole