detail
検出-インデックス未登録とは
Googleのクローラーはそれらのページをサイトマップやサイト内のリンク経由で見つけている状態ではあるものの、少なくともその時点では、それらのページの全てを調べたり、クロール、インデックス処理する事にリソースを割く価値が無いと判断している状態のようです。
大きく分類すると以下の二点の何れかが原因となっている場合が多いようです。
- サイト内部のリンクの問題
- コンテンツの問題
サイト内部のリンクの問題
サイト内のリンクの形式が統一されていない場合には、多くの重複URLが生成されてしまう事になります。または無限にURLが生成されるようなリンクの張り方を誤って行っている場合が考えられます。
コンテンツの問題
検索結果に表示する必要の無いコンテンツとしてGoogleに判断されている場合もあるようです。例えばデータベースから自動的にコンテンツを生成しているケースを想定してみましょう。既にGoogleでインデックス済みのページ(自身のぺージや競合のページも含めて)と比べて自身のコンテンツと似たようなコンテンツが多く存在している場合は、Googleは「全てを検索結果に表示させる必要は無い」と判断してしまうでしょう。
確認すべきポイントと修正方法
- URLパターンに誤りが無いか
URLのパラメータ、大文字小文字などの違いなどを含め、重複するパターンのURLが無いか確認して統一(正規化)しましょう。Googleは重複するパターンのURLを見つけた場合、それが大量にあった場合には、全てのパターンのURLをクロールする事はなく、途中でやめてしまいます。この場合の対処方法としては、canonical属性の記述、301リダイレクト等でURLを正規化する必要があります。URLの正規化については「canonical属性の使い方」をご覧ください。 - 内部リンクの張り方に誤りが無いか
全てのページに対して正しくクロールが完了するかテストする必要があります。
方法としては、「screaming frog」などが紹介されていますが、有料とはなりますが「Sitemap Creator」でもクロールのテストが行えます。クロールが終了しない場合には、サイトの構造やリンクに何らかのループが発生する原因があると推測できます。ツールのログ等を見て、その発生原因を突き止めて修正しましょう。 - ページの品質に問題が無いか
もし1、2、の部分で問題が無ければ、コンテンツの品質に問題がある可能性が高いようです。類似のコンテンツがサイト内外にあるようであれば、それと比較してオリジナルの情報を追加したり、検索ユーザーが求める情報をリサーチして、必要なトピックを追加して、コンテンツの差別化を図り、品質を改善させる必要があります。またはインデックスされていないコンテンツのうち内容の薄いコンテンツは、別のコンテンツと統合するなどしてページの数を調整するという方法も有効かもしれません。
Google担当者が説く3つの解決法
1. (意図せずに)自動生成しているたくさんのURLを修正する
「重複とみなされるページが無いか?」チェック
2. 不適切な内部リンク構造を修正する
内部リンクが全てのページをつなげているかチェック
3. サイト全体をより強力にするためにページ数を減らす
複数のページを1つのURLにしてコンテンツを結合
サイトの削除
- ページを完全に削除するには、次のいずれかの操作を行います。
- 画像、ページ、ディレクトリなど、サイト上のコンテンツを削除または更新し、ウェブサーバーが HTTP ステータス コード 404(見つかりません)または 410(削除されました)を返すようにします。HTML 形式以外のファイル(PDF など)は、サーバーから完全に削除する必要があります(詳しくは、HTTP ステータス コードをご覧ください)。
- コンテンツへのアクセスをブロックします。たとえば、パスワードを要求するようにします。
- noindex メタタグを使用して、ページがインデックスに登録されないように指定します。この方法は、他の方法と比較して安全性が低くなります。
- ブロックする手段として robots.txt を使用しないでください。
- コンテンツを完全に削除する(手順 1)前にページをブロックした場合は、ページのブロックを解除してから再びブロックします。こうすると、ブロック後に再クロールされた場合、インデックスからページが消去されます。
アドレス変更
設定
サイトアドレスを変更するには、元のサイトから新しいサイトへの 301 リダイレクトを設定し、その他の関連する設定手順を実行する必要があります。 詳細
Google の情報を更新(推進)
設定作業をすべて実行したら、サイトのアドレス変更について Google の情報を更新してください。 詳細
• HTTP から HTTPS に移行する場合は、[Google の情報を更新] の手順をスキップしてください
• ご自身が両方のサイトの確認済み所有者であることを確認してください
Screaming Frogを使ってみよう
Screaming Frog、DeepCrawlなどのようなクローラーツールを使って、これを大まかにテストできます。これらのツールは優れています。そしてクローラーツールが「あなたがインデックスさせたい全URL」を見つけられれば、OKでしょう。
クロール済み - インデックス未登録とは
取得したURLをGooglebotがクロールしたけれど、インデックスする価値は無いと判断され現在はデータベースに登録されないページと考えてほぼ間違いありません。「クロール済み-インデックス未登録」はエラーではありませんので警告もありませんが、インデックスされていないので、そのページはGoogle検索には表示されませんので、web上に存在しないのと同じになります。「クロール済み-インデックス未登録」のページが大量に発生すると、サイト全体の価値が低いとGoogleに判断される可能性があり、ランキングに悪影響が出る可能性がありますので、早急に対応が必要です。
また、「クロール済み-インデックス未登録」のページは他のサイトからコピーしたコンテンツを使っている場合もインデックス未登録になります。同じ内容を伝えたいのであれば、そのページからコンテンツをコピーするのでは無く、自分自身でオリジナルのコンテンツを掲載するようにしましょう。
さらにサイト内に類似コンテンツがある場合も「クロール済-インデックス未登録」になる場合がありますので、例えば対象の市町村別のページを作ると、市町村名以外の部分は同じ内容になりますので、類似コンテンツです。他にも、無料相談会などを行う場合、開催日別にページを作ると類似コンテンツになりますので注意しましょう。
検索の仕組み
- クロール: Google はクローラという自動プログラムを使用してウェブを検索し、新しいページや更新されたページを探します。Google はそれらのページのアドレス(またはページの URL)を後で参照できるように大規模なリストに格納します。ページの検出はさまざまな方法で行われますが、既知のページからリンクをたどる方法が主に使用されます。
- インデックス登録: Google は、クロールによって検出したページにアクセスし、各ページの内容の分析を試みます。また、ページ内のコンテンツ、画像、動画ファイルを分析して、そのページの内容を把握しようとします。この情報は Google インデックスに保存されます。Google インデックスは、膨大な数のコンピュータに格納された巨大なデータベースです。
- 検索結果の表示: ユーザーが Google 検索を実行すると、Google はできる限り質の高い検索結果を特定しようとします。「最適」な検索結果を提供するために、ユーザーの所在地、言語、デバイス(パソコンやスマートフォン)、以前の検索クエリなど、さまざまな要素が考慮されます。たとえば「自転車修理店」を検索する場合、パリのユーザーと、香港のユーザーには異なる検索結果が表示されます。Google では、ページの掲載順位を上げるためにお支払いをお願いすることはありません。ランキングはアルゴリズムによって決定されます
クロール済み-インデックス未登録の件数の実際にあった私が経験した例では、sitemap送信件数が、150ページのサイトで3件だけ指摘されているケースもあれば、sitemap送信件数が、998ページのサイトで1,182件指摘されていたり、sitemapの送信件数が、13,101ページのサイトで4,286件指摘されているサイトもあります。
この3サイトはどれも不自然な外部リンクでペナルティを受けていますが、インデックス未登録が3件だけのサイトは一日250件程度のアクセスがあり長期的にはアクセスが増えています。残りの2つのサイトは一日10件前後のアクセスしかありません。
不自然なリンクがあって、ペナルティを受けていても、良質なコンテンツを掲載し続けていれば、Googleから評価され、本来のアクセスでは無いにしろ、コンテンツが充実している分だけアクセスはありますが、インデックス未登録が大量にあると、良質なコンテンツがほとんど無いので、全くアクセスが期待でない状況になります。
インデックス未登録のページが少ないサイトは、ペナルティを受けていて、メインキーワードでは、ほぼ圏外になっていても、良質なコンテンツが多様なスモールキーワードでアクセスを稼いでくれるので、小さいアクセスの積み重ねで、それなりのアクセスを稼ぎ出すことが出来るのです。ペナルティを受けていない正常なサイトの場合は、様々なキーワードで上位に表示する事ができるので、インデックス未登録を最小限に抑える必要があります。
どんな状態であっても、良質なコンテンツの掲載を継続して、インデッス未登録を最小限にすることがアクセスアップにはとても有効だと言うことです。
sitemapに記載されているページだが、どこからもリンクされていないページ
クロール済-インデックス未登録となる要因は複数ありますが、その中の一つとして、sitemap.xmlに記載されていて、Googleはクロールしたが、どこからもリンクされていないページでGoogleが価値の無いページと判断している場合もあります。
リンクの無いページはCMSなどで生成されるページの中に存在することが多くあります。このような生成されたページでクロール済-インデックス未登録が大量に発生する場合は、sitemap.xmlを削除して、その後もsitemapの送信をしないようにすることで解決します。
そもそも、数千ページ以上の大規模サイトでは無く、必要なページが完全にリンクされている場合は、sitemapの送信の必要は無く、sitemap.xmlを送信することで弊害が起こることも多いのです。
ページの情報をさらに深堀して価値ある情報にする
「クロール済-インデックス未登録」のページが発生する一番多い原因は、文字数が少ないページが多いことです。文字数が極端に少なく、100~200文字程度の文章しか書いていないページでユーザーの疑問や問題の解決策をメッセージとして示すことは出来ません。「クロール済-インデックス未登録」のページになるかどうかの違いは、ユーザーのためになるコンテンツであるかどうかの違いです。大量にインデックス未登録のページが発見された場合の解決方法は、インデックス未登録に該当するページのそれぞれの情報の追記の対処をして、より詳しくユーザーの質問に対して親切で丁寧な情報の記載を行うように改善する方法が最善です。
ユーザーは長文を読まないと思い込んでいる人も多いですが、それは、企業側から一方的に送り付けられるコマーシャルをイメージしているからです。コマーシャルはユーザーが読みたい(見たい)と思っている情報では無いので、短いキャッチコピーと簡潔な説明でけに限られますが、ユーザーが検索エンジンを利用して求めているのは、何かしらの疑問や問題を解決したいと思っているからで、ユーザーは自分自身が納得できる詳しい情報を期待しています。