Maison_de_chatのブログ

【実体験レポート】ChatGPTで始める副業 – 最先端AI活用で在宅収益化に挑む新たな働き方を更新中!

内部改善ロードマップ Vol.5【前編】|URL設計と正規化:重複コンテンツを防ぐ“正規URLの型”と canonical 判断基準

URLのゆらぎって、気づかないうちに積み重なりますよね。
www の有無末尾スラッシュhttp/httpsカテゴリ表現パラメータの扱い──これらがバラつくと、検索エンジンにも読者にも小さなノイズが溜まっていきます。

そしてこの“ゆらぎ”こそが、重複コンテンツソフト404canonical の乱立 といった問題の温床に。
後から修正すると大変なので、最初に「正規URLの型」を決めてしまうのがいちばん効率的なんです。

この前編では、

  • 正規URLの決め方(ホスト・パス・末尾スラッシュ・言語/カテゴリ・パラメータ)

  • 重複と近似重複の種類

  • canonical と noindex の使い分け方

  • 内部リンクを“代表URLへ一本化”する設計

といった、CMS運用者がつまずきやすいポイントをまるっと整理します。

「URL設計をちゃんとしたいけど、どこから決めるべき?」という人でも、今日から迷わなくなる“実務の型”をまとめました。

 

 

本記事でわかること

  • 正規URLの決定ルール
    (ホスト・パスの統一、末尾スラッシュ、クエリの扱い)

  • 重複・近似重複コンテンツの種類と見抜き方
    (完全重複/カテゴリ・タグの派生/パラメータ/印刷ページ など)

  • canonical と noindex の判断基準
    →「どっちを使えばいいの?」が迷わなくなる意思決定フロー

  • 内部リンク&サイトマップとの整合ポイント
    →代表URLへ統一する“やってはいけない揺れ”をゼロにする運用

 

 

正規URLの決め方(ホスト/パスの基準)

URL設計の第一歩は、「どれを正規URLにするか?」を明確に決めること。
ここが曖昧だと、内部リンクが揺れたり、canonical で無駄な分岐が生まれたり、後から“謎の重複”が積み上がってしまいます。

特に CMS 運用では、www の有無・末尾スラッシュ・カテゴリの出し方・パラメータの扱い が自動生成と混ざりやすく、知らず知らず URL が増殖しがち。

ここでは、まず“ホスト名・パス構造”という一番コアの部分を、シンプルでズレないルールとして定義していきます。

内部改善ロードマップ Vol.5【前編】|URL設計と正規化:重複コンテンツを防ぐ“正規URLの型”と canonical 判断基準



ホストの一貫性 — www あり/なしを一本化

同じページでも、https://example.com/https://www.example.com/ が同時に生きているケース、意外と多いんです。
そのままにすると、Google から見ると 別URL として扱われ、リンク評価も二分されてしまうことに。

基本方針はかんたんで、

  • www あり or なしを必ずどちらかに固定する

  • 片方は 301リダイレクト でまとめる

これだけ。
もし組織内で「昔から www を使う文化」などがない限り、最近はシンプルな www なし を選ぶケースが主流です。

ここで迷ってると内部リンクがバラつくので、最初に“意思決定”してしまうのが大事です。

 

プロトコル — http→https を恒久化

いまは当たり前になりましたが、httphttps が混在する時代の名残が残っているサイトもあります。
http:// へアクセスした人(あるいは Googlebot)を、そのまま放置してしまうのはよくありません。

ポイントは次の二つ。

  • http はすべて https へ 301 で統一する

  • canonical も内部リンクもすべて https で記述する

これを徹底するだけで、URL の揺れが一気に減ります。
“http版がインデックスされている”というあるある事故も防げるので、CMS の全体設定とリダイレクト設定を最初に確認しておきましょう。

 

末尾スラッシュ — 付ける/付けないを全体で統一

/about/about/
これも Google から見れば 別ページ

しかし CMS には「自動でスラッシュを付ける派」「付けない派」があり、テンプレートやプラグインで混在しやすいのが厄介です。
特にカテゴリーやタグ一覧で /tag/aaa//tag/aaa が両方生きてしまうパターンは重複コンテンツの温床。

結論:

  • 末尾スラッシュあり/なしをサイト全体で統一する

  • 不採用の側は 301 or canonical で必ず代表へ帰す

一般的には ディレクトリっぽい部分にはスラッシュを付ける 運用が多いですが、どちらを選んでも OK。
大事なのは“例外を作らないこと”です。

 

言語・カテゴリの表現 — ディレクトリ or 記事スラッグのどちらで出すか先に定義

CMS では「カテゴリをパスに含めるか?」がよく議論になります。

例:
/seo/url-design/slug/(カテゴリを含む)
/slug/(記事スラッグのみ)

どちらにもメリットがあり、答えはサイトの方針次第ですが、途中で変更すると URL 移転が大量発生 します。
そのたびに 301 を積み重ね、チェーンが増え、クロール効率が落ちる……という悪循環に。

そのため、

  • カテゴリを URL に入れるかどうか最初に決める

  • 将来的にカテゴリ移動が多いサイトはスラッグ単体を推奨

  • 多言語サイトは“言語ディレクトリを固定”する(/en/ /ja/ など)

というルールを最初に定義しておくのがベストです。

パス構造は“揺れやすいポイント”なので、設計段階でしっかり決めて、内部リンクもテンプレートもすべて代表URLに合わせておきましょう。

 

 

重複・近似重複のパターン

URL設計を整えるうえで避けて通れないのが、「重複」と「近似重複」。
CMS を使っていると、本人は作ったつもりがなくても、設定やテンプレートの仕様によって“似たページ”がどんどん増殖します。

Google からすると、重複が増えるほど評価は分散し、クローラビリティも落ちるため、できるだけ最初から発生させないことが最善策
この章では、代表的なパターンを整理しながら、「どれが危険で、どれを統合すべきか?」を判断できるようにしていきます。

重複コンテンツの原因を分類した俯瞰図。完全重複・近似重複・パラメータ増殖・メタ差し替えを整理し、統合や監査の流れを示す。



完全重複 — 同一本文の別URL(印刷用、トラッキング差分)

同じ本文なのに別URLが存在する“完全重複”は、SEO上もっとも強い悪影響が出るパターンです。

よくあるケースとしては、

  • 印刷用ページ(?print=1 など)

  • トラッキングパラメータ(?utm_source=

  • AMP と通常ページの二重生成

  • 謎の /index.html 版が生きている

など。

CMS 側の仕様で自動生成されることも多く、気づかないうちに 1ページ=複数URL の状態になりがちです。

対処としては、

  • 代表URLを canonical で明示

  • そもそも不要な変種URLは noindex または 301 で合流

という“出口の一本化”が必要です。

 

近似重複 — タグ/カテゴリ一覧、1件だけ違う派生

完全一致ではないものの、本文がほぼ同じ=“近似重複”に分類されるもの。

CMS 運用で特に多いのは、

  • タグ一覧ページ(タグA とタグA+B の本文がほぼ同じ)

  • カテゴリ一覧のページ1 とページ2 が内容的に似ている

  • 記事の「ほぼ同じ内容で日付だけ違う」リライト版

など。

一覧ページは Google にとって“薄い or 重複しやすい”と判断されやすく、ソフト404の温床になりやすいのが特徴です。

基本方針としては、

  • 一覧ページは noindex(巡回は許可)

  • 個別ページは内容が被る場合、統合+301 で一本化

を意識すると、近似重複による評価分散を防げます。

 

パラメータ由来 — 並び替え/トラッキング/フィルタのURL

Google Search Console で大量発生しがちなパターンが、この“パラメータ由来の重複”。
?sort=asc, ?order=price, ?filter=xxx, ?page= など、ほぼ同じ内容なのに URL だけ違う状態が無限増殖します。

特に危険なのは、

  • ページネーションの page=2 がインデックスされる

  • 並び替えや絞り込みの URL が「別ページ」として広がる

  • utm などのトラッキングパラメータが外部リンク経由で増える

など。

対応の基本は以下の通りです。

  • 並び替え・フィルタは canonical を代表URLに固定

  • トラッキングパラメータは noindex or 除外設定

  • URLパラメータは index させない方針を優先

パラメータは“意図せず無限増殖しやすい”ので、最初にルールを決めておくことが重要です。

 

メタ情報差し替え — 同本文+タイトル/日付だけ違う

本文はほぼ同じなのに、タイトルだけ変えた再投稿・再編集版。
これも Google からすると「別記事だけど、内容はほぼ同じ」と判断され、近似重複の原因になります。

よくあるケースとしては、

  • 旧記事を下書きコピーして、新しい日付で再投稿

  • A/B テストでタイトルだけ変えた記事の両方が公開状態

  • 一覧の更新順序調整のために“日付を変えたバージョン”を作成

など。
CMSの運用ルールとして、

  • 再投稿は上書き更新に統一

  • コピー投稿は canonical を使って代表記事へ合流

  • タイトルだけ異なる記事は一つに統合

という“1コンテンツ1URL”の原則を徹底しておくと事故が減ります。

 

 

 

canonical / noindex / 内部リンクの使い分け

URL設計が整っても、実際の運用では「このページ、インデックスさせるべき?」「canonical と noindex、どっち?」という迷いが必ず出てきます。
特に CMS では、一覧・アーカイブ・タグ・フィルタ・パラメータ……と“ページっぽいけど評価としては薄い”URLが大量に生まれやすいのが特徴です。

そこで重要になるのが、canonical(代表URLの指定)noindex(検索結果から除外) の使い分け。
この2つの役割を整理し、内部リンクとも矛盾しない“サイト全体の型”を決めることで、重複や評価の分散を一気に減らせます。

canonicalとnoindexの判断を、検索価値→代表の有無→統合/除外で整理したフロー図。パラメータ対処と内部リンク整合まで一連で把握できる。



基本方針

まずは canonical と noindex を、ざっくり整理しておきます。

canonical が向いているケース

  • “内容は同じ”だが、URLが複数ある

  • パラメータ版 / 印刷版 / 並び替え版 など“派生URL”が存在する

  • 代表URLを一つにまとめたいとき

評価を代表URLに集中させる目的

 

noindex が向いているケース

  • 一覧ページ(カテゴリ・タグ・検索結果など)

  • 内容が薄い/ユーザー価値が低い

  • 検索流入を狙っていない、内部導線用のページ

  • 重複が多く“インデックスすると逆効果”なもの

検索結果には出さないが、巡回は許可したいページ

 

● まず迷ったらこう考える

「そのURLは独自の検索価値があるか?」

  • ある → canonical self(そのURLが正規URL)

  • ない → 代表URLがある?
     → ある:canonical で代表へ統合
     → ない:noindex(内部向けページ)

この“価値基準”でほぼすべての判断が整理できます。

 

意思決定フロー

判断基準がわかっても、実務では迷う場面が多いので、ここでは抽象化したフローを用意しました。

 

 

① そのURLは、検索で独自の意図を満たすか?

例:

  • 「A社のレビュー一覧」は検索意図が曖昧 → noindex

  • 「○○の完全ガイド」は独自コンテンツ → canonical self

 

② 同じ内容の代表ページがすでにあるか?

  • ある → canonical で代表へ統合

  • ない → そのURLを正規URLにして canonical self

 

③ 一覧・アーカイブ・フィルタページは?

  • 価値が薄く、重複しやすい → noindex

  • 特定ジャンルのハブとして強い意味がある → canonical self(例:大カテゴリのトップ)

 

④ パラメータはどう扱う?

  • 並び替え・フィルタ → canonical を“素のURL”へ

  • トラッキング(utm など) → noindex or 除外

  • page=2 などの複製範囲 → 基本 noindex

 

⑤ 正規URLへ内部リンクが向いているか?

canonical だけ決めても、内部リンクがバラついていると効果は半減します。
必ず 内部リンクも正規URLへ統一 するのが原則です。

 

サイトマップと canonical の一致 — サイトマップは正規URLだけを載せる

Search Console のインデックス管理をスムーズにするカギは、サイトマップの“純度” にあります。

よくある失敗が、

  • 一覧ページが混ざっている

  • 非正規URL(末尾スラッシュ違いなど)が混ざっている

  • カテゴリ移動前の旧URLがまだ残っている

  • パラメータ付き URL が入り込んでいる

というケース。

サイトマップは“Googleに届けたいURLリスト”なので、ここにゆらぎがあると、canonical とサイトマップが矛盾し、評価が迷子になることがあります。

基本ルールは以下の通り:

  • サイトマップには正規URLだけを載せる

  • canonical と必ず一致させる

  • noindex ページは絶対に載せない

  • URLの更新があればサイトマップも即日更新

とくに WordPress や CMS の自動生成サイトマップは“混入リスク”があるため、公開後に必ずチェックしておくのがおすすめです。

 

 

内部リンクとアンカーの整合

canonical や noindex を正しく設定しても、最後に“内部リンクの揺れ”が残っていると、検索エンジンはどの URL を優先すべきか判断しきれなくなります。
特に CMS ではテンプレートやウィジェットが自動生成するリンクが多く、気づかないうちに 派生URLや非正規URLへリンクしてしまう ケースが少なくありません。

内部リンクは、Google からすると 「サイト運営者が公式に選んだ代表URL」 を示す強力なシグナル。
正規化の成果を最大化するためにも、リンク先をすべて正規URLへ統一する“リンクの型”が必要です。



代表URLへ統一 — 目次・関連記事・本文リンクすべて正規URL

まず一番の原則がこれ。

  • 内部リンク=必ず代表URL(正規URL)に向ける

CMS のテンプレートやプラグインが自動で吐き出すリンクが、
/category/post//post/ でバラけている……というのはよくある話。

HTML内のどこにあるリンクでも、

  • 目次

  • 本文中のリンク

  • 関連記事・おすすめ記事

  • パンくずリスト

  • フッターの定番リンク

すべて“正規URLで書く”を徹底するだけで、評価の集中度が大幅に改善します。

 

相対/絶対の方針 — 運用都合でどちらかに統一

内部リンクは、相対URL絶対URL のどちらを書いても OK です。
ただし混在すると、構成変更時に差分が大量発生するため、どちらかに統一するのがベスト。

  • 絶対URL(例:https://example.com/post/)
     → どこから貼っても揺れにくく、外部共有にも強い

  • 相対URL(例:/post/)
     → 運用上は軽く、移転にも強い

CMS がどちらを標準で生成するかを確認し、出力テンプレートも含め統一ルールを決めるのがポイントです。

 

自動ウィジェットの監査 — 自動関連記事が派生URLを出さないか

手動の内部リンクは統一できても、見落とされがちなのが 自動生成ウィジェット

  • 関連記事自動表示

  • 人気記事ランキング

  • パンくず

  • タグ一覧

  • カテゴリブロック

これらが、非正規URL(カテゴリ版・スラッシュ違い・パラメータ付き)へリンクしてしまうことがあります。

特に危険なのは、

  • /category/post/ へ飛ばしてしまう

  • /tag/xxx/ を正規URL扱いしてしまう

  • ?amp=1?page=2 を拾ってしまう

など。

対応はシンプルで、

  • ウィジェットの出力URLを監査し、正規URLのみを返すように設定する

  • 派生URLが自動生成されるタイプは noindex で封じておく

この2つを押さえるだけで、内部リンクの“ゆらぎ”はほぼ消えます。

 

 

用語ミニ辞典

ここまでに登場した用語を、実務で迷わないレベルにギュッと整理しておきます。

 

● 正規URL(canonical URL)

検索エンジンに「このURLが“本物(代表)”です」と伝えるための URL。
同内容の派生URLが複数あるとき、評価を一本化する役割を持つ。

 

● canonical(カノニカル)

HTML 内で <link rel="canonical" href="〜" /> として指定するタグ。
派生URL → 代表URL へ評価を集約させるための“正規化の中心装置”。

 

● noindex(ノーインデックス)

検索結果に出したくないページにつける指示。
一覧・薄いページ・重複リスクが高いページに使うことが多い。巡回は許可できる。

 

● 近似重複(Near Duplicate)

本文そのものは違うが、構成・要素・表現がほぼ同じで Google が区別しにくいページ。
タグ一覧・カテゴリ一覧・日付違いの再投稿などが典型。

 

 

まとめ:URL設計と正規化の型――canonicalと内部リンク統一で“ゆらぎ”を止める

URL 設計は、一度ゆらぎが生まれると、後から修正するほどコストが増えていきます。
だからこそ今回の前編では、正規URLの型を最初に決めることを中心に、ホスト名・末尾スラッシュ・カテゴリ構造・パラメータの扱いを“揺れないルール”として固めました。

さらに、重複・近似重複コンテンツを防ぐための canonical / noindex の判断基準、そして評価を代表に集めるための 内部リンク統一 まで、一連の流れとして整理できたと思います。

「URLまわりがスッキリしない…」という状態は、実は検索評価の失点に直結します。
今日まとめた“型”を導入すれば、URLのゆらぎはほぼゼロになり、クロール効率と評価集中が一気に改善します。

次の後編では、その設計を活かすための 301/302/404/410・ソフト404 など、「移転・削除・エラー管理」の実務へ進みます!

 

 

 

別記事への導線(キーワード入り)

URL 設計と正規化の“型”が整ったら、次に必要なのは 移転・削除・エラー処理の実務 です。
後編では、301/302/404/410 の選び方から、ソフト404の見極め、リダイレクトチェーンの断捨離まで、運用で迷いやすいポイントを体系化します。

  • Vol.5【後編】|301/302/404/410 とソフト404:リダイレクト運用とエラー監視の実務

  • Vol.4【後編】復習|画像配信と INP の両立(優先度・lazy・srcset)

URL 設計を“守りながら育てる”ための次ステップとして、ぜひ後編もチェックしてみてください!

 

 

 

今回はここで終わりにしたいと思います!

最後までお読みいただきありがとうございました!


このブログでは「ChatGPT×副業」をテーマに、AIをフル活用したリアルな副業チャレンジを発信しています🎶

むずかしい話はナシで、「ちょっとやってみたいかも」と思えるような内容を目指しています😁

私は現在、ChatGPTを使ってTシャツのデザインを作って販売したり、

LINEスタンプのキャラ制作に挑戦したりしています👍

デザインの知識ゼロでも、AIの画像生成機能を使えばかなりいい感じになりますよ!

ブログの内容やSEO対策も、ぜんぶChatGPTに相談しながら書いています。

アイデアが出ないときも、相棒みたいに助けてくれます🎶

さらに、楽天ルームのレビュー文章もChatGPTと一緒に考えたり、

X(旧Twitter)の投稿や運用方法も提案してもらったりと、あらゆる場面でAIに頼っています。😅

「AIって便利そうだけど、自分にも使えるのかな?」

と思っている人には、ぜひ読んでほしいです。

このブログは、AI初心者でも副業が始められるように、

体験ベースでわかりやすく書いています。

私の成功も失敗もまるごとシェアしていくので、よかったら気軽に読んでいってくださいね。

Xでも日々の活動をゆるっと更新しているので、ぜひのぞいてみてください!

明日のあなたがより豊かになりますように😌

それでは、おやすみなさい😴