Webトラフィックの50%は人ではない訪問者。アクセス解析を信じるな

Webトラフィック半分はハッキングツールや検索エンジンなどによる訪問者

Webセキュリティ企業のIncapsula（インカプセラ）が、大変興味深い調査レポートを発表。その調査内容は、相当数のWebサイトをGoogle アナリティクスで解析し、そのWebトラフィック（サイトへの訪問者）についての流入元を特定。

すると驚くべき結果がわかりました。

Webトラフィックの 51％は、ハッキングツールや検索エンジンなどの人以外の訪問者が占めている
Webトラフィックの 31％は、「悪いやつら（bad guys）」が占めている
※残りの20%は検索エンジンや善良ロボット（good ｂｏｔ）などによるトラフィック

普段からＧｏｏｇｌｅＡｎａｌｙｔｉｃｓを利用しているWeb担当者などには、結構インパクトのある調査データです。なぜなら今まで私たちは、Google Analyticsのユーザーや訪問者数をレポーティングしてきたが、実際のリアルな人によるアクセス数はその半分しかいないとのことですから…。

今後もアクセス解析からのPDCAは、続けていった方がいいんでしょうか。Webディレクターの私は不安になります。

1. クローラーの半分は「人間ではない」
インターネット上のトラフィックのうち、約40〜60％は検索エンジンやボットによるもの。実際の人間が見ている割合は、全体の半分以下とされています。

2. Googlebotにも「昼型」と「夜型」がいる
Googleのクローラーは常に動いているわけではなく、サイトの更新頻度やトラフィック量に応じてアクセス時間帯を調整。日本のサイトでも、深夜〜早朝にクロールが集中することが多いです。

3. 謎のトラフィックの正体は「スパムボット」かも
アクセス解析で「海外からの直帰率100%」の流入が続く場合、その多くはスパムボット。検索順位操作や広告クリックを装う悪質なアクセスもあります。

4. 検索エンジン以外にも“合法クローラー”が存在
たとえば、Facebookの「Facebot」やTwitterの「Twitterbot」は、リンク先のプレビューを生成するためにアクセスしてきます。これは不正ではなく、正常な挙動です。

5. Webサイトの速度もクローラーの評価対象
Googlebotはページの読み込み速度を観測しています。遅いサイトはSEO的にもマイナス評価を受けるため、クローラー対策＝ユーザー体験向上につながります。

6. クローラーを制御する“robots.txt”は意外と無力？
「robots.txt」でクロール拒否を設定しても、悪意あるボットは無視してアクセスしてくることが多いです。完全防止にはファイアウォールやIP制限が必要です。

7. 自社のアクセスも“ノイズ”になることがある
社員や制作者のテストアクセスが解析データに混ざることで、正確なユーザー分析ができなくなることも。除外設定はWeb運営の基本です。

インフォグラフィックはクリックすると拡大できます

参照元：https://www.incapsula.com/blog/what-google-doesnt-show-you-31-of-website-traffic-can-harm-your-business.html