A/Bテストの有意差がでるまでの期間は？実務で役立つ判断ポイント

マーケティング全般投稿日：2017.03.31 / 最終更新日:2023.01.06

A/Bテスト統計学

執筆者：山内悠太 (株式会社ファインドスター　フェロー)

A/Bテストを始める時に気になるのが、「テスト結果が出るまでに、どれだけの期間がかかるか？」このテスト期間を判断するのが実は難しい理由と、その場合の代替案を、簡単な統計学の観点から具体的なケースを交えて解説します。

売れる記事型広告の作り方を4つのステップに分けて解説しました。
PDCAの回し方や、LP遷移率アップの方法などをまとめています。
⇒解説資料はこちら

1 ストップする時期は、どうやって判断すればよい？
2 テスト結果を見誤らせる、「誤差」の正体
3 統計的にも信頼できるか？は、有意差で判断
4 有意差がつくかは、「サンプル数」と「結果の差」で決まる
5 実務のうえで押さえておきたい、3つの方法

ストップする時期は、どうやって判断すればよい？

A/Bテストを始める時に、関係者からよくいただくご質問が「どれくらいの期間で、結果が出ますか？」です。

A/Bテストでも、チラシやメールといった一括で配信するタイプであれば、期間はコントロールできず、逆にあまり気にする必要はないでしょう。

一方、LP（ランディングページ）や広告などオンラインのテストでは、よく論点になるのが「いつテストをストップするか？」です。
良い結果についてはテスト版を全面的に適用して、逆に結果が悪ければ元に戻す必要があるからです。

ところが統計学の観点からは、期間については一概には判断できません。

「1ヶ月間をみれば結果が出る」「最低2週間は必要」といったことは言えないのです。
逆に言えば、3日間で統計的に有意なテスト結果が出ることもあれば、1ヶ月以上かかっても十分な差がつかないケースもあります。

なぜ、テスト開始前には必要な期間が分からないのでしょうか？

テスト結果を見誤らせる、「誤差」の正体

実は、「A/Bテストの結果が、統計的に信頼できるか？」を左右するのは、「サンプル数」と「各パターンの結果の差」の2つです。
（参考：「A/Bテストの結果をどのように解釈するか？」）

前提として、「A/Bテストの結果が出た」とは、どのような状態なのでしょうか？

A/Bテストを始めたばかりの頃は、最終的な結果とは逆の数字が出ていることがあります。これはアクセスしたユーザーの数、つまりサンプル数が少ないために「誤差」に左右されてしまいやすいからです。

「誤差」とは、「実際に得られた値が、本来の値からどれだけずれているかを表す量」のこと。
サンプル数が少ないと「1人の顧客が反応したか？しなかったか？」「たまたま途中で心変わりした」といった些細なできごとが、テスト結果に影響を与えてしまうのです。
（参考：「なぜ間違ったA/Bテストを信じてしまうのか？統計学から見た「誤差」の正体」）

仮にWEBサイトのA/Bテストで次のような結果が出ていたとしましょう。

実はこの結果、統計学の観点から計算をすると誤差の影響が大きいと予想される、つまり統計的には「テスト結果が出た」とは言えないのです。

テスト1

統計的にも信頼できるか？は、有意差で判断

では、どうなれば統計的に正しい結果が出たと言えるでしょう。

次のテスト2では、AパターンはCVRが2%でBパターンは3%と、ここまでは先ほどの数字と同じです。

ただし、アクセス数が10,000にと10倍に増加。
CV件数もそれぞれ、200件と300件に増えています。

テスト2

この場合、「テスト結果は出た」と判断できます。
その理由はリンク先の記事にてご覧になれますが、サンプル数（アクセス数）が増えると、その分誤差の影響する度合いが低くなって、統計的にも十分に信頼できるデータと判断できるのです。

このように統計的に信頼できる結果が出ていることを、「有意」である、「有意差」が付いていると言います。

有意差がつくかは、「サンプル数」と「結果の差」で決まる

同じように、今度はテスト1からCV件数を変化させてみましょう。
アクセス数はそれぞれ同じですが、BパターンのCV件数が50件に増加、それにともなってCVRも5.0%になっています。

テスト3

この場合も、有意差がついていると言えます。
なぜなら、CV件数の差がテスト1と比べて大きく異なっているため、1,000件のアクセス数しかなくても、十分に差がついていると判断できるからです。

お気付きのことと思いますが、これまで説明したケースでは、「差がつくまでにどれだけの期間がかかったか？」は考慮されていません。

したがって、テスト2の結果がたとえ3日間で出た数値だとしても、あるいはここまで差がつくのには1ヶ月間がかかったとしても、統計的には特に違いがありません。
つまり、有意差がつくかは、「サンプル数」と「結果の差」で決まるのです。

実務のうえで押さえておきたい、3つの方法

とはいっても、テスト期間が目安でも予測できないと、実務のうえでは困ったことも出てくるでしょう。そんな時には、どうすれば良いでしょう？

過去データにもとづいてシミュレーション

まずはテストの実施前に、アクセス数とCV件数の差に沿って、シミュレーションをしてみましょう。

アクセスについては、一定の期間で「だいたいこれくらい集まる」と予測できるはずです。
またテストの経験を積むようになると、「このテストなら、良くても悪くても差はこれくらいの範囲」などと目処が立つこともあるでしょう。

それぞれについて、アバウトな数値や過去のテストでかかった期間から、「いつ頃までにテスト結果が出るか？」を予想してみるとよいでしょう。
有意差の判定には、たとえばこちらのような信頼度の判定ツールがWEB上で無料で公開されているので、活用してみてもよいかもしれません。

途中でストップする基準を設ける

またせっかくテストをしても、仮説どおりに改善ができていないと、コンバージョンに差がつかないこともあります。
時間だけがいたずらに経っても有意差はつかずに、有効なテスト結果が出ていません。

テスト期間が長くなればなるほど、その間に外部環境も変わってしまい、データの質も信頼できなくなってしまう場合もあるでしょう。

それでは困るので、自分たちなりに基準を設けるとよいでしょう。
たとえば、「2ヶ月間が経っても有意差が付かない場合は、ほとんど差がないと判断して、テストをストップする」などの基準を設けてもよいでしょう。

信頼度の低いデータで見切り発車

これまで説明した有意差は、「信頼度95%」という一般的な指標に沿っています。
つまり「95%以上の確率で正しい」、逆に言えば「5%以下の確率で間違っている」という基準です。

この「95%」は、テストの方針や企業の考え方によって、別の数字でも構いません。
たとえば「90%の水準での有意差」という場合は、「90%以上の可能性で正しい」という意味です。

「95%」と比べると正確性には劣りますが、その分テストの結果が早く出るのがメリットです。
「スピード」と「正確性」どちらを重視するか？で、用いる基準を取捨選択していけば良いのです

これらの3つの考え方には、統計学の世界のように「正解」がある訳ではありません。

求める改善スピードや正確性にしたがって、自分たちなりに判断していきましょう。
つまり、「決め」が大事です。

A/Bテストに適切な期間の目安を立てられ、成果の改善につながる結果が出るように、そしてこの記事が役立つように祈っております。

売れる記事型広告の作り方を4つのステップに分けて解説しました。
PDCAの回し方や、LP遷移率アップの方法などをまとめています。
⇒解説資料はこちら