単品リピート通販の事例から、

売れる仕組みのヒントをお届け

A/Bテストの期間、結果が出る(有意差が付く)までに必要なのは?

A/Bテストを始める時に気になるのが、「テスト結果が出るまでに、どれだけの期間がかかるか?」このテスト期間を判断するのが実は難しい理由と、その場合の代替案を、簡単な統計学の観点から具体的なケースを交えて解説します。

ABテスト

ストップする時期は、どうやって判断すればよい?

 

A/Bテストを始める時に、関係者からよくいただくご質問が「どれくらいの期間で、結果が出ますか?」です。

 

A/Bテストでも、チラシやメールといった一括で配信するタイプであれば、期間はコントロールできず、逆にあまり気にする必要はないでしょう。

 

一方、LP(ランディングページ)や広告などオンラインのテストでは、よく論点になるのが「いつテストをストップするか?」です。
良い結果についてはテスト版を全面的に適用して、逆に結果が悪ければ元に戻す必要があるからです。

 

ところが統計学の観点からは、期間については一概には判断できません。

 

「1ヶ月間をみれば結果が出る」「最低2週間は必要」といったことは言えないのです。
逆に言えば、3日間で統計的に有意なテスト結果が出ることもあれば、1ヶ月以上かかっても十分な差がつかないケースもあります。

 

なぜ、テスト開始前には必要な期間が分からないのでしょうか?

 

 

テスト結果を見誤らせる、「誤差」の正体

 

実は、「A/Bテストの結果が、統計的に信頼できるか?」を左右するのは、「サンプル数」と「各パターンの結果の差」の2つです。
(参考:「A/Bテストの結果をどのように解釈するか?」)

 

前提として、「A/Bテストの結果が出た」とは、どのような状態なのでしょうか?

 

A/Bテストを始めたばかりの頃は、最終的な結果とは逆の数字が出ていることがあります。これはアクセスしたユーザーの数、つまりサンプル数が少ないために「誤差」に左右されてしまいやすいからです。

 

「誤差」とは、「実際に得られた値が、本来の値からどれだけずれているかを表す量」のこと。
サンプル数が少ないと「1人の顧客が反応したか?しなかったか?」「たまたま途中で心変わりした」といった些細なできごとが、テスト結果に影響を与えてしまうのです。
(参考:「なぜ間違ったA/Bテストを信じてしまうのか?統計学から見た「誤差」の正体」)

 

仮にWEBサイトのA/Bテストで次のような結果が出ていたとしましょう。

 

実はこの結果、統計学の観点から計算をすると誤差の影響が大きいと予想される、つまり統計的には「テスト結果が出た」とは言えないのです。

 

テスト1

テスト1

 

 

統計的にも信頼できるか?は、有意差で判断

 

では、どうなれば統計的に正しい結果が出たと言えるでしょう。

 

次のテスト2では、AパターンはCVRが2%でBパターンは3%と、ここまでは先ほどの数字と同じです。

 

ただし、アクセス数が10,000にと10倍に増加。
CV件数もそれぞれ、200件と300件に増えています。

 

テスト2

テスト2

 

この場合、「テスト結果は出た」と判断できます。
その理由はリンク先の記事にてご覧になれますが、サンプル数(アクセス数)が増えると、その分誤差の影響する度合いが低くなって、統計的にも十分に信頼できるデータと判断できるのです。

 

このように統計的に信頼できる結果が出ていることを、「有意」である、「有意差」が付いていると言います。

 

 

有意差がつくかは、「サンプル数」と「結果の差」で決まる

 

同じように、今度はテスト1からCV件数を変化させてみましょう。
アクセス数はそれぞれ同じですが、BパターンのCV件数が50件に増加、それにともなってCVRも5.0%になっています。

 

テスト3

テスト3

 

 

この場合も、有意差がついていると言えます。
なぜなら、CV件数の差がテスト1と比べて大きく異なっているため、1,000件のアクセス数しかなくても、十分に差がついていると判断できるからです。

 

お気付きのことと思いますが、これまで説明したケースでは、「差がつくまでにどれだけの期間がかかったか?」は考慮されていません。

 

したがって、テスト2の結果がたとえ3日間で出た数値だとしても、あるいはここまで差がつくのには1ヶ月間がかかったとしても、統計的には特に違いがありません
つまり、有意差がつくかは、「サンプル数」と「結果の差」で決まるのです。

 

 

実務のうえで押さえておきたい、3つの方法

 

とはいっても、テスト期間が目安でも予測できないと、実務のうえでは困ったことも出てくるでしょう。そんな時には、どうすれば良いでしょう?

 

 

過去データにもとづいてシミュレーション

 

まずはテストの実施前に、アクセス数とCV件数の差に沿って、シミュレーションをしてみましょう。

 

アクセスについては、一定の期間で「だいたいこれくらい集まる」と予測できるはずです。
またテストの経験を積むようになると、「このテストなら、良くても悪くても差はこれくらいの範囲」などと目処が立つこともあるでしょう。

 

それぞれについて、アバウトな数値や過去のテストでかかった期間から、「いつ頃までにテスト結果が出るか?」を予想してみるとよいでしょう。
有意差の判定には、たとえばこちらのような信頼度の判定ツールがWEB上で無料で公開されているので、活用してみてもよいかもしれません。

 

 

途中でストップする基準を設ける

 

またせっかくテストをしても、仮説どおりに改善ができていないと、コンバージョンに差がつかないこともあります。
時間だけがいたずらに経っても有意差はつかずに、有効なテスト結果が出ていません。

 

テスト期間が長くなればなるほど、その間に外部環境も変わってしまい、データの質も信頼できなくなってしまう場合もあるでしょう。

 

それでは困るので、自分たちなりに基準を設けるとよいでしょう。
たとえば、「2ヶ月間が経っても有意差が付かない場合は、ほとんど差がないと判断して、テストをストップする」などの基準を設けてもよいでしょう。

 

 

信頼度の低いデータで見切り発車

 

これまで説明した有意差は、「信頼度95%」という一般的な指標に沿っています。
つまり「95%以上の確率で正しい」、逆に言えば「5%以下の確率で間違っている」という基準です。

 

この「95%」は、テストの方針や企業の考え方によって、別の数字でも構いません。
たとえば「90%の水準での有意差」という場合は、「90%以上の可能性で正しい」という意味です。

 

「95%」と比べると正確性には劣りますが、その分テストの結果が早く出るのがメリットです。
「スピード」と「正確性」どちらを重視するか?で、用いる基準を取捨選択していけば良いのです

 

 

これらの3つの考え方には、統計学の世界のように「正解」がある訳ではありません。

 

求める改善スピードや正確性にしたがって、自分たちなりに判断していきましょう。
つまり、「決め」が大事です。

 

A/Bテストに適切な期間の目安を立てられ、成果の改善につながる結果が出るように、そしてこの記事が役立つように祈っております。