単品リピート通販の事例から、

売れる仕組みのヒントをお届け

なぜ間違ったA/Bテストを信じてしまうのか?統計学から見た「誤差」の正体

広告のレスポンスやLPのコンバージョン率を上げるために行われる、A/Bテスト。実は統計的に正しくないテスト結果にもとづいて、売上アップに貢献しない「改善」が行われがちであることをご存知ですか?マーケティングの現場で起こりがちなケースをもとに、「誤差」や「有意差」などについて、統計学の知識がない方にも分かりやすく解説します。

正規分布

A/Bテストの結果、本当に正しい!?EC企業で起こった“事件”

 

広告のCPA改善やランディングページ(LP)のコンバージョン率(CVR)アップのために欠かせない、A/Bテスト。

 

このA/Bテストで数字が良かったクリエイティブを採用したら、費用対効果が悪化してしまった・・
そんな現象が起こってしまう可能性があることを、ご存知ですか?

 

 

あるECサイトを運営する企業では、A/Bテストを継続的に実施してWEBサイトの CVRを改善してきました。
直近のデザイン改善でも「CVRが、9.5%から9.6%にアップ!」という結果が出て、社内の関係部署は祝福ムードに包まれていました。
(出典:「統計学が最強の学問である」西内啓)

 

 

ABテスト

 

 

このテスト結果について相談を受けた統計学者(著者)が、「誤差でもこれくらいの差が生じるのか?」「それとも、本当に改善したと言えるのか?」を確かめることに。
「カイ二乗検定」という手法で解析してみたところ、「実際には何の差もない状況でも、データの誤差によってこの程度の差が生じる確率は、44.7%である」という結果が示されました。

 

これは簡単に言うと「約半分の確率で、以前と変化しない」ということ。
つまり、A/Bテストによって「コンバージョンが改善した!」と判断されて採用されたデザインが、「売上アップに貢献するか?」はまったく未知数という衝撃的な結果が示されたのです。

 

 

レスポンスが“逆転”してしまった・・化粧品チラシでの体験

 

このようにA/Bテストで「改善した!」と出た結果が、実は信頼できない数字だったという体験は、弊社でも実際にありました。
(参考:「そのA/Bテストの結果、信頼できる?統計が苦手な人向け、有意差の検定法」)

 

化粧品のチラシでキャッチコピーを変えて、2パターンのチラシを作成したのですが、1回目はAパターンの勝利。
ですがレスポンスの差が110%と大きくはつかなかったため、念のため別の媒体でも同じく2パターンを出稿したところ、2つ目の媒体では「Bパターンが、数件の差で多い」と結果が逆転。

 

さらに3つ目の媒体では、10件近くの差がついて、BパターンのレスポンスがAパターンを上回りました。
このように、3つの媒体でそれぞれバラバラの結果が出てしまったのです。

 

 

なぜ、このようにA/Bテストで全く異なる数字が測定されてしまうのでしょうか?

 

それは、「誤差」によって、実際のテスト結果は変動してしまうからです。

 

 

テスト結果を狂わせる、「誤差」の正体とは?

 

誤差とは「実際に得られた値が、本来の値からどれだけずれているかを表す量」のこと。

 

データを測定したサンプル数が少ないと、偶然によって結果がブレて逆転してしまうことがあります。
「1人の顧客が反応したか?しなかったか?」「たまたま途中で心変わりした」といった些細なできごとが、テスト結果に影響を与えてしまうのです。

 

 

サンプルの少なさゆえのデータのバラツキによって、多くの回数で行った時の平均値、つまり広告やLPの持つ“本来の力”からテスト結果がずれてしまうこと

 

A/Bテストにおける「誤差」の正体です。

 

たとえば、LPのA/Bテストで、次のような結果が出たとしましょう。

 

Aパターンはコンバージョン率(CVR)が2%、Bパターンは3%。
この結果にもとづいて、「Aパターンの方が売れる」と結論づけられるのでしょうか?

 

テスト1

ABテスト

 

 

答えはNo.です。

 

Aパターンのコンバージョン(CV)が20件という数値は、誤差の観点を入れて考えると、ブレがあるなかで偶然に出てきた数値です。
同じくBパターンもブレがあるなかで出てきた数値ですが、お互いにブレのなかでも「はっきりとした差がある」言えるほどの数字ではないのです。

 

 

ユーザーの購買行動が、「正規分布」にしたがうなら

 

続いて、次の数字ならどうでしょうか?

 

AパターンはCVRが2%、Bパターンは3%とここまでは先ほどの数字と同じです。

 

ただし、アクセス数が10倍に増えて、10,000に。
CV件数もそれぞれ、200件と300件になっています。

 

テスト1

ABテスト

 

 

結論から言うと、このテスト結果は十分に信頼できると判断できます

 

なぜ、このように判断できるのでしょう?

 

WEBサイトのコンバージョン、つまりユーザーが「買うか?」「買わないか?」といった現象は、一般的に「正規分布」にもとづくと考えられています。

 

正規分布とは、下図のように「左右対称で滑らかな曲線の山で表されるデータのバラつき方」のことです。
(出典:「統計学が最強の学問である[実践編]—データ分析のための思想と方法 」西内啓)

 

正規分布

 

 

「コインを投げたときに表が出る回数」や「日本人の身長」、あるいは「センター試験の成績」といった数多くの現象について、数字の散らばり方が正規分布にしたがうことが分かっています。

 

 

アクセス数を増やしたら、AとBパターンの差は「有意差」に

 

この正規分布にしたがう場合、限られたアクセス数のもとに出た「CVR2%」や「3%」という平均値から、「本来の正しいCVR、すなわちアクセス数が無限に近いほど多かったときに出るCVRがどの範囲にあるか?」を推定できます。

 

テスト1では、AパターンとBパターンで本来のCVRが取りうる範囲(「信頼区間」と呼びます)が重なってしまいます。

 

したがって、テスト結果は統計的には誤差の範囲と推定されます。

 

テスト1

ABテスト1

 

 

逆にテスト2では、AパターンとBパターンは信頼区間が重なりません。
したがって、テスト結果は統計的に十分に正しいと推測されます。

 

テスト2

ABテスト2

 

 

このことを統計的に「有意」である、「有意差」が付いていると言います。
(参考:「A/Bテストの結果をどのように解釈するか?」)

 

このように比較的に多いアクセス数のもと、AパターンとBパターンの結果に十分な差がついていると、統計学の観点からも「誤差の範囲」ではなく、「信頼できる結果」と言える可能性が高くなるのです。

 

では、このようにAパターンとBパターンが有意差がついているか?は具体的にどうやって求めればよいでしょうか?
「仮説検定」などを活用して有意差を判定する方法については、統計学を学んだことのない“文系”の方にも分かりやすいように、また記事を書く予定です。