D2C、サブスクリプションなど
マーケティング関連の役立つ情報をお届けします。

そのA/Bテストの結果、信頼できる?統計が苦手な人向け、有意差の検定法

広告の費用対効果を高めていくために不可欠なA/Bテストですが、やはり誤差も生じます。ではサンプルがいくつあれば、有意差のある統計データがとれるのでしょうか?同じA/Bテストで結果が逆になってしまった事例と、統計が苦手な人でも分かる、有意差の検定法をお伝えします。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

「折込では、5万部はテストしないと・・」はホント?

 

件名のとおり、今回のテーマは広告のA/Bテストです。

 

広告の費用対効果を高めていくために、欠かせないのがA/Bテストですね。

 

ヘッドコピーを2種類つくったりメインの写真だけ差し替えてみたり・・・

 

いろいろ試してみるのはよいのですが、気になるのが、

 

「どれくらいの母数・サンプル数があれば、テスト結果が信頼できるデータになるか?」だと思います。

 

「折込チラシなら、最低5万部ずつはテストしないとダメですよ」
「いやいや、1万部でも見えてきます!」
「レスポンスが100件あれば、信頼できるサンプルになります」

 

いろいろな説が言われますが、はたして統計学的な根拠はあるのか…?

 

 

そんなことを考えていたときに、少し心配になった事例を聞いてしまったので、共有させていただきます。

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

化粧品チラシのテスト、レスポンスが逆転!?

 

ある化粧品のチラシを、同梱媒体でテストしたときの事例です。

 

訴求ポイントによって、キャッチコピーを2種類作成。

 

コピーだけ差し替えて、2.5万部ずつA/Bテストを行ったところ、

 

反応率は0.1%近くと全体的にレスポンスは好調ななかまずは、Aバターンが勝利!

 

 

ただし、AとBの差が110%弱と少なかったため、念のため、他に2つの媒体でも試してみたところ・・・

 

今度は「Bパターンが、数件の差で多い」と結果が逆転。

 

さらにもう1つの媒体では、10件近くの差がついて、BパターンのレスポンスがAパターンを上回ると、バラバラの結果となってしまったのです。

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

統計的“誤差”が起こる理由は?

 

どうしてこんな逆転現象が起こるか?というと、その犯人は、よく耳にする統計的「誤差」です。

 

 

たとえば、
レスポンスがA:30件、B:35件
というケースを想定しましょう。

 

「A:30件」というのは、統計学の観点から見るとある種、ブレがあるなかで偶然に出てきた数値なので、20~40件くらいまでなら、結果として出る可能性があると考えられます。(信頼度95%で「区間推定」) (参考記事

 

一方、「B:35件」も同じことが言えるので、取りうる範囲は、24~46件程度です。

 

ということは・・・ 両者の範囲は重なります。

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

もしテストの誤差で、せっかく作った広告原稿がボツになったら

 

なので、Aが本来の“実力”より低く出てしまって、なおかつ、仮にBが何らかの偶然によって実力以上の数値が出てしまったときは、
(例:本来のパワーは、Aが36件でBが32件のとき)

 

 

“実力”とは逆の結果が出てしまうことも十分にありうる、つまり、「A/Bパターンに違いがあるとは言い切れない」のです。

 

(と他人事のように書いていますが、実は私も、「これと同じくらいの差で、結果が良かったパターンを使い続けたことがあった!」と気づきました・・・)

 

せっかく作った広告原稿が、もしテストの誤差によってボツになってしまったとしたら、もったいないですよね。

 

 

では、レスポンスの差が統計的に“有意”である、つまり偶然の差ではないと検証するためには、どうすればよいのでしょうか?

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

数学が苦手な人にもわかる、ある検定法

 

その答えは、統計学の世界では十分に確立されていて、「カイ検定」といった高等数学を使った手法があります。

 

が・・・高校を卒業して以来、方程式とはほとんどお別れしてしまった私としては、「そんな複雑な記号を出されても、ムリ!」と拒否反応が浮かびつつ、

 

「せっかくのテストが、実は誤差の産物だった」なんてことだったら・・・と心配にも。

 

そこで、お正月に暇だったので、Googleで検索していろいろ調べてみたところ・・・
やっぱり同じようなことを考えている人がいたんですね!

 

しかも、数学な苦手な私たちにも、わかりやすい方法で検証しているブログを見つけました!

 

「ABテストと統計数字」

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

テスト結果の信頼性をはかる“公式”

 

まず、A/Bのレスポンスの合計数をNとおきます。

 

N=A+B

 

今回は、Aが32件でBが19件とおくと、N=51件ですね。

 

次に、A-Bの2分の1をDとおきます。

 

D=(A-B)/2

 

32-19は13で、2で割ると6.5です。

 

さて、前置きはここまでです。

 

もしDの2乗がNより大きかったとしたら、このテスト結果は統計的に有意だということです。

 

6.5の2乗は42.25なので、42.25<51とこのテスト結果は、信頼できないことになります。

 

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら
 
 

大事なのは、配布の「母数」?レスポンスの「件数」?

 

では逆に・・・
このレスが、先ほどのA:35件、B:19件だったとすると、

 

N=54<D2(Dの2乗)=64

 

となり、統計的に有意な結果となるのです。

 

 

つまり、この統計の考え方によると、部数や配信数などの「母数」は関係ないとのこと。

 

逆に、関係のあるのは、レスポンスの件数だけ。

 

それを使って、中学数学の計算で統計的な有意性を見極められるなら、嬉しいですね。

 

 

 

ちなみにこちらの検定方法、かなりシンプルですが、数学的な妥当性もあるとのこと。

 

詳細はこちらのブログ(英語)をご覧ください。

 

私は「理系」は苦手で、きちんと理解できないのですが、腕に自信がある方はぜひ!そして教えてください!
 
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
解説資料はこちら

お問い合わせ
広告・CRMなど、各分野の専門家が
お答えします
フォームからのお問い合わせ
お問い合わせフォームはこちら
お電話でのお問い合わせ
TEL: 03-6435-0337 (受付時間:平日 9:30-18:30)