そのA/Bテストの結果、信頼できる？統計が苦手な人向け、有意差の検定法

マーケティング全般投稿日：2012.01.11

執筆者：山内悠太 (株式会社ファインドスター　フェロー)

広告の費用対効果を高めていくために不可欠なA/Bテストですが、やはり誤差も生じます。ではサンプルがいくつあれば、有意差のある統計データがとれるのでしょうか？同じA/Bテストで結果が逆になってしまった事例と、統計が苦手な人でも分かる、有意差の検定法をお伝えします。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

1 「折込では、5万部はテストしないと・・」はホント？
2 化粧品チラシのテスト、レスポンスが逆転！？
3 統計的“誤差”が起こる理由は？
4 もしテストの誤差で、せっかく作った広告原稿がボツになったら
5 数学が苦手な人にもわかる、ある検定法
6 テスト結果の信頼性をはかる“公式”
7 大事なのは、配布の「母数」？レスポンスの「件数」？

「折込では、5万部はテストしないと・・」はホント？

件名のとおり、今回のテーマは広告のA/Bテストです。

広告の費用対効果を高めていくために、欠かせないのがA/Bテストですね。

ヘッドコピーを２種類つくったりメインの写真だけ差し替えてみたり・・・

いろいろ試してみるのはよいのですが、気になるのが、

「どれくらいの母数・サンプル数があれば、テスト結果が信頼できるデータになるか？」だと思います。

「折込チラシなら、最低5万部ずつはテストしないとダメですよ」
「いやいや、1万部でも見えてきます！」
「レスポンスが100件あれば、信頼できるサンプルになります」

いろいろな説が言われますが、はたして統計学的な根拠はあるのか…？

そんなことを考えていたときに、少し心配になった事例を聞いてしまったので、共有させていただきます。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

化粧品チラシのテスト、レスポンスが逆転！？

ある化粧品のチラシを、同梱媒体でテストしたときの事例です。

訴求ポイントによって、キャッチコピーを２種類作成。

コピーだけ差し替えて、2.5万部ずつA/Bテストを行ったところ、

反応率は0.1％近くと全体的にレスポンスは好調ななかまずは、Aバターンが勝利！

ただし、AとBの差が110％弱と少なかったため、念のため、他に2つの媒体でも試してみたところ・・・

今度は「Bパターンが、数件の差で多い」と結果が逆転。

さらにもう１つの媒体では、10件近くの差がついて、BパターンのレスポンスがAパターンを上回ると、バラバラの結果となってしまったのです。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

統計的“誤差”が起こる理由は？

どうしてこんな逆転現象が起こるか？というと、その犯人は、よく耳にする統計的「誤差」です。

たとえば、
レスポンスがA:30件、B：35件
というケースを想定しましょう。

「A:30件」というのは、統計学の観点から見るとある種、ブレがあるなかで偶然に出てきた数値なので、20～40件くらいまでなら、結果として出る可能性があると考えられます。（信頼度95％で「区間推定」）　（参考記事）

一方、「B：35件」も同じことが言えるので、取りうる範囲は、24～46件程度です。

ということは・・・両者の範囲は重なります。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

もしテストの誤差で、せっかく作った広告原稿がボツになったら

なので、Aが本来の“実力”より低く出てしまって、なおかつ、仮にBが何らかの偶然によって実力以上の数値が出てしまったときは、
（例：本来のパワーは、Aが36件でBが32件のとき）

“実力”とは逆の結果が出てしまうことも十分にありうる、つまり、「A/Bパターンに違いがあるとは言い切れない」のです。

（と他人事のように書いていますが、実は私も、「これと同じくらいの差で、結果が良かったパターンを使い続けたことがあった！」と気づきました・・・）

せっかく作った広告原稿が、もしテストの誤差によってボツになってしまったとしたら、もったいないですよね。

では、レスポンスの差が統計的に“有意”である、つまり偶然の差ではないと検証するためには、どうすればよいのでしょうか？

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

数学が苦手な人にもわかる、ある検定法

その答えは、統計学の世界では十分に確立されていて、「カイ検定」といった高等数学を使った手法があります。

が・・・高校を卒業して以来、方程式とはほとんどお別れしてしまった私としては、「そんな複雑な記号を出されても、ムリ！」と拒否反応が浮かびつつ、

「せっかくのテストが、実は誤差の産物だった」なんてことだったら・・・と心配にも。

そこで、お正月に暇だったので、Googleで検索していろいろ調べてみたところ・・・
やっぱり同じようなことを考えている人がいたんですね！

しかも、数学な苦手な私たちにも、わかりやすい方法で検証しているブログを見つけました！

「ABテストと統計数字」

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

テスト結果の信頼性をはかる“公式”

まず、A/Bのレスポンスの合計数をNとおきます。

Ｎ＝Ａ＋Ｂ

今回は、Aが32件でBが19件とおくと、N=51件ですね。

次に、A－Ｂの2分の1をＤとおきます。

Ｄ＝（Ａ－Ｂ）／２

32－19は13で、2で割ると6.5です。

さて、前置きはここまでです。

もしＤの２乗がＮより大きかったとしたら、このテスト結果は統計的に有意だということです。

6.5の２乗は42.25なので、42.25<51とこのテスト結果は、信頼できないことになります。

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら

大事なのは、配布の「母数」？レスポンスの「件数」？

では逆に・・・
このレスが、先ほどのA:35件、B:19件だったとすると、

N＝54<D2（Dの2乗）=64

となり、統計的に有意な結果となるのです。

つまり、この統計の考え方によると、部数や配信数などの「母数」は関係ないとのこと。

逆に、関係のあるのは、レスポンスの件数だけ。

それを使って、中学数学の計算で統計的な有意性を見極められるなら、嬉しいですね。

ちなみにこちらの検定方法、かなりシンプルですが、数学的な妥当性もあるとのこと。

詳細はこちらのブログ（英語）をご覧ください。

私は「理系」は苦手で、きちんと理解できないのですが、腕に自信がある方はぜひ！そして教えてください！

通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら