広告の費用対効果を高めていくために不可欠なA/Bテストですが、やはり誤差も生じます。ではサンプルがいくつあれば、有意差のある統計データがとれるのでしょうか?同じA/Bテストで結果が逆になってしまった事例と、統計が苦手な人でも分かる、有意差の検定法をお伝えします。
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
目次
「折込では、5万部はテストしないと・・」はホント?
件名のとおり、今回のテーマは広告のA/Bテストです。
広告の費用対効果を高めていくために、欠かせないのがA/Bテストですね。
ヘッドコピーを2種類つくったりメインの写真だけ差し替えてみたり・・・
いろいろ試してみるのはよいのですが、気になるのが、
「どれくらいの母数・サンプル数があれば、テスト結果が信頼できるデータになるか?」だと思います。
「折込チラシなら、最低5万部ずつはテストしないとダメですよ」
「いやいや、1万部でも見えてきます!」
「レスポンスが100件あれば、信頼できるサンプルになります」
いろいろな説が言われますが、はたして統計学的な根拠はあるのか…?
そんなことを考えていたときに、少し心配になった事例を聞いてしまったので、共有させていただきます。
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
化粧品チラシのテスト、レスポンスが逆転!?
ある化粧品のチラシを、同梱媒体でテストしたときの事例です。
訴求ポイントによって、キャッチコピーを2種類作成。
コピーだけ差し替えて、2.5万部ずつA/Bテストを行ったところ、
反応率は0.1%近くと全体的にレスポンスは好調ななかまずは、Aバターンが勝利!
ただし、AとBの差が110%弱と少なかったため、念のため、他に2つの媒体でも試してみたところ・・・
今度は「Bパターンが、数件の差で多い」と結果が逆転。
さらにもう1つの媒体では、10件近くの差がついて、BパターンのレスポンスがAパターンを上回ると、バラバラの結果となってしまったのです。
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
統計的“誤差”が起こる理由は?
どうしてこんな逆転現象が起こるか?というと、その犯人は、よく耳にする統計的「誤差」です。
たとえば、
レスポンスがA:30件、B:35件
というケースを想定しましょう。
「A:30件」というのは、統計学の観点から見るとある種、ブレがあるなかで偶然に出てきた数値なので、20~40件くらいまでなら、結果として出る可能性があると考えられます。(信頼度95%で「区間推定」) (参考記事 )
一方、「B:35件」も同じことが言えるので、取りうる範囲は、24~46件程度です。
ということは・・・ 両者の範囲は重なります。
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
もしテストの誤差で、せっかく作った広告原稿がボツになったら
なので、Aが本来の“実力”より低く出てしまって、なおかつ、仮にBが何らかの偶然によって実力以上の数値が出てしまったときは、
(例:本来のパワーは、Aが36件でBが32件のとき)
“実力”とは逆の結果が出てしまうことも十分にありうる、つまり、「A/Bパターンに違いがあるとは言い切れない」のです。
(と他人事のように書いていますが、実は私も、「これと同じくらいの差で、結果が良かったパターンを使い続けたことがあった!」と気づきました・・・)
せっかく作った広告原稿が、もしテストの誤差によってボツになってしまったとしたら、もったいないですよね。
では、レスポンスの差が統計的に“有意”である、つまり偶然の差ではないと検証するためには、どうすればよいのでしょうか?
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
数学が苦手な人にもわかる、ある検定法
その答えは、統計学の世界では十分に確立されていて、「カイ検定」といった高等数学を使った手法があります。
が・・・高校を卒業して以来、方程式とはほとんどお別れしてしまった私としては、「そんな複雑な記号を出されても、ムリ!」と拒否反応が浮かびつつ、
「せっかくのテストが、実は誤差の産物だった」なんてことだったら・・・と心配にも。
そこで、お正月に暇だったので、Googleで検索していろいろ調べてみたところ・・・
やっぱり同じようなことを考えている人がいたんですね!
しかも、数学な苦手な私たちにも、わかりやすい方法で検証しているブログを見つけました!
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
テスト結果の信頼性をはかる“公式”
まず、A/Bのレスポンスの合計数をNとおきます。
N=A+B
今回は、Aが32件でBが19件とおくと、N=51件ですね。
次に、A-Bの2分の1をDとおきます。
D=(A-B)/2
32-19は13で、2で割ると6.5です。
さて、前置きはここまでです。
もしDの2乗がNより大きかったとしたら、このテスト結果は統計的に有意だということです。
6.5の2乗は42.25なので、42.25<51とこのテスト結果は、信頼できないことになります。
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら
大事なのは、配布の「母数」?レスポンスの「件数」?
では逆に・・・
このレスが、先ほどのA:35件、B:19件だったとすると、
N=54<D2(Dの2乗)=64
となり、統計的に有意な結果となるのです。
つまり、この統計の考え方によると、部数や配信数などの「母数」は関係ないとのこと。
逆に、関係のあるのは、レスポンスの件数だけ。
それを使って、中学数学の計算で統計的な有意性を見極められるなら、嬉しいですね。
ちなみにこちらの検定方法、かなりシンプルですが、数学的な妥当性もあるとのこと。
詳細はこちらのブログ(英語)をご覧ください。
私は「理系」は苦手で、きちんと理解できないのですが、腕に自信がある方はぜひ!そして教えてください!
通販事業の現場で使われているKPIを新任担当者でも分かるようにまとめました。
⇒解説資料はこちら