確定網(wǎng)站 A/B 測(cè)試的測(cè)試周期,核心是避免 “憑經(jīng)驗(yàn)拍腦袋”(如固定 7 天)或 “看到差異就!,而是基于數(shù)據(jù)科學(xué)性、用戶行為規(guī)律、測(cè)試目標(biāo)特性綜合判斷。周期過(guò)短會(huì)導(dǎo)致樣本不足、結(jié)果不可信;周期過(guò)長(zhǎng)則浪費(fèi)流量資源、延誤優(yōu)化決策。以下是具體方法和關(guān)鍵考量因素:
測(cè)試周期的本質(zhì)是 “收集足夠多的有效數(shù)據(jù),讓結(jié)果具備統(tǒng)計(jì)顯著性”,而非 “湊夠固定天數(shù)”。核心原則有兩個(gè):
- 統(tǒng)計(jì)顯著性優(yōu)先:必須達(dá)到「95% 以上置信度」+「80% 以上統(tǒng)計(jì)功效」(行業(yè)通用標(biāo)準(zhǔn)),否則結(jié)果可能是隨機(jī)波動(dòng),而非真實(shí)差異。
- 覆蓋完整用戶周期:避免因 “局部時(shí)間偏差”(如僅測(cè)工作日、忽略周末)導(dǎo)致結(jié)果失真,需覆蓋 1 個(gè)完整的用戶行為周期(如周度、月度)。
測(cè)試周期的長(zhǎng)短,本質(zhì)是由 “需要多少數(shù)據(jù)” 和 “能收集多少數(shù)據(jù)” 共同決定的。以下 4 個(gè)因素需逐一拆解:
不同測(cè)試目標(biāo)的轉(zhuǎn)化難度(頻率)差異極大,直接影響所需數(shù)據(jù)量,進(jìn)而決定周期。需先明確測(cè)試目標(biāo)屬于 “漏斗頂部” 還是 “漏斗底部”:
實(shí)操建議:優(yōu)先測(cè)試 “頂部 / 中部漏斗目標(biāo)”(周期短、迭代快),再基于結(jié)果優(yōu)化 “底部漏斗”(周期長(zhǎng)、需耐心)。
樣本量是決定周期的核心數(shù)據(jù) —— 需先算出 “至少需要多少個(gè)有效樣本(如轉(zhuǎn)化數(shù))”,再根據(jù) “日均流量 / 轉(zhuǎn)化量” 反推周期。
- 什么是 “有效樣本”:僅統(tǒng)計(jì) “真正參與測(cè)試的用戶”(排除機(jī)器人、重復(fù)訪問(wèn)、未完整瀏覽頁(yè)面的用戶)。
- 如何估算樣本量:用行業(yè)通用的「A/B 測(cè)試樣本量計(jì)算器」(如 Optimizely Sample Size Calculator、Google Optimize 內(nèi)置工具),輸入 3 個(gè)關(guān)鍵參數(shù):
- 基準(zhǔn)轉(zhuǎn)化率(Baseline Conversion Rate):測(cè)試前,當(dāng)前版本(A 版)的轉(zhuǎn)化數(shù)據(jù)(如過(guò)去 30 天的平均轉(zhuǎn)化率)。
- 小可檢測(cè)效應(yīng)(MDE):你希望檢測(cè)到的 “小有意義差異”(如希望提升 5% 的轉(zhuǎn)化率,MDE 即 5%)。MDE 越小,所需樣本量越大,周期越長(zhǎng)。
- 置信度(Confidence Level):默認(rèn) 95%(即結(jié)果有 95% 概率是真實(shí)的,而非隨機(jī))。
示例:若基準(zhǔn)轉(zhuǎn)化率為 2%,MDE 設(shè)為 5%(即希望提升到 2.1%),置信度 95%,計(jì)算器會(huì)顯示 “每組需至少 5000 個(gè)樣本”。若網(wǎng)站日均流量為 1000,且 A/B 測(cè)試分流量為 50%(A 版 500 人 / 天,B 版 500 人 / 天),則每組需 10 天才能收集 5000 個(gè)樣本,測(cè)試周期即 10 天。
流量是 “數(shù)據(jù)收集速度” 的核心 —— 高流量網(wǎng)站能快速湊夠樣本,低流量網(wǎng)站則需更長(zhǎng)時(shí)間。
注意:低流量網(wǎng)站避免 “為了縮短周期而降低統(tǒng)計(jì)標(biāo)準(zhǔn)”(如把置信度降到 90%),否則優(yōu)化決策可能出錯(cuò),反而浪費(fèi)資源。
用戶行為存在天然的時(shí)間規(guī)律(如周度、月度),若測(cè)試周期未覆蓋完整周期,會(huì)導(dǎo)致數(shù)據(jù) “片面失真”。
- 周度周期:多數(shù)網(wǎng)站(如電商、內(nèi)容站)存在 “周末流量高、轉(zhuǎn)化高”“工作日流量平穩(wěn)” 的規(guī)律。若只測(cè) “周一 - 周五”(5 天),會(huì)低估周末的轉(zhuǎn)化表現(xiàn),結(jié)果不準(zhǔn)確。
→ 建議:至少覆蓋 1 個(gè)完整周(7 天),若測(cè)試目標(biāo)是 “高頻行為”(如點(diǎn)擊),7 天足夠;若為 “低頻行為”(如購(gòu)買),可覆蓋 2 個(gè)周(14 天)。
- 月度周期:部分行業(yè)有 “月度規(guī)律”(如工資日消費(fèi)高峰、月底促銷轉(zhuǎn)化高),如金融類網(wǎng)站(理財(cái)購(gòu)買)、母嬰類網(wǎng)站(奶粉囤貨)。
→ 建議:若測(cè)試目標(biāo)與月度行為強(qiáng)相關(guān)(如 “理財(cái)產(chǎn)品注冊(cè)”),需覆蓋 1 個(gè)完整月(30 天),避免錯(cuò)過(guò)關(guān)鍵轉(zhuǎn)化節(jié)點(diǎn)。
- 特殊周期:避開(kāi)節(jié)假日、大促(如 618、雙 11)、平臺(tái)活動(dòng)等 “干擾期”—— 這些時(shí)期用戶行為異常(如沖動(dòng)消費(fèi)),測(cè)試結(jié)果無(wú)法復(fù)現(xiàn),需暫停測(cè)試或延長(zhǎng)周期(待活動(dòng)結(jié)束后補(bǔ)測(cè))。
-
明確測(cè)試目標(biāo)與基準(zhǔn)數(shù)據(jù)
先確定 “測(cè)什么”(如 “商品詳情頁(yè)按鈕文案”)和 “評(píng)什么”(如 “加購(gòu)轉(zhuǎn)化率”),并提取過(guò)去 30 天的基準(zhǔn)轉(zhuǎn)化率(如加購(gòu)率 3%)。
-
用計(jì)算器估算樣本量
輸入基準(zhǔn)轉(zhuǎn)化率(3%)、MDE(如 5%)、置信度(95%),得出每組需 10000 個(gè)樣本(示例)。
-
結(jié)合流量算 “理論周期”
若網(wǎng)站日均流量 2000,分流量 50%(A/B 各 1000 人 / 天),則每組需 10 天(10000÷1000=10 天),理論周期為 10 天。
-
疊加 “用戶行為周期” 修正
若測(cè)試目標(biāo)(加購(gòu))有周度規(guī)律,理論周期 10 天已覆蓋 1 個(gè)完整周(7 天),無(wú)需額外延長(zhǎng);若理論周期僅 5 天(未覆蓋周末),則需延長(zhǎng)至 7 天。
-
實(shí)時(shí)監(jiān)測(cè)統(tǒng)計(jì)顯著性,達(dá)標(biāo)即結(jié)束
測(cè)試啟動(dòng)后,每天查看統(tǒng)計(jì)工具(如 Google Analytics、Optimizely)的 “置信度” 和 “統(tǒng)計(jì)功效”:
- 若達(dá)到 95% 置信度 + 80% 功效,且已覆蓋完整用戶周期,即可結(jié)束測(cè)試;
- 若未達(dá)標(biāo),繼續(xù)延長(zhǎng)周期(多不超過(guò) 30 天,若 30 天仍不達(dá)標(biāo),需重新審視測(cè)試設(shè)計(jì),如是否 MDE 設(shè)得太小、目標(biāo)是否太淺)。
- “固定 7 天,到點(diǎn)就!:若 7 天未達(dá)統(tǒng)計(jì)顯著性,結(jié)果不可信;若 2 天就達(dá)標(biāo),硬等 7 天會(huì)浪費(fèi)流量。
- “看到 B 版比 A 版好就停”:初期數(shù)據(jù)可能是隨機(jī)波動(dòng)(如前 2 天 B 版轉(zhuǎn)化高,后 3 天又低于 A 版),過(guò)早停止會(huì)得出錯(cuò)誤結(jié)論。
- “低流量網(wǎng)站強(qiáng)行縮短周期”:如日均 500 流量,硬把周期定 7 天,樣本僅 3500,未達(dá)統(tǒng)計(jì)標(biāo)準(zhǔn),優(yōu)化決策易出錯(cuò)。
測(cè)試周期的核心邏輯是:先算 “需要多少樣本”,再看 “能收集多少樣本”,后補(bǔ) “完整用戶周期”。沒(méi)有 “萬(wàn)能周期”,但有 “科學(xué)標(biāo)準(zhǔn)”—— 始終以 “95% 置信度 + 80% 功效” 為底線,結(jié)合流量、轉(zhuǎn)化頻率、用戶規(guī)律調(diào)整,才能讓 A/B 測(cè)試結(jié)果真正指導(dǎo)優(yōu)化。 |