根據原假設,結果 A 和 B 之間沒有差異,或者它們是隨機的。我們希望這個假設是錯的。 假設的第二個版本 - B 與 A 不同,因此得出關於其真實性的結論很重要。 決定 A/B 測試是單側測試還是雙向測試。單邊將有助於找到一個方向的變化。雙邊-可以看到兩個方向的變化(正面和負面)。 4. 實驗準備 為了獲得正確的測試結果,您需要執行以下操作: 建立您要測試的修改版本 (B)。 選擇一個測試和實驗組。您對來自某一地緣政治區域的訪客感興趣還是對來自所有平台的使用者感興趣?現在找出所研究的受眾中有多少百分比屬於使用者測試群組(看到版本 A 的群組)以及屬於實驗群組(看到版本 B 的群組)的百分比。保持小組規模相同對於獲取最新資訊非常重要。
所有用戶應該有平等的機會接收一個或另一個版本。 確定統計顯著水準 (α)。這是您接受 I 類錯誤的風險等級(如果原假設為真,則拒絕原假設),通常 α = 0.05。這意味著您有 5% 的時間會看到 A 和 B 之間的差異,這是 加拿大消費者電子郵件列表 由偶然決定的。選擇的顯著水準越低,版本之間的差異因偶然原因造成的風險就越低。 決定最小樣本量。使用計算器計算每個版本所需的確切樣本量。此指標可能受到公司偏好和完全不同參數的影響。為了獲得統計上正確、有意義的結果,擁有足夠大的樣本量非常重要。 設定一個時間限制。您需要取得測試每個版本所需的總樣本量,並將其除以每日流量。您將收到完成測試所需的天數。測試通常持續 1-2 週。 讓我們舉個例子:我們將在註冊部分對網站現有版本的主頁進行更改 - 這將是版本 B。
我們將提供網站的隨機樣本,即所有用戶將有相同的機會收到隨機分發的版本 A 或 B。 一定要設定時間限制。例如,每天您的頁面有 10,000 個使用者造訪。這意味著只有 5,000 個用戶會看到每個版本。那麼最小樣本量約為每個版本 100,000 次瀏覽。 100,000 / 5,000 = 20 天 - 這是應該分配給實驗的時間段。 5. 進行實驗 你絕對需要做什麼? 與執行者一起確定實驗參數。 如果有測試關閉站點,請執行請求以檢查資料。如果沒有這樣的站點,請在第一個實驗日後檢查數據。 在發布當天,確保測試確實有效。 而且,不要在第一天評估結果。過早查看結果會破壞統計數據!為什麼?讓我們進一步告訴你。