Сделайте разбиение клиентов по группам (контроль и тест) с помощью функции sample из библиотеки pandas. По аналогии с расчетом из лекции сделайте 1000 разбиений с помощью sample и рассчита

Вопрос пользователя:

Сделайте разбиение клиентов по группам (контроль и тест) с помощью функции sample из библиотеки pandas. По аналогии с расчетом из лекции сделайте 1000 разбиений с помощью sample и рассчитайте статистическую значимость разниц. В скольких процентах случаев наблюдается статистически значимая разница между контролем и тестом в АА-тесте?

Ответ нейросети:

Для начала создадим случайные данные, представляющие собой результаты клиентов (например, выручка) в контрольной и тестовой группах:

import pandas as pd
import numpy as np

np.random.seed(42)

control_group = pd.Series(np.random.normal(loc=100, scale=20, size=1000), name='Control')
test_group = pd.Series(np.random.normal(loc=105, scale=20, size=1000), name='Test')

data = pd.concat([control_group, test_group], axis=1)

Теперь проведем 1000 разбиений и рассчитаем статистическую значимость разницы между контрольной и тестовой группами:

sign_diff_count = 0
total_iterations = 1000

for _ in range(total_iterations):
    sample_control = data['Control'].sample(frac=0.5)
    sample_test = data['Test'].sample(frac=0.5)
    
    mean_control = sample_control.mean()
    mean_test = sample_test.mean()
    
    std_control = sample_control.std()
    std_test = sample_test.std()
    
    t_statistic = (mean_test - mean_control) / np.sqrt((std_control**2/len(sample_control)) + (std_test**2/len(sample_test)))
    
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_statistic), df=len(sample_control) + len(sample_test) - 2))
    
    if p_value < 0.05:
        sign_diff_count += 1

percentage_sign_diff = (sign_diff_count / total_iterations) * 100
print(f"Статистически значимая разница между контролем и тестом наблюдается в {percentage_sign_diff}% случаев.")

Таким образом, мы провели 1000 разбиений данных на контрольную и тестовую группы, рассчитали статистическую значимость разницы между ними и определили, в скольких процентах случаев наблюдается статистически значимая разница.

Напишите нам, если в вопросе есть ваши персональные данные ([email protected])

import pandas as pd
import numpy as np

np.random.seed(42)

control_group = pd.Series(np.random.normal(loc=100, scale=20, size=1000), name='Control')
test_group = pd.Series(np.random.normal(loc=105, scale=20, size=1000), name='Test')

data = pd.concat([control_group, test_group], axis=1)

sign_diff_count = 0
total_iterations = 1000

for _ in range(total_iterations):
    sample_control = data['Control'].sample(frac=0.5)
    sample_test = data['Test'].sample(frac=0.5)
    
    mean_control = sample_control.mean()
    mean_test = sample_test.mean()
    
    std_control = sample_control.std()
    std_test = sample_test.std()
    
    t_statistic = (mean_test - mean_control) / np.sqrt((std_control**2/len(sample_control)) + (std_test**2/len(sample_test)))
    
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_statistic), df=len(sample_control) + len(sample_test) - 2))
    
    if p_value < 0.05:
        sign_diff_count += 1

percentage_sign_diff = (sign_diff_count / total_iterations) * 100
print(f"Статистически значимая разница между контролем и тестом наблюдается в {percentage_sign_diff}% случаев.")

Последние вопросы: