按两个参数进行样本分布的示例

joyuntochandr656 · Post by **joyuntochandr656** » Thu Mar 27, 2025 10:45 am

重要的一点：样本中每个子群体的人数比例必须与总体相对应。则代表性就高。
换句话说，如果 60％的城市居民乘汽车出行，40％乘公共交通出行，那么在有代表性的样本中应该能够观察到这一比例。

可以从公开来源获取按基本参数划分的受众分布信息，例如俄罗斯联邦统计局 (Rosstat)网站。
如果重要参数分布的数据不足，则工作分两个阶段进行：

第一阶段，根据业务重要的标准确定受众比例。
在第二阶段，形成一个有代表性的样本，并向受访者询问有关研究主题的问题。
选择样本的最简单方法是根据一两个重要特征进行选择，如下例所示。如果标准较多，结构就会相当复杂。

如何确定样本量
当然，理想的样本量是所有受访者，都是你正在研究的受众的一部分。然而，对全体人口进行调查非常耗时且昂贵。

而且，按照统计规律，1500人的调查结果和10000名受访者行业电邮清单的调查结果会略有不同——只有百分之几。这意味着采集太大的样本是没有意义的——我们需要找到调查参与者数量和误差幅度之间的“黄金分割”。

一项研究的误差幅度是结果中可以接受的误差百分比。例如，一项调查显示，50％的受众知道您的品牌，但误差幅度为5％。这意味着，在现实生活中，普通人群中大约有50±5%的人熟悉该公司的产品，也就是从45%到55%。

通常，研究的误差幅度为 1% 到 10%。最常见的错误值是 3% 或 5%。它越小，获得可靠结果的概率就越高。
可靠性（置信水平）是样本量计算中使用的另一个重要指标。它代表调查结果正确的受众比例。

可靠性水平设定在80-99%之间。如果低于 80%，那么这些数据就不可信，因为它对于大多数目标受众来说都是不正确的。

最常用的置信水平是 95%。如果预算允许，可以指定99%或者99.9%，但样本会更大。
因此，影响样本量的主要参数有三个：

误差级别-从1％到10％;
可靠性——从80%到99%；
总人口的规模——可以是已知的，也可以是未知的。
最终数据的可靠性和误差水平由公司根据业务目标和预算规模设定。人口规模由营销人员决定。如果不知道确切的值，则可能根本无法在计算中显示出来。在这种情况下，样本将以“有储备”的方式计算。