`

抽样类型详细说明

    博客分类:
  • hive
阅读更多

抽样的类型
  根据抽取对象的具体方式,人们把抽样分为许多不同的类型。总的来说,各种抽样都可以归为概率抽样与非概率抽样两大类。这是两种有着本质区别的抽样类型。概率抽样是依据概率论的基本原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性;而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以保证样本的代表性。
  概率抽样与非概率抽样又各自包括了许多具体类型。分别适用于不同调查对象。联系实际认识概率抽样的不同类型及其适用性是掌握抽样方法的关键。
  (一)概率抽样
  概率抽样又称随机抽样,是指总体中每一个成员都有同等的进入样本的可能性,即每一个成员的被抽概率相等,而且任何个体之间彼此被抽取的机会是独立的。概率抽样以概率理论为依据,通过随机化的机械操作程序取得样本,所以能避免抽样过程中的人为因素的影响,保证样本的客观性。虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,而且能计算和控制抽样误差,因此可以正确地说明样本的统计值在多大程度上适合于总体,根据样本调查的结果可以从数量上推断总体,也可在一定程度上说明总体的性质、特征。正是因为如此,现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。
  概率抽样依照具体抽样方法的不同,分为以下类型:
  1.简单随机抽样
  简单随机抽样又称纯随机抽样,是指在特定总体的所有单位中直接抽取n个组成样本。它是一种等概率抽样和元素抽样方法,最直观地体现了抽样的基本原理。简单随机抽样是最基本的概率抽样,其它概率抽样都以它为基础,可以说是由它派生而来的。
  简单随机抽样分为重复抽样和不重复抽样两类。
  常用的简单随机抽样方法有直接抽样法、抽签法和随机数表法。
  其中直接抽样法、抽签法适用于总体规模稍小的抽样;随机数表法是用随机数表来抽样的方法,适用于总体规模稍大的抽样。 
  简单随机抽样没有人为因素的干扰,简单易行,是概率抽样的理想类型。但是它也有很大局限性。
  第一,这种抽样方法,在总体同质性较高时,用来比较准确有效,但在总体异质性较高时,则不一定效果好。这是因为当构成总体的个体差异较大时,用简单随机抽样方法抽出的样本由于在总体中的分布不一定均匀,所以很可能误差较大,不能很好地说明总体的性质和特征。
  第二,当总体所含个体数目太多时,采用这种抽样方式不仅费时、费力、费钱,而且很难操作。
  2.系统抽样
  系统抽样也称等距抽样或机械抽样,是按一定的间隔距离抽取样本的方法。其做法是先编制抽样框,将总体的所有单位都按一定标志排列编号;再用总体的单位数除以样本的单位数,求得抽样间距;然后,在第一个抽样间距内随机抽出第一个样本单位,作为抽样的起点;接着,按照抽样间距依次抽取样本单位,直到抽足样本的单位数为止。
  同简单随机抽样相比,系统抽样有明显的优点。
  第一,当总体规模较大时,系统抽样比简单随机抽样中的随机数表法易于实施,工作量较少。它不需要反复使用随机数字表抽取个体,而只需按照间隔等距抽取即可。
  第二,系统抽样的样本不是任意抽取,而是按照间隔等距抽取,所以在总体中的分布更均匀,抽样误差一般也要小于简单随机抽样,也就是说精确度更高,代表性更强。
  系统抽样的局限性与简单随机抽样一样,也是仅适用于同质性较高的总体。当总体内不同类别个体的数量相差过于悬殊时,采用此法所抽出的样本代表性可能较差。另外,总体单位的排列不能呈有规律分布的状态,否则会使系统抽样产生很大误差,降低样本的代表性。
  3.分类抽样
  所谓分类抽样也叫类型抽样或分层抽样,就是先将总体的所有单位依照一种或几种特征分为若干个子总体,每一个子总体即为一类,然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本,称为分类样本,再把它们集合起来即为总体样本。
  按照确定分层样本数量的不同方式,分类抽样分为比例分类抽样和非比例分类抽样两种。比例分类抽样是指分类样本在总体样本中所占比例与该类所有单位在总体中所占比例相同;非比例分类抽样则比例不同。
  分类抽样有着突出的优点:
  第一,分类抽样能够克服简单随机抽样的缺点,适用于总体内个体数目较多,结构较复杂,内部差异较大的情况。
  第二,精确度较高。
  第三,便于对不同层面的问题进行探索。
  第四,便于分工,使工作效率提高。
  分类抽样的缺点是,如何分类通常由人们主观判定,因此要求调查者具备较高的素质与能力,并且必须事先对总体各单位的情况有较多的了解,而它们在实际工作中有时难以完全实现,这就会影响分类的科学性和精确性。
  4.整群抽样
  整群抽样又称聚类抽样或集体抽样,是将总体按照某种标准划分为一些群体,每一个群体为一个抽样单位,再用随机的方法从这些群体中抽取若干群体,并将所抽出群体中的所有个体集合为总体的样本。整群抽样分为等规模整群抽样和不等规模整群抽样,前者总体内所有群体的规模都大致相同,后者总体内各群体规模则不等,在社会调查研究中以后一种情况居多。这种差异如果较大,就会对抽样成本预算与精确度测算以及实地调查工作造成不利影响,同时还容易产生抽样偏差。为了解决这一问题,人们往往采用概率与元素的规模大小成比例的抽样方法,简称PPS抽样(Probability Proportionate to Size),就是根据每个群体所包含的最终抽样单位(如家庭)的规模来决定各自抽取样本的比例大小,规模大则抽取样本比例相对小,规模小则抽取样本比例相对大,从而保证每个群体中的最终抽样单位都具有被抽中的同等机会。
  整群抽样与分类抽样都是将总体分为一些子群,但它和分类抽样的区别在于不是按性质和特征而是按集群性划分抽样对象。而且分类抽样中所有子群均要抽取一个样本,总体样本是各分类样本的集合,即总体样本在各类中均有分布。整群抽样则不然,它是抽取若干子群,并将这些子群的全部个体集合为总体样本,因此,总体样本只分布在部分子群之中。整群抽样对于个体单位之间界限不清的总体,能够充分发挥其作用,却并不适用于总体单位界限分明的情况。对于后者,一般还是以采用分类抽样等方法为宜。
  另外,整群抽样对于所含子群总数较少的总体也不大适用。
  5.多阶段抽样
  多阶段抽样又称多级抽样或分段抽样,就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。它是在总体内个体单位数量较大,而彼此间的差异不太大时,先将总体各单位按一定标志分成若干群体,作为抽样的第1阶段单位,并依照随机原则,从中抽出若干群体作为第1阶段样本;然后将第1阶段样本又分成若干小群体,作为抽样的第2阶段单位,从中抽出若干群体作为第2阶段样本,依此类推,可以有第3阶段、第4阶段。。。直到满足需要为止。最末阶段抽出的样本单位的集合,就是最终形成的总体样本。
  在进行大规模社会调查时,如果抽样单位只有一级,而且样本的分布极其分散,所需调查费用与人力物力就巨大。多阶段抽样采用从高级抽样单位到低级抽样单位逐段抽样的方法,能够较好地解决这些问题。因此,多阶段抽样的最大优点就是可以达到以最小的人财物消耗和最短的时间获得最佳调查效果的目的,特别适用于调查范围大、单位多、情况复杂的调查对象。此外,多阶段抽样由于在各阶段抽样时可根据具体情况灵活选用不同的抽样方法,所以能够综合各种抽样方法的优点,有利于提高样本质量。
  多阶段抽样的不足之处是抽样误差较大。由于每次抽样都必然产生误差,所以抽样阶段越多抽样误差就越大。因此,为了降低抽样误差的程度,必须避免不必要的分段。
  (二)非概率抽样
  非概率抽样又称为不等概率抽样、非随机抽样或主观抽样,就是调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质、特征,但不能从数量上推断总体。
  非随机抽样的具体方法很多,其中常用的有以下几种:
  1.偶遇抽样
  偶遇抽样又叫自然抽样、方便抽样或便利抽样,是调查者将在一定时间、一定环境里所能遇见到或接触到的人作为样本的方法。具体说就是调查者根据自己的方便,任意抽取偶然遇到的人或者选择那些离自己最近的、最容易找到的人作为样本。
  2.判断抽样
  判断抽样又叫目标抽样、或立意抽样,是调查者根据研究的目标和自己主观的分析,来选择和确定样本的方法。它又可分为印象判断抽样和经验判断抽样两种。
  3.定额抽样
  定额抽样又叫配额抽样,是先根据总体各个组成部分所包含的抽样单位的比例分配样本数额,然后由调查者在各个组成部分内根据配额的多少采用主观的抽样方法抽取样本。
  定额抽样与概率抽样中的分类抽样、整群抽样都是依据某些特征对总体进行分类,但定额抽样注重的是样本与总体在结构比例上的表面一致性而不是本质特征上的内部一致性。所以往往照顾不到总体单位之间的差异性。对于那些单位众多、错综复杂、情况不断更新的调查总体而言,定额抽样的样本很可能出现较大的误差,因此,根据定额抽样样本调查的结果是不能推论较大总体的,即使在较小的调查研究中,要用定额抽样调查的结果推论总体,也应谨慎从事。它一般不是用于说明总体状况,而是用于检验理论、说明关系、比较不同等。
  4.滚雪球抽样
  滚雪球是一种形象比喻的说法,它是指先找少量的、甚至个别的调查对象进行访问,然后通过他们再去寻找新的调查对象,依次类推,就像滚雪球一样越来越大,直至达到调查目的为止。
  滚雪球抽样适用于总体的个体信息不充分或难以获得,不能使用其它抽样方法抽取样本的调查研究。
  滚雪球抽样用于某一特殊群体的调查往往可以收到奇效。但是,当总体规模较大时,有许多个体就无法找到;有时调查对象会出于某种考虑故意漏掉一些重要个体,这都可能导致抽样样本产生误差,无法正确反映总体状况。
  总之,非概率抽样不是按照概率均等的原则,而是根据人们的主观经验和便利条件来抽取样本,每个个体进入样本的概率是未知的,无法说明样本是否重现了总体的结构,所以,其样本的代表性往往较小,误差有时相当大并且无法估计,用这样的样本推论总体是不可靠的。
  但是非概率抽样也有其优势:一是在很多情况下,严格的随机抽样无法进行或没有必要,例如,在人流涌动的车站、商店、广场、街道等许多场合,不允许调查者从容地随机抽样;对诸如吸毒者之类的特殊社会群体无法确定调查总体,也就无法随机抽取样本;有时调查的目的只是要对总体作最一般的了解和接触或做某些片面的研究,没必要采用随机抽样;由于调查者的时间,人力,物力不足,无力进行随机抽样,等等。在这些情况下,就只能采用非概率抽样。二是随机抽样为了保证概率原则,对抽样的操作过程要求严格,实施起来比较麻烦,费时费财费力,而非概率抽样操作便捷,省钱省时省力,统计上也远较概率抽样简单,因此如果调查的目的允许,而且调查者对调查总体有较好的了解,那么采用非概率抽样就不失为一种更好的选择。

 

本文转自:http://202.107.209.242/media_file/rm/ip3/wangzz/2007_03_01/shdcy/shdcy04/htm/04.htm

分享到:
评论

相关推荐

    Python数据分析(8)—-用Pandas实现数据分层抽样

    分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。这种方法的优点是,样本的代表性比较好,抽样误差比较小。缺点是抽样手续较简单...

    抽样培训资料实地抽样.pptx

    说明 起点的选取 详细内容... 在该居委范围内选择一点作为抽样起点,起点应尽量选择近居民区内的主要通道和便于按右手原则行走并画图的地方。对于起点,应随机选取。要方便访问员寻找及行走路线的连续。(一般都会...

    matlab程序,可实现脉冲编码调制,模拟信号的数字传输:抽样、量化、编码

    资源名:matlab程序,可实现脉冲编码调制,模拟信号的数字传输:抽样、量化、编码 资源类型:matlab项目全套源码 源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行...

    sphere_homeo_sfc_isotropic_splg_等向随机抽样_matlab

    资源名:sphere_homeo_sfc_isotropic_splg_等向随机抽样_matlab 资源类型:matlab项目全套源码 源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合...

    程序文件-IQC进料检验程序.pdf

    详细根据对应料号的sop操作 3.4 AQL(Acceptabel Quality Level,合格品质水准) 在抽样检查中决定LOT的合格有否时,判定为满足工程平均不良的不良率上限值,或 100单位中不良数的上限值。 3.5 LOT 指同一时间入库,...

    计数小面积估计的多层贝叶斯模型的比较

    与传统的SAE模型相比,分层SAE问题的贝叶斯方法具有多个优点,包括能够适当考虑所调查变量的类型。 在本文中,讨论了许多用于估计小面积计数的模型规范,并说明了它们的相对优点。 我们进行了模拟研究,以简化的...

    论文研究 - 牙买加部分中小学教师的评估实践

    调查结果还表明,在以下方面,教师之间存在显着差异:按照类型安排测试项目并撰写具体说明,告知学生要评估的领域,评估的管理,等级评估,解释如何得出分数,给出学生有机会对自己的成绩提出上诉,并利用统计分析...

    大数据技术基础知识.pdf

    数据类型繁多:⼤数据数据类型丰富,包括结构化数据和⾮结构化数据。 处理速度快:⼤数据时代的数据产⽣速度⾮常迅速。 价值密度低:价值密度远远低于传统关系数据库中已有的那些数据。很多有价值信息都分散在海量...

    电容器组耐压值的计算

    则说明其在200V电压下能够长期工作,以上举例只是假设数值,为了能够形象了解耐压参数,具体的施加电压要看制造厂的标准,也有可能不是逐个检验,只是抽样检验)。这是检验电容器的常规做法,因此,在使用中如果不...

    强大的局域网限速软件+幻境网盾+3.7+【原名Skiller】

    方式 Skiller发动的欺骗类型为MAC地址表欺骗,这种欺骗并不针对用户电脑,是向交换机发动MAC地址表欺骗,从而侦测出由此交换机负责的所有计算机中正在使用网络的计算机的IP地址,然后者会随意选定几个IP进行网速...

    数据分析调查报告模版.docx

    样本情况分析及调查工具说明 2.调查结果分析 以图表加文字的方式呈现数据分析的结果,并对结果简单的解释与说明。 (1)表格设计的要求 表格应为三线表(自动套用格式中的"简明 型"),表格应当包括表序号、表题目,...

    数据分析调查报告模版(1).docx

    取样情况 本次抽样的范围,抽样方式,实施过程 本次调查发放问卷份,共回收问卷60份,有效率达到,参与本次调查的受访者基本情况如表1所示。 由表1可知,参与本次调查的大部分为男性,受访者的教育程度均在高中或...

    数据分析模板.doc

    样本情况分析及调查工具说明 2.调查结果分析 以图表加文字的方式呈现数据分析的结果,并对结果简单的解释与说明。 (1)表格设计的要求 表格应为三线表(自动套用格式中的"简明 型"),表格应当包括表序号、表题目,...

    大数据分析报告调研报告材料模版.doc

    样本情况分析及调查工具说明 2.调查结果分析 以图表加文字的方式呈现数据分析的结果,并对结果简单的解释与说明。 (1)表格设计的要求 表格应为三线表(自动套用格式中的"简明 型"),表格应当包括表序号、表题目,...

    大数据分析报告调研报告材料模版(1).doc

    样本情况分析及调查工具说明 2.调查结果分析 以图表加文字的方式呈现数据分析的结果,并对结果简单的解释与说明。 (1)表格设计的要求 表格应为三线表(自动套用格式中的"简明 型"),表格应当包括表序号、表题目,...

    数据分析调查报告模版.doc

    样本情况分析及调查工具说明 2。调查结果分析 以图表加文字的方式呈现数据分析的结果,并对结果简单的解释与说明。 (1)表格设计的要求 表格应为三线表(自动套用格式中的"简明 型"),表格应当包括表序号、表题目,...

    统计分析

    第2周-随机变量的类型,位置和比例的度量,基本摘要统计信息-插曲:R&Python,软件包,脚本,加载,基础,导入示例数据集第3周-抽样分布-插曲:Markdown和基本R功能概述第4周-抽样分布,推理,分析,EDA之间的链接-...

    度量空间中支撑点选取.docx

    大数据至少具备以下三个特性:数据量巨大(volume),处理速度要求快(velocity),数据类型复杂繁多(variety)针对上面的三个特性,现在对volume与velocity的研究较多,而对 Variety的研究相对较少。 在Variety的...

    稻米直链淀粉含量形成动态及结实期温度的影响 (2000年)

    多品种、多年、多播期分段抽样试验结果表明:稻米直链淀粉含量形成动态变化过程可用三次曲线方程进行模拟;从模拟方程的相关参数分析说明,稻米直线淀粉含量的有效积累天数与品种结实期持续的时间(天数)有关,结实期...

Global site tag (gtag.js) - Google Analytics