大数据背景下的抽样理论与质量管理

Select

大数据背景下的抽样调查

金勇进, 刘晓宇

系统科学与数学. 2022, 42(1): 2-16. https://doi.org/10.12341/jssms21449

摘要 (1174) PDF全文 (500)

可视化

CSCD(2)

大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战.大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用? 文章从三个角度进行了讨论.一是在数据流环境下产生了一些适应性强的新型抽样方法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时间与能力.二是借助网络开展调查或进行社交网络数据的收集,发展出一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析样本.三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章针对线上样本是非概率样本、线下样本是概率样本的情况,提出了融合的基本思路:一方面,通过概率样本对非概率样本进行``概率性检验'',另一方面,通过提取概率样本的信息,基于模型或基于伪随机化对总体进行推断.

Select

基于岭回归模型大数据最优子抽样算法研究

李莉莉, 靳世檑, 周楷贺

系统科学与数学. 2022, 42(1): 50-63. https://doi.org/10.12341/jssms21494

摘要 (839) PDF全文 (287)

可视化

CSCD(2)

随着大数据时代的来临, 为了提高计算效率, Wang等(2018)提出基于logistic 回归的最优子抽样算法, 在保证参数估计精度的前提下, 节省了大量的运算时间. 为解决变量间的多重共线性, 文章提出基于岭回归模型的最优子抽样算法, 并证明岭回归模型中参数估计的一致性与渐近正态性. 利用数值模拟与实证分析对最优子抽样算法进行评估, 结果表明, 利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近, 并大幅减少了运算时间.

Select

大规模数据下子抽样模型平均估计理论

宗先鹏, 王彤彤

系统科学与数学. 2022, 42(1): 109-132. https://doi.org/10.12341/jssms21524

摘要 (684) PDF全文 (281)

可视化

CSCD(2)

随着信息时代的来临, 如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战. 子抽样方法作为大规模数据分析的有效工具, 已经受到国内外学者的广泛关注. 不过, 传统的子抽样方法通常没有考虑到模型的不确定性. 当模型假设不正确时, 后面的统计推断将会出现偏差, 甚至导致错误的结论. 为了解决该问题, 文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计). 理论上, 文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计. 另外, 我们基于Hansen (2007)的Mallows模型平均方法提出了SSMA估计的权重选择准则, 并证明了方差已知和未知时权重估计的渐近最优性. 在这些理论性质的研究中, 文章同时考虑了模型和抽样设计带来的双重随机性. 最后, 数值分析进一步说明了所提出方法的有效性.

Select

非参数局部多项式回归估计的最优子抽样算法

牛晓阳, 邹家辉

系统科学与数学. 2022, 42(1): 72-84. https://doi.org/10.12341/jssms21475

摘要 (571) PDF全文 (241)

可视化

CSCD(2)

随着科学技术的发展, 虽然人们提高了收集和处理数据的能力, 但仍存在一些大数据集超出了现有计算机的计算能力. 目前, 抽取一部分样本来替代全样本进行建模计算是减轻计算负担的一种方法. 大数据背景下线性模型的子抽样方法已经得到了相对成熟的研究, 在减轻计算量方面获得了很大的优势. 文章将线性模型下的子抽样方法推广到非参数回归模型, 并推导出了基于子样本的加权最小二乘参数估计对全样本加权最小二乘参数估计的收敛速度, 以及子样本参数估计的条件渐近正态性. 通过最小化渐近方差的准则, 提出了非参数局部多项式回归模型下的OPT和PL两种抽样方案, 最后在均方误差、计算成本和拟合效果等方面进行数值模拟, 比较了OPT子抽样和PL子抽样相对于均匀子抽样和杠杆子抽样的差别, 其结果表明于OPT准则和PL准则的子抽样方法在提高估计精确性和减少计算负担方面具有很大优势.

Select

问卷分割设计的成组序贯子问卷分配法

杨昊宇, 秦祎辰, 李扬

系统科学与数学. 2022, 42(1): 17-34. https://doi.org/10.12341/jssms21515

摘要 (536) PDF全文 (158)

可视化

抽样调查在大数据时代仍是不可或缺的研究工具. 然而, 传统调查方式当前面临执行成本增加与数据质量降低的双重挑战. 作为降低受访者负担的有效途径, 问卷分割设计逐渐受到研究者重视. 文章研究针对问卷分割设计中的子问卷分配过程展开讨论: 在假设受访者招募服从泊松过程前提下, 以降低协变量的子样本间差异为目标设计成组序贯随机过程. 理论和数值分析显示该过程相较现有随机化方法具有优良的表现, 可以更好地平衡子样本间协变量差异并提高估计量的估计精度.

Select

排序集抽样下Inverse Rayleigh分布的Fisher信息量及其在参数估计中的应用

陈蒙, 陈望学, 邓翠红, 杨瑞

系统科学与数学. 2022, 42(1): 141-152. https://doi.org/10.12341/jssms21498

摘要 (530) PDF全文 (179)

可视化

CSCD(3)

文章分别在简单随机抽样和排序集抽样下研究了Inverse Rayleigh分布中对应样本所含刻度参数$\theta$的Fisher信息量. 数值结果表示, 同等样本容量的排序集样本比简单随机样本提供更多关于$\theta$的信息. 接着分别基于简单随机样本和排序集样本构造了$\theta$的一些优良估计, 并对估计结果进行了数值比较.

Select

人口总数估计:基于三系统估计量与比率估计量的组合方法

孟杰, 杨贵军, 冯国雷, 滑梦珂

系统科学与数学. 2022, 42(1): 35-49. https://doi.org/10.12341/jssms21520

摘要 (457) PDF全文 (141)

可视化

CSCD(3)

受多种因素影响,人口普查结果不可避免地偏离真实人口总数,如何构造一个统计性质优良,适用范围广的人口总数估计量,精准把握人口变动趋势是政府统计工作的重要议题.本文解读了英国统计局普查年人口总数估计的经验方法,据此提出三系统估计量与比率估计量组合的人口总数估计方法. 模拟研究结果表明,在人口总体合理分层的基础上,新方法能较好地克服由于两系统不独立而引起的交互作用偏差问题,提高人口总数估计量的精度.同时,文章的研究也提出了``第三套人口统计数据资源''的建设思路,这既是构建和应用三系统估计量的数据基础,也有助于进一步推进统计现代化改革.

Select

基于DCSBM模型的受访者驱动抽样调查估计量改进

蒋妍, 孟珠峰, 王天佳, 刘晓宇

系统科学与数学. 2022, 42(1): 85-99. https://doi.org/10.12341/jssms21627

摘要 (444) PDF全文 (135)

可视化

大数据背景下, 将受访者驱动抽样(RDS)用于网络抽样调查, 解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题, 也使得网络调查可以实现概率抽样, 得到一定误差范围内的总体参数估计. 然而, 在实际抽样过程中, 同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大. 为解决该问题, 文章假定目标总体服从度修正随机块模型(DCSBM), 利用区块间的经验转移概率对样本进行区块的事后分层, 提出了事后分层与逆概率加权相结合的PS-IPW估计量. 通过模拟不同的同质性水平的目标总体社交网络和RDS抽样, 比较PS-IPW估计量的相对效率; 并通过实证分析, 利用样本分块矩阵的谱性质选择分层变量, 进一步验证RDS抽样的适用性以及PS-IPW估计量的有效性.

Select

大数据背景下产品质量抽样调查的样本量设计

张璇, 赵静, 丁文兴

系统科学与数学. 2022, 42(1): 133-140. https://doi.org/10.12341/jssms21654

摘要 (433) PDF全文 (142)

可视化

CSCD(4)

产品质量抽样调查是政府质量监督部门监管产品质量状况的重要手段, 在历年的产品质量抽样调查中, 也累积了大量的实际数据. 文章将大量数据提供的先验信息和抽样调查中的样本量设计进行了有效的结合, 利用大数据提供的有价值信息作为辅助信息, 使用聚类等方法对调查对象进行分层, 根据各层的不同特点利用优先数系确定各层间相对误差限的关系, 进而确定分层随机抽样样本量, 使得样本量确定方式兼顾了科学和实用的优点. 同时, 通过对不同层的监督总体选取不同水平的参数, 在调查费用有限的条件下, 提高了监督的有效性.

Select

统一精度指标及与香农定理的联系

刘亚文, 马文博, 杜子芳

系统科学与数学. 2022, 42(1): 64-71. https://doi.org/10.12341/jssms21482

摘要 (420) PDF全文 (120)

可视化

统计推断通常以置信度和误差两个指标衡量估计精度,但当置信度和误差其大小均不同时,估计量之间的精度比较将十分困难.文章提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也不一时,也能够进行精度比较.另从解释精度影响因素及其作用机制出发,发现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释.

Select

基于迁移学习的GH159螺栓热镦后头部缺陷识别

黎磊, 马钰淋, 故刚, 孔雪峰, 杨军, 许彦伟

系统科学与数学. 2022, 42(1): 175-192. https://doi.org/10.12341/jssms21526

摘要 (417) PDF全文 (159)

可视化

为准确进行GH159螺栓热镦后头部缺陷识别, 提出了基于迁移学习的缺陷识别方法, 其中, 不同场景亮度下的数据集分别设置为迁移学习的源域, 目标域. 首先, 考虑域条件分布的多簇特点, 使用K-means算法对同类缺陷数据进行簇划分, 确定簇中心, 并基于其构造新的分布差异度量; 其次, 为有效提升迁移学习计算效率, 使用簇中心间距离以及各簇中心与该簇样本间距离, 建立新的类内差异度量; 最后, 以分布差异度量与类内差异度量的加权和最小化为目标, 准确识别不同场景亮度下的缺陷. 针对所提出方法的参数设定需求, 基于反向验证理念设计伪精度, 并以其最大化进行参数确定. 基于收集的GH159螺栓热镦后头部缺陷数据集, 开展缺陷识别分析应用, 验证所提出方法的有效性.

Select

基于倾向值匹配的干扰数据检测方法

刘胜楠, 刘文君, 邹国华

系统科学与数学. 2022, 42(1): 153-174. https://doi.org/10.12341/jssms21660

摘要 (323) PDF全文 (124)

可视化

CSCD(1)

数据中掺杂干扰数据的现象十分常见, 对于随机出现的干扰数据处理, 目前已有很多方法可以借鉴, 但对于人为的干扰数据, 若继续使用传统方法, 则可能不会达到很好的效果. 倾向值可以用一维数值来描述多维数据的特征, 且当数据具有相近的倾向值时, 其本身常常也很相似, 并可能来自同一总体. 因此, 文章提出一种应用倾向值匹配检测干扰数据的新方法, 即用最佳比例匹配来检测干扰数据. 文章设计了两个算法, 其一用于估计真实数据在原始数据中所占的比例, 同时计算真实数据的总体均值估计; 另一用于提取拟真实数据并进行建模分析. 模拟研究证实了所提出的算法的有效性.

Select

大数据背景下平台类企业开展抽样调查的应用研究

石峻驿

系统科学与数学. 2022, 42(1): 100-108. https://doi.org/10.12341/jssms21538

摘要 (318) PDF全文 (128)

可视化

大数据背景下, 对于抽样调查的必要性和重要性, 目前还存在一定争论. 文章定义了两种类型的大数据场景, 一种是现有数据量海量的情况;另一种是现有抽样框名录海量的情况. 对于抽样框名录海量的情况下, 抽样调查既必要又重要. 文章基于某平台类企业的海量抽样框名录, 对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究, 并考虑了样本轮换情况下样本量分配、目标量估计与评估等问题, 为今后其他类似的抽样调查应用提供一个有益的借鉴.

专题

选择文件类型/文献管理软件名称

选择包含的内容

扫码分享

模态框（Modal）标题

专题

选择文件类型/文献管理软件名称

选择包含的内容