中国科学院数学与系统科学研究院期刊网
期刊首页 在线期刊 专题

专题

大数据背景下的抽样理论与质量管理

本期专辑共有13篇论文,包括大数据背景下抽样理论发展和应用的综述、结合大数据技术的问卷分割设计、基于三系统估计量的人口总数估计、基于不同统计模型的大数据最优子抽样算法和模型平均估计、置信区间统一精度指标的构建及与香农定理的联系、基于网络的受访者驱动抽样调查估计量的改进、实际大数据场景下抽样调查样本量的确定、排序集抽样下的参数估计,以及大数据背景下数据真伪性的检测和工业产品零部件制造缺陷的图像识别方法。

Please wait a minute...
  • 全选
    |
  • 金勇进, 刘晓宇
    系统科学与数学. 2022, 42(1): 2-16. https://doi.org/10.12341/jssms21449
    大数据具有体量大、种类丰富、增长速度快等特点,同时也 存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战.大数 据背景下的抽样如何适应新的变化、具有怎样的发展和应用? 文章从三个 角度进行了讨论.一是在数据流环境下产生了一些适应性强的新型抽样方 法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时 间与能力.二是借助网络开展调查或进行社交网络数据的收集,发展出 一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析 样本.三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章 针对线上样本是非概率样本、线下样本是概率样本的情况,提出了融合的 基本思路:一方面,通过概率样本对非概率样本进行``概率性检验'',另一 方面,通过提取概率样本的信息,基于模型或基于伪随机化对总体进行推断.
  • 李莉莉, 靳世檑, 周楷贺
    系统科学与数学. 2022, 42(1): 50-63. https://doi.org/10.12341/jssms21494
    随着大数据时代的来临, 为了提高计算效率, Wang等(2018)提出 基于logistic 回归的最优子抽样算法, 在保证参数估计精度的前提下, 节省了大量的 运算时间. 为解决变量间的多重共线性, 文章提出基于岭回归模型的最优子抽样算法, 并 证明岭回归模型中参数估计的一致性与渐近正态性. 利用数值模拟与实证分析对最优子抽 样算法进行评估, 结果表明, 利用最优子抽样构建的模型与全样本构建的模型在参数估计 的精度相近, 并大幅减少了运算时间.
  • 牛晓阳, 邹家辉
    系统科学与数学. 2022, 42(1): 72-84. https://doi.org/10.12341/jssms21475
    随着科学技术的发展, 虽然人们提高了收集和处理数据 的能力, 但仍存在一些大数据集超出了现有计算机的计算能力. 目前, 抽取一 部分样本来替代全样本进行建模计算是减轻计算负担的一种方法. 大数据背景 下线性模型的子抽样方法已经得到了相对成熟的研究, 在减轻计算量方面获得 了很大的优势. 文章将线性模型下的子抽样方法推广到非参数回归模型, 并推 导出了基于子样本的加权最小二乘参数估计对全样本加权最小二乘参数估计的收敛速度, 以及子样本参数估计的条件渐近正态性. 通过最小化渐近方差的准则, 提出了非参数局部多项式回归模型下的OPT和PL两种抽样方案, 最后在均方误差、计算成本和拟合效果等方面进行数值模拟, 比较了OPT子抽样和PL子抽样相对于均匀子抽样和杠杆子抽样的差别, 其结果表明于OPT准则和PL准则的子抽样方法在提高估计精确性和减少计算负担方面具有很大优势.
  • 杨昊宇, 秦祎辰, 李扬
    系统科学与数学. 2022, 42(1): 17-34. https://doi.org/10.12341/jssms21515
    抽样调查在大数据时代仍是不可或缺的研究工具. 然而, 传统 调查方式当前面临执行成本增加与数据质量降低的双重挑战. 作为降 低受访者负担的有效途径, 问卷分割设计逐渐受到研究者重视. 文章研 究针对问卷分割设计中的子问卷分配过程展开讨论: 在假设受访者招募 服从泊松过程前提下, 以降低协变量的子样本间差异为目标设计成组序贯 随机过程. 理论和数值分析显示该过程相较现有随机化方法具有优良的 表现, 可以更好地平衡子样本间协变量差异并提高估计量的估计精度.
  • 陈蒙, 陈望学, 邓翠红, 杨瑞
    系统科学与数学. 2022, 42(1): 141-152. https://doi.org/10.12341/jssms21498
    文章分别在简单随机抽样和排序集抽样下研究 了Inverse Rayleigh分布中对应样本所含刻度参数$\theta$的Fisher信息量. 数值结果表示, 同等样本容量的排序集样本比简单随机样本提供更多关于$\theta$的信息. 接着分别基于简单随机样本和排序集样本构造了$\theta$的一些优良估计, 并对估计结果进行了数值比较.
  • 宗先鹏, 王彤彤
    系统科学与数学. 2022, 42(1): 109-132. https://doi.org/10.12341/jssms21524
    随着信息时代的来临, 如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战. 子抽样方法作为大规模数据分析的有效工具, 已经受到国内外学者的广泛关注. 不过, 传统的子抽样方法通常没有考虑到模型的不确定性. 当模型假设不正确时, 后面的统计推断将会出现偏差, 甚至导致错误的结论. 为了解决该问题, 文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计). 理论上, 文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计. 另外, 我们 基于Hansen (2007)的Mallows模型平均方法提出了SSMA估计的权重选择 准则, 并证明了方差已知和未知时权重估计的渐近最优性. 在这些理论性 质的研究中, 文章同时考虑了模型和抽样设计带来的双重随机性. 最后, 数值分析进一步说明了所提出方法的有效性.
  • 黎磊, 马钰淋, 故刚, 孔雪峰, 杨军, 许彦伟
    系统科学与数学. 2022, 42(1): 175-192. https://doi.org/10.12341/jssms21526
    为准确进行GH159螺栓热镦后头部缺陷识别, 提出了基于 迁移学习的缺陷识别方法, 其中, 不同场景亮度下的数据集分别设 置为迁移学习的源域, 目标域. 首先, 考虑域条件分布的多簇特点, 使 用K-means算法对同类缺陷数据进行簇划分, 确定簇中心, 并基于其构造 新的分布差异度量; 其次, 为有效提升迁移学习计算效率, 使用簇中心 间距离以及各簇中心与该簇样本间距离, 建立新的类内差异度量; 最后, 以 分布差异度量与类内差异度量的加权和最小化为目标, 准确识别不同场景 亮度下的缺陷. 针对所提出方法的参数设定需求, 基于反向验证理念设 计伪精度, 并以其最大化进行参数确定. 基于收集的GH159螺栓热镦后头部 缺陷数据集, 开展缺陷识别分析应用, 验证所提出方法的有效性.
  • 蒋妍, 孟珠峰, 王天佳, 刘晓宇
    系统科学与数学. 2022, 42(1): 85-99. https://doi.org/10.12341/jssms21627
    大数据背景下, 将受访者驱动抽样(RDS)用于网络抽样调查, 解决了传 统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题, 也使得网络调查可以实现概率抽样, 得到一定误差范围内的总体参数估计. 然而, 在实 际抽样过程中, 同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属 性的同伴)会导致RDS估计量的方差增大. 为解决该问题, 文章假定目标总体服从度修 正随机块模型(DCSBM), 利用区块间的经验转移概率对样本进行区块的事后分层, 提出了事后分层与逆概率加权相结合的PS-IPW估计量. 通过模拟不同的同质性水平的目标总体社交网络和RDS抽样, 比较PS-IPW估计量的相对效率; 并通过实证分析, 利用样本分块矩阵的谱性质选择分层变量, 进一步验证RDS抽样的适用性以及PS-IPW估计量的有效性.
  • 刘亚文, 马文博, 杜子芳
    系统科学与数学. 2022, 42(1): 64-71. https://doi.org/10.12341/jssms21482
    统计推断通常以置信度和误差两个指标衡量估计精度,但当置 信度和误差其大小均不同时,估计量之间的精度比较将十分困难.文章 提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也 不一时,也能够进行精度比较.另从解释精度影响因素及其作用机制出发,发 现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释.
  • 张璇, 赵静, 丁文兴
    系统科学与数学. 2022, 42(1): 133-140. https://doi.org/10.12341/jssms21654
    产品质量抽样调查是政府质量监督部门监管产品质 量状况的重要手段, 在历年的产品质量抽样调查中, 也累积了大 量的实际数据. 文章将大量数据提供的先验信息和抽样调查中的样本量设计进行了有效的结合, 利用大数据提供的有价值信息作为辅助信息, 使用聚类等方法对调查对象进行分层, 根据各层的不同特点利用优先数系确定各层间相对误差限的关系, 进而确定分层随机抽样样本量, 使得样本量确定方式兼顾了科学和实用的优点. 同时, 通过对不同层的监督总体选取不同水平的参数, 在调查费用有限的条件下, 提高了监督的有效性.
  • 孟杰, 杨贵军, 冯国雷, 滑梦珂
    系统科学与数学. 2022, 42(1): 35-49. https://doi.org/10.12341/jssms21520
    CSCD(1)
    受多种因素影响,人口普查结果不可避免地偏离真实人口总数,如 何构造一个统计性质优良,适用范围广的人口总数估计量,精准把握人口变动 趋势是政府统计工作的重要议题.本文解读了英国统计局普查年人口总数估计 的经验方法,据此提出三系统估计量与比率估计量组合的人口总数估计方法. 模拟研究结果表明,在人口总体合理分层的基础上,新方法能较好地克服由于两 系统不独立而引起的交互作用偏差问题,提高人口总数估计量的精度.同时,文章 的研究也提出了``第三套人口统计数据资源''的建设思路,这既是构建和应用三 系统估计量的数据基础,也有助于进一步推进统计现代化改革.
  • 刘胜楠, 刘文君, 邹国华
    系统科学与数学. 2022, 42(1): 153-174. https://doi.org/10.12341/jssms21660
    数据中掺杂干扰数据的现象十分常见, 对于随机出现的干扰数据处理, 目前已有很多方法可以借鉴, 但对于人为的干扰数据, 若继续使用传统方法, 则可能不会达到很好的效果. 倾向值可以用一维数值来描述多维数据的特征, 且当数据具有相近的倾向值时, 其本身常常也很相似, 并可能来自同一总体. 因此, 文章提出一种应用倾向值匹配检测干扰数据的新方法, 即用最佳比例匹配来检测干扰数据. 文章设计了两个算法, 其一用于估计真实数据在原始数据中所占的比例, 同时计算真实数据的总体均值估计; 另一用于提取拟真实数据并进行建模分析. 模拟研究证实了所提出的算法的有效性.
  • 石峻驿
    系统科学与数学. 2022, 42(1): 100-108. https://doi.org/10.12341/jssms21538
    大数据背景下, 对于抽样调查的必要性和重要性, 目前还 存在一定争论. 文章定义了两种类型的大数据场景, 一种是现有数据量 海量的情况;另一种是现有抽样框名录海量的情况. 对于抽样框名录海量 的情况下, 抽样调查既必要又重要. 文章基于某平台类企业的海量抽样框 名录, 对该平台类企业关心的问题采用目录抽样的方法进行抽样调查研究, 并考虑 了样本轮换情况下样本量分配、目标量估计与评估等问题, 为今后其他类似的抽样 调查应用提供一个有益的借鉴.