上QQ阅读APP看书,第一时间看更新
第五章 统计学方法在放射医学研究的质量控制、质量保障和质量改进中的应用
陆盈 1 赵守军 2 颜杰 3
1美国斯坦福大学医学院健康研究与政策系
2美国加州大学旧金山分校外科
3广东省检验检疫局
第一节 序言
质量控制(quality control)、质量保障(quality assurance)和质量改进(quality improvement)是近年来医学研究中迅速发展的内容,文献报道甚多。在1995—2000年的MEDLINE数据库中,至少包含其中一个关键词的文章就超过40 000篇。质量具有多方面的内涵,常用的总质量管理(total quality management,TQM)是指有关医学实践和医学研究过程中全部内容,包含人事管理和实际运作各个方面;而质量控制的概念就比较局限,一般指通过检验控制产品质量;质量保障则是为确保产品质量建立的一整套措施和方法 [1]。
在医学实践和研究的各个方面,都需要进行质量控制和质量保障,本章介绍的重点,是放射医学中应用的质量控制和质量保障方法。这里介绍和应用的统计学方法,也可以运用于任何医学领域,如基础医学、临床医学等。之所以选择放射医学介绍这些理论和方法,首先因为作者曾从事该领域研究数年,积累了大量的第一手资料;其次,放射诊断取决于放射医学的仪器和设备,如X光机、超声扫描仪、计算机断层扫描(CT)和核磁共振仪(MRI)等。这些仪器可以产自不同的厂家,具有不同的质量;随着使用时间延长和设备老化,其性能也在不断地变化。而我们在放射医学研究中,总是期待着所有仪器和设备在同一个体、同一条件下具有相同的精度误差,以保证能够确切区分不同时间的检测结果,反映出其随时间的变化。最后值得强调的是,许多放射科医师的诊断是基于他们自己的经验,相对主观,不同的医师对同一份影像检查作出不同的解释是十分常见的现象。因此,许多因素都可以影响放射医学评价的结果。本章介绍的统计方法可以解决不同仪器测量结果之间的矛盾,并完善结果的解释。
毫无疑问,放射医学有助于疾病诊断和病人管理,近来已越来越多地用于人群疾病筛检和药物开发,例如,最新建立的实体肿瘤疗效评价标准(response evaluation criteria in solid tumors, RECIST),是使用一维CT测量肿瘤大小变化来确定肿瘤治疗的效果 [2];通过双X线扫描(dual X-ray absorptiometry,DXA)测定骨矿物质密度(bone mineral density,BMD)诊断骨质疏松 [3];根据病人BMD变化的速率评价预防骨质疏松药物的疗效 [4]等。事实上,医学影像已成为许多临床诊断试验和治疗的替代终点和生物学标记。
优质临床实践(good clinical practice,GCP)是以人体作为研究对象时临床试验设计、记录和报告的国际质量标准。GCP的指导方针不仅提供了保护参加试验病人和志愿者权利的框架,也建立了评价疗效和比较世界各地研究结果以确保资料完整性的标准 [5]。在放射医学中,它涉及培训文件、标准化操作程序、影像设备的质量控制、影像获取方案、软件确证过程、记录保持和报告等 [6]。很显然,这一过程并非仅仅是简单的统计学过程。成功的质量控制和质量保障,需要一个完善的领导体系,包括所在系部领导或主要研究者,以及一组多学科的专家组成的团队。而在这些人中间,必须有统计学工作者。在设计质量控制方案时,统计学工作者的作用是非常重要的,他的作用包括合理抽样以避免选择有偏倚的检测样本、估计样本含量、分析检测结果中存在的问题、计划过程控制图以监测仪器性能、评价质量改进的效果、报告数据和研究结果等。
质量控制和质量保障并不总是和统计学方法相关 [7-9]。本章仅仅是基于作者经验,介绍在放射医学或骨质疏松研究中经常用到的一些统计学方法,并不打算在此详叙所有放射医学的质量控制和质量保障方法。
本章内容组织如下:第二节首先介绍放射医学测定中连续性资料不同测量误差的定义和评价这些误差的不同方法;第三节叙述监测测量误差随时间变化时过程控制图的应用;第四节概括比较测量方法一致性的统计学方法;第五节讨论校准问题。
第二节 测量误差
许多放射医学技术都可以测量一些关于疾病状态或疾病进程的物理或机械特性,我们应用相应的技术或程序将感兴趣的观察结果转换成分类变量或数值,这个过程称之为测量过程。对于分类变量,我们将每个测量对象清楚地归入某个类别,如评价实体肿瘤的疗效 [2]或评价脊椎骨折的程度 [10]。有时我们也可以得到某些反映基本物理特性的数值,如肿瘤的体积、骨矿物质含量或密度等。
测量误差描述了应用特定技术或程序定量或定性评价某种疾病的局限性,导致测量误差的原因有多种。本节重点描述两类测量误差,即精度误差(precision)和准确度误差(accuracy),及其在诊断骨质疏松和监测骨状态变化时的应用。本节侧重于监测变化时对精度的影响,包括标准化精度的概念、纵向敏感性及其在测量病人和质量保障时的应用,如监测仪器性能。
一、放射医学仪器的测量误差
多种误差来源都能够影响测量,即使是测定同一个体的同一部位,也可导致不同的结果。有些变异可以控制到最小程度,而有些误差是无法控制的。前者我们定义为可控制因素,而我们关注的却是这些不可控制的随机变量。
测量误差是指在同一条件下测量值与真值之间的差值。例如在骨质疏松研究中,我们总是假定每个测定的个体都有一个真实的骨密度值,即使我们难于得到这些真值。自然的测量误差具有随机性,可以归因于两种不同的来源:准确度误差和精度误差 [11]。
准确度误差(此处等同于偏倚)反映测定结果偏离真实值的程度。为了评价准确度误差,我们需要知道测定参数的真实值;但在许多情况下,我们难以得到参数的真实值,所以得不到准确度误差。例如,骨定量超声(quantitative ultrasound,QUS)测量,许多定性的或定量的因素可能影响其测定结果,但没有一个与任何QUS测定结果唯一相关。因此,我们还不能确切定义出QUS的准确度误差 [12]。
需要特别注意的是:临床应用中有一部分准确度误差随病人个体以某种未知方式变化,且相互关联;而另一部分误差是测定的平均偏差,可以视为常数,如QCT(quantitative computed tomography,QCT)因受骨髓中平均脂肪含量的影响而低估的骨密度。后者在实际应用中并不重要,其理由有二:当测定值用于诊断时,互相比较的双方都受到相同的误差影响,因此患者和正常人之间测定的差值仍为常数;其次测定值用于监测病人骨密度随时间的变化时,则该误差既存在于基础测定也存在于随访测定中,其差值也应为常数;因而这后一部分误差不影响仪器的临床实际应用。因此在讨论准确度误差的影响时,重点是前一部分,即存在于病人个体间未知且不可控制的误差 [13]。从这个角度分析,仪器测定时存在较小的准确度误差,当其值保持常量时,并不影响临床应用 [14]。一般说来,这类准确度误差与临床诊断和危险性评价的关联性较大,而对骨骼变化监测的影响不大。
精度误差反映仪器测定结果的可重复性,是评价一种方法检测某一参数可重复能力的指标。根据测定间隔的时间区间和测定对象骨密度随时间变化的情况,精度误差还可以进一步划分为短期和长期精度误差。短期精度误差可以表示仪器检测重复性的特性以及用于描述骨骼状态测定值变化的限度。如果短期精度误差较大,也可以影响该仪器诊断的灵敏度。长期精度误差用于评价仪器的稳定程度。与短期精度误差相比较,长期精度误差包含更多的随机因素,如仪器漂移的校正、病人骨密度的变化、以及与时间有关的技术变化等,因此它能更好的监测仪器性能的改变。如果检测的对象是病人,长期精度误差的估计还包含有骨骼状态的纵向变异,即病人骨密度随时间的变化。鉴于上述两方面的原因,通常正常情况下长期精度误差都大于短期精度误差。精度误差虽然容易定义,但有许多问题仍在探索中。取决于研究的目的,还没有公认哪一个定义最为适用。
如果用数学符号表示,令 θ为理论上我们希望测得的真实值, X是实际观察值,则差值 ξ= X- θ就是测量误差。因此,如果 ξ服从正态分布 N( μ, σ 2),准确度误差就是 μ- θ,精度误差是标准差 σ,其中 θ视为金标准。
图5-1直观地显示了准确度与精度误差之间的区别。如果把放射测定比喻为射手打靶,靶心表示真实值,射击点的位置为测定值,连续地击中靶心和十分靠近靶心的范围,就可以说他射击的准确度和精度都好(图5-1左上例);如果射击点散布在靶心周围,并不十分靠近靶心,则他射击的准确度好但精度差(图5-1左下例);假如他连续击中靶上某一小区域但偏离靶心,只能说他精度好但准确度很差(图5-1右上例);如果他只能打在靶上很大的某一区域且偏离靶心,则他的准确度和精度均差(图5-1右下例)。
图5-1 精度和准度
二、绝对精度误差
描述精度误差的方法很多,但基本上可以归纳为两大类,即绝对精度误差和相对精度误差。为了便于定义精度误差,我们引入以下数学符号: X i , j表示第 i个观察对象的第 j次测定值(如BMD), i=1,…, m; j=1,…, n i。由于生物体的个体差异,各个研究对象的真实值也不相同,所以为了评价精度误差,必须重复测定同一批研究对象, n i代表第 i个研究对象重复测定的总次数。对第 i个个体骨密度短期重复性指标的骨密度参数的标准差( SD)可以定义为:各次测定值 X i , j与其均值 离差的平方和,再除以相应自由度(重复次数-1)的算术平方根,即统计学的样本标准差,其数学公式为:
(5-1)
个体精度可以因个体而异。在临床应用中为了评价仪器测定结果的可重复性,我们需要测量一组有代表性的个体并综合这些个体的精度误差。合并这些精度误差的最佳办法就是计算这些个体标准差( SD)的均方根( RMS SD),即方差分析中的均方误差,其数学公式为:
(5-2)
(5-2)中 m代表精度评价时测定的个体总数。如果每个个体重复测定的次数相同,则(5-2)可以简化为: 。
对于长期精度误差的估计,还需要考虑分析个体参数值随时间变化的趋势,因此用测定时的期望值替代测定个体在测量时的均值。在多数情况下,为了简化运算,我们假定检测参数随时间变化的关系为线性的,可以利用线性回归模型估计在时点 t ij测定的期望值,即 。根据围绕回归线两侧的离差计算的统计量称为估计标准误( SEE)。即
(5-3)
在这种情况下,用 SEE替代 SD来估计某个观察对象的长期精度误差。对于一组研究对象,估计长期精度误差( RMS SEE)的公式为:
(5-4)
可以利用转换的 χ 2分布及其自由度导出 RMS SD和 RMS SEE的置信区间,计算(1- α)×100%置信区间的一般公式为:
(5-5)
因此,计算短期精度误差的自由度为 ,其相应的绝对精度误差是 RMS SD;而计算长期精度误差的自由度为 ,且对应的绝对长期精度误差是 RMS SEE。 和 的数值可用统计软件计算或统计用表中得到。
绝对精度误差提供了测量误差的重要信息,但由于绝对精度误差依赖于测量单位,不便于比较几种不同的测量仪器或几种不同的测定方法。在许多情况下,如疾病诊断或监测疾病过程随时间的变化,我们更关注于测定技术的相对精度误差,而不是最小的绝对测量误差。
三、短期相对精度误差
1.短期变异系数
相对精度误差最常用的指标是变异系数( CV),定义为标准差与算术均数之比,常用百分数来表示。变异系数的优点之一是与测量单位无关,因此可用于不同测量技术或仪器间的比较。
作为测定重复性的指标, CV已有悠久的应用历史;Karl Pearson 1895年首次提出用它评价分布的变异。 CV的分布比较复杂,其最简单的情形是单个个体的重复测量。假定 X i , j是第 i个个体重复测定的结果, X i , j来自于正态分布 N( μ i, σ 2)且相互独立, CV i的密度函数为 [15]:
(5-6)
其中 λ i= σ/μ i。 CV i的渐近方差为 [16]。
上述个体 CV仅当多次重复测量同一个体时才有意义。当研究中全部个体仅测量一次时,总体 CV可类似地定义为总体标准差和总体均数的比值。这样计算的 CV不再仅与测量误差有关,而是测量误差和总体变异的组合。FeltZ和Miller [17]证明了用一个渐近的 χ 2-检验( DAD检验)比较来自 k个总体的 CV。Fung和Tsang [18]用模拟研究的方法,比较了 DAD检验、似然比检验( LRT)和平方秩和检验( SRT)。他们研究的结论是:对来自 k个正态分布总体的 CV, DAD检验是一个很好的检验方法,但稳健性差,且有一个长尾的渐近分布; LRT检验的效能很好但不能正确地控制Ⅰ类错误; SRT方法的条件稍宽,而且相当稳健。在放射医学研究中,总体 CV的意义不大,因此我们就不再详述以上总体 CV的检验方法。
对于非正态分布,使用的指标是非参数 CV,它定义为总体内四分间距和总体中位数的比值 [19]。非参数 CV的置信区间和假设检验可以由bootstrap或Jackknife重复抽样方法导出 [20,21]。
在放射医学中,我们最关心的是随机效应模型的测量误差。假定模型为:
X i , j= θ i+ e i , j
(5-7)
这里 θ i是服从正态分布 N( μ, τ 2)的第 i个个体的真值(未观察到的期望值), e i , j是服从 N(0, σ 2)的独立的测量误差。在前面的内容中,(5-2)中的 RMS SD是 σ的最佳估计,因此短期精度的 CV定义为
(5-8)
式中 是 X i , j的均值,在基础医学中又称为批内 CV [22]。因为个体 θ i的均值也服从正态分布,短期精度的分布更加复杂。Quan和Shih [22]推导出短期 CV的渐近样本方差,需要两个假定:①一个病人的重复测定次数 n i不超过数值 C;②当 m→∞时, n i= l的个体比例收敛于一个常数 p l,0≤ p l≤1。在这两个条件下,(5-7)定义的短期 CV的矩估计量的渐近标准差为
(5-9)
式中 m→∞。Quan和Shih [23]还给出了当 X i , j服从对数正态分布时的样本变异。
我们关注的是不同技术或同一技术在不同中心间的 CV的比较。如果是比较中心间的 CV,不同中心的测量个体是独立的,可用类似于FeltZ和Miller [17]的 DAD检验进行比较。比较不同技术的 CV时,为了控制混杂,最好对相同的个体应用这些技术,最终估计出的 CV及其检验是复杂的。此时可以用两步迭代bootstrap算法来比较两个或多个 CV。
步骤1:从研究个体中有放回地抽取 m个随机样本。
步骤2:对步骤1中每个挑选出的个体(个体可以被多次挑选,但每次都作为独立样本),从他/她们相应的测量值中有放回地随机抽取 n i个样本。
步骤3:计算步骤2中数据的两两 CV的差值。
步骤4:重复步骤1~3多次(1000~2000次)。
步骤5:计算差值的95%bootstrap置信区间。如果95%bootstrap置信区间包含0,就拒绝两个 CV相等的零假设。
2.短期变异系数的另一种形式
直观地, CV越大则精度误差越大,表示这种方法监测仪器随时间变化的能力越差。按相对精度传统定义的 CV,并不一定适用于不同方法的比较。首先,要应用 CV,测量中的0值就应具有物理意义,例如,骨矿物内容和密度为0就有明确意义。但声速( SOS)为0在定量超声波中就没有物理意义——声速的低限(在水中)大约是1500m/s。当0值没有物理意义时,可以上下调整参数原点使得 CV不带物理意义。其次,用 CV描述精度误差意味着精度误差与测量值成比例,许多骨密度测试并非如此。正常情况下,我们发现骨密度越低,相对精度误差越高(实际上,甚至绝对精度误差也会随BMD的减少而增大)。因此,至少对于骨质疏松症研究中的骨密度测试仪来说, CV不是评价精度的稳健指标。第三,在许多情况下,测量值大小的均值不是研究的重点,我们更关心病人和正常人之间的区别、监控骨状态变化、评价治疗反应、以及完成这些的能力, CV并不能充分说明这些情况。 CV最主要的局限在于,没有考虑到这种方法对疾病或疾病进程所引起的变化的反应影响。如果一种方法的精度误差很小(即精度很好),但其反应能力也较低(例如,健康和疾病个体间的差异,或由疾病进程或治疗引起的改变),其纵向灵敏度就不好,也就是在短期内不会检测到由疾病引起的改变。为此,几种调整反应差异的方法相应而生。
Miller等 [24]提出了标准化变异系数( SCV),其定义为绝对精度与参数的极差(95%分位数与5%分位数的差)之比。极差可以根据厂家的标准化数据得到,或者通过适当的抽样程序抽取足够大样本,由观察的研究个体得到。 SCV的数学公式为
(5-10)
另外,Blake等 [25]提出用总体标准差作为测量的极差。这样,精度误差可以用测量误差的标准差与测量的总体标准差(包括测量误差和总体变异)之比计算,我们称之为 SCV2。在回归分析中, SCV2与测量误差模型的信度系数(Reliability Coefficient)有关,该模型用来度量由测量误差引起的偏倚 [26]。因为 SCV中的极差大约是总体标准差的3.3倍,所以 SCV近似为 SCV2的三分之一。
Machado等 [27]用病人和正常个体指标的均值之差代替上述公式中的极差,提出了一个类似的标准精度测量方法,我们称之为 SCV3。要注意的是,所有这些标准化 CV也都无单位。
在骨质疏松症研究中,总体极差或BMD的标准差随不同年龄组发生变化。为了调整精度误差的年龄效应,Langton [28]提出了精度参数 ZSD。 ZSD是个体 Z值的标准差, Z值即 z i , j,是测量值 X i , j的变换。此处的 Z值不同于统计文献中的 Z-统计量,其定义为 z i , j= ,式中 μ( age i)和 σ( age i)是第 i个个体对应各年龄组BMD的均值和标准差。因此, Z值是以总体标准差为单位来衡量个体值与各年龄组均值的差距,没有单位。 RMS ZSD即是对方法的测量。
z i , j的标准差是 。因此,第 i个个体的 ZSD i实际上就是年龄匹配的 SCV2。 RMS ZSD是个体 SCV2的平均 RMS。
Miller等 [24]提出的 SCV在识别传统 CV的局限性上迈出了重要的一步。在多数情况下, SCV提供了不同于 CV的信息。例如,用 Hologic系统QDR-1000的 DXA扫描仪测得的PA脊骨BMD的短期 CV(1%),高于由 Hologic Sahara sonometer定量超声仪测得的声速( SOS)(0.3%)。然而,由 RMS SD与青年人总体 SD之比定义的 SCV却会给出完全相反的描述,当 SOS为20%时,PA脊骨BMD的 SCV却为8% [25]。 ZSD进一步利用了年龄别总体标准差,因此当总体方差随年龄组发生变化时这种方法具有优越性,应用其来确定各个体与相应年龄组均值的差值。
SCV和 SCV2应用的一个重要限制是它们依赖于标准化数据。在大多数情形下,不同厂家生产的设备的标准数据间没有可比性。因为选择的标准不同,不同厂家有不同的标准数据;而且收集这些数据时也未必都使用了恰当的统计抽样方法,因此不一定代表了真正的总体参数。要比较两个不同标准数据的 SCV,就象是把苹果与橘子相比而毫无意义。许多精度研究的样本含量小,个体也是就便收集的,因此研究样本不一定与标准总体一致。所有这些问题严重限制了 SCV的有效性。
对于所有的 SCV而言,其统计性质和假设检验方法都是复杂的,尚待研究。但可以应用bootstrap方法来解决实际需要。
3.短期精度研究的样本含量
短期精度研究设计时,需要平衡研究的个体数目和测量次数的关系。一般我们对 m个研究个体都安排相同的测量次数 n。样本含量估计可以根据置信区间的宽度或零假设进行。不管哪种,都必须对总体标准差 τ与总体均值 μ之比有所了解。
对于给定的 n,估计的 CV的(1- α)·100%渐近置信宽度 λ为
(5-11)
由(5-9)整理后得到。类似地,检验假设 H 0: λ= λ 0及 H 1: λ≠ λ 0的样本含量估计为
(5-12)
此处, α和 β分别为Ⅰ类和Ⅱ类错误率; λ 1是备择假设下的 CV; τ i和 μ i是零假设( i=0)和备择假设( i=1)下的总体标准差和均值。
公式(5-12)表明样本含量 m随测量次数 n的增加而减少。实际上,收集新个体比重复测量更困难,花费更高。但临床应用中影响精度误差的因素很多,病人选择少了可能会高估或低估精度的真实值。例如,在评价 DXA扫描仪的精度时,如果只测量年轻妇女,得到的精度误差偏小从而夸大扫描仪的精度;如果只选择年纪较大的患骨质疏松症的妇女,得到的精度误差偏大,又会低估了精度。要平衡混杂因素,就要得到仪器或方法在临床实际应用时的有代表性总体 [11]。一般在给定的费用限制下,应尽可能多地接受个体。
四、相对长期精度误差和监测变化的灵敏度
短期精度在评价疾病诊断方法的效用时非常有用,精度误差越小,且误诊机会越小。这一点尤其表现在标准化精度误差上。但不足的是,这些指标不能反映某种方法监测变化的能力。
1.纵向 CV
与短期绝对精度误差的局限一样, RMS SEE依赖于测量单位,不适于方法间的比较。相应地,我们定义纵向 CV为
(5-13)
如果假定各个体测量值随时间的变化是线性的,即
X i , j= a i+ b i t i , j+ e i , j
(5-14)
其中 t i , j是第 i个个体第 j次测量的时间,则纵向 CV为
(5-15)
此处 和 是估计的截距和斜率, 第 i个个体的均值。要导出(5-15)的渐近标准差很复杂,尚未见文献报道。
虽然具体情况还不清楚,但已知纵向 CV依赖于测量时间。如果对同样的方法和个体,测量时间和频率不同,得到的 CV也不同。这是因为 ,但对绝对精度却不是这样。因此相同类仪器间的比较,用 RMS SEE的绝对纵向精度更合适。要比较不同的方法,那么不同方法都必须有同样的测量时间。最好是设计在同一时间对同一批个体进行测量,否则得到的纵向 CV就没有可比性。
2.最小有意义变化
在做临床决定时,很重要的是要知道最小有意义变化(least significant change或 LSC),即不大可能由测量误差引起的测量值变化的最小幅度,其定义为2.8倍的纵向绝对精度 [29]:
LSC=2.8× RMS SEE
(5-16)
更确切地说,如果我们观察到个体的改变值大于 LSC,我们就有95%的把握认为改变不是由测量误差引起的。
上述 LSC的导出基于如下观点:令 X 1和 X 2是某个体的两次间隔的测量,如果测量值没有改变,则两个测量值之间的差异只是由纵向测量误差引起的。假定纵向测量变异为 σ[(5-4)中由 RMS SEE估计],则 。最小有意义变化在基础医学中又被称为“有生物学意义的变化” [22]。
用于评价 LSC的精度必须是纵向精度误差,而不是短期精度误差,通常后者小于前者。
检验水准5%并没有特定的临床意义,因此在评价最小有意义变化时,不一定必须要有95%的把握。如果临床医生需要尽早治疗病人以避免病情加重,他或她可以选择低一些的检验水准。例如,另一个指标趋势评价限( TAM),其定义为1.8× RMS SEE,就是对应于80%置信水平 [30]。 LSC和 TAM也可以用纵向 CV的百分位数来近似计算。
3.追踪时间区间
许多时候,放射医学是用来监控病人的。要评价某种方法监控病人能力的灵敏度,Gluer [30]引入了“监控时间区间”( MTI)的概念。 MTI用于评价疾病进程或治疗反应。它等于让病人有50%的可能出现超过 LSC变化所需时间段,故
MTI= LSC/每年改变的中位数
(5-17)
此处引起改变的原因可以是年龄变化、疾病进程或依赖于研究目的的治疗功效。这种改变也与 LSC的单位一致。也就是说,如果 LSC是用绝对精度表示的,这种改变也表示绝对改变。否则,如果 LSC用百分位数表示,就用百分位数的改变。需要着重强调的是, MTI的单位是年。
类似于 TAM,Gluer [30]还建议用“改进评价区间”( TAI)来估计当个体有50%可能观察到超过 TAM的改变量后的追踪时间。
确定适当的监控时间区间需要平衡两种情况,由于太频繁的访问导致的病人不适和额外费用,以及因为访问太少而可能忽略真实的疾病进程。 MTI要求统计的检验水平通常对应95%置信水平,其对应的监控时间区间大致是 TAM的两倍。这表明当 MTI和 TAM作为纵向精度的应用并以这种方式定义时,就直接而又非常直观地与监控时间区间近似相关。然而,应当注意到与完全依赖于病人的期望反应不同,各种方法都没有单个的 MTI( TAM)。从这个角度来说这种定义并非坏事,因为它直接反映出追踪测量的频率依赖于检查病人类型。例如,在临床骨质疏松症监控中,快速骨质流失者的 MTI比平均的绝经期妇女短。
五、精度误差应用实例
本节我们举例说明如何计算前面介绍的绝对和相对精度。
实例5-1 比较由不同的两台定量超声波扫描仪在骨质疏松测量中的短期精度误差,两台仪器不同。20名老年健康自愿者参加研究,对每个个体在同一天两次测量跟骨声速(SOS),数据列于表5-1。
表5-1 20名自愿者跟骨的SOS( m/ s)
本例中, m=20, n 1=…= n 20=2。结果描述于表5-2:
表5-2 短期精度和有关参数
此处 SCV2是在2.3.2节中((5-10)后)定义的。因为 SCV3需要病人的信息, ZSD需要厂家的标准化数据,在此次计算中都无法得到,我们没有计算 SCV3和 ZSD。值得注意的是, SOS的传统 CV在比较 DXA测量的BMD时是很低的( CV的范围在1%~6%)。然而,这并不表示SOS在临床应用中更精确。因为SOS的临床应用范围并不是从0开始,实际上此处0没有定义,这就是为什么在本例中 SCV和 SCV2更有意义。据报道 DXA测量的BMD的 SCV2的范围在8%~11% [25],远低于由定量超声扫描仪测量的SOS。
实例5-2 5名正常自愿者参加的纵向质量研究,在一年内评价不同厂家生产的两台新的定量超声设备(QUS),表5-3列出了他们测量的SOS数据。
表5-3 5名正常自愿者的纵向QC数据
表5-4计算了数据的纵向精度。虽然并不是所有的个体都表现出随时间的线性改变,特别是个体3对仪器1表现出非线性的改变,我们只对所有的个体拟合线性趋势。同样地,正如实例1所指出,对于QUS的SOS, CV不是一个合适的测量指标。然而,为了演示,我们仍在表5-4中计算了 CV。
表5-4 两台QUS仪器的纵向精度
从表中可以看出,虽然仪器2的精度误差较高,但监测年龄改变更灵敏,因此更适于纵向追踪。当然,要确定监控时间区间,本研究的样本含量还太小。
第三节 统计过程控制图
在第二节中,我们介绍了测量误差的概念以及评价它的统计量。在发展新方法或生产新仪器的过程中,通常评价精度误差。临床上安装完仪器后,也立即用精度误差进行评价以确保仪器在厂家规定的基准水平运行。在多中心临床试验或其他纵向研究启动前,也通常要评定精度误差 [7,31]。当厂方将精度误差设置在适当的基准限制内后,监控设备确保精密就很重要了。除了值得注意的精确度和放射设备的可再生,还会因为设备改变、软件升级、仪器重校准、硬件老化或故障、以及操作误差等使测量发生变化。
在理想的情况下,维护得好的设备的测量值应当随机地分散在参考值周围。定义测量值开始偏离参考值时候的点为变点,为了评价测量的稳定性和确定变点,放射学家用随时间保持常量的人体模型模拟人体测量 [7,32,33],利用体模观察到的变异可以反映人体测量的变异。通过有规律地测量体模来检测下列一个或几个事件的组合:①变点前后均值的差别有统计学意义;②变点前后测量值标准差的差别有统计学意义;③变点后的测量值表现出逐渐的但有意义地偏离参考值。
在表5-5中,我们给出了实例5-3,是两个月的DXA扫描仪质量控制数据。在这个过程中,一周扫描Hologic脊骨体模三次,目的是监控DXA扫描仪的稳定性。如果扫描仪在正常状态下,变异系数会低于总AP脊骨BMD值的0.5%。数据集的详细背景可以在Lu等 [35]中找到。在表5-5中, i是观察次数的指示变量;测量日期记录扫描的时间,BMD是第 i个测量值; μ 0是根据质量控制的历史数据得到的参考值; σ是由0.5% CV推导出的标准差。我们用这组数据来举例说明统计过程控制图。
表5-5 质量控制研究中的Hologic人体模型 AP脊骨的BMD(03/13/89到05/15/89)
统计过程控制(SPC)集合了解决实际问题的许多工具。它通过减少变异实现过程的稳定性和能力的改进 [35]。确定变点的统计学方法有好几种,其中一种是用视觉检查回顾性数据,确定变点后用 t检验进行检验;另一种方法是利用统计过程控制图 [34,36]。本节中,我们介绍这些方法,并提供其在骨质疏松症研究中监控由DXA扫描仪测得的BMD的应用实例。
一、视觉检查
可以通过仔细的视觉检查挑选出数据中潜在的变点。首先绘制纵向体模数据随时间变化的图形,用视觉判断由漂移或突然的跳跃引起的潜在变点,然后用统计学检验如 t检验来确定改变的显著性。要着重强调的是,在给定的一段时期内可能观察到多个潜在变点。重复检验中一些控制第Ⅰ类错误的方法也可用于 t检验。
只有有经验的医生或放射医学工作者才可以执行周期性地视觉检查。为避免主观变异,应当由同一个人担任主要评价者。在最新得到的图中选择变点,一旦确定了,就要调查引起变点的原因,并确定差异是否与仪器有关。
视觉检查的效能依赖于检查者的经验,并且是不可重复的,因此并不推荐使用。
二、Shewhart控制图
Shewhart图以图形方式来显示随时间测量的质量特性。图中有一条中心线代表平均参考值,在中心线两侧还有3条线分别表示距离参考值1、2和3倍标准差。通过在图中绘制观察到的质量控制测量值可以确定仪器是否在正常状态之下。
参考值可以由体模的理论值,或者在基准水平下测量到的首批25个观察值得到。无论何时Shewhart图显示出一个失控信号,就要改变参考值,重新校准仪器。新的参考值应该重新取那个信号发生后的前25个观察值的均值。计算参考值的观察个数可以改变,我们选择25是根据实际经验而定,主要是考虑到要平衡参数值的稳定性和建立它所需的时间长度。
标准差因仪器和厂家而不同。例如,在骨质疏松症研究中,我们有时用Hologic体模的BMD来监控DXA扫描仪的性能。根据报道的体模长期精度数据,我们通常假定Hologic的变异系数为0.5%,而Lunar为0.6% [37]。因此,计算扫描仪的标准差就是用0.005和0.006分别乘以Hologic或Lunar的参考值。
如果观察到测量值超出参考值的3倍标准差范围,原始的Shewhart图就会发出失控的信号。这种方法虽然灵敏,而且易于应用,但对于虽然小但有显著性的变化,它的灵敏度就不高 [35]。因此,表5-6列出了一套灵敏化检验来改进Shewhart图的灵敏度,它们可以在统计软件包 SAS中得到 [38]。
表5-6 Shewhart图可指定原因的检验的定义
上述灵敏化规则可以部分或全部应用。例如,在DXA仪器的质量控制中,我们用了这8条规则中的4条,即检验1,2,5和6 [34]。一旦用上述任一个检验确定了一个变点,我们就通知厂家检查原因并对仪器进行校准,然后用接下来的25个观察值产生新的参考值,并根据新参考值对后面的数据应用检验。
图5-2显示了实例5-3中 Shewhart图的应用。在图中,圆点是观察到的 BMD;6条线是距离中心参考线1到3倍标准差的控制限。根据检验2我们在1989年4月10日观察到一个故障。
图5-2 实例5-3中QC数据的Shewhart图
灵敏化规则增加了Shewhart图的灵敏度,但也增加了错误报警的次数。后者是我们不希望的。要解决这个问题,可以通过设立均值移动幅度的低限来实现。例如,我们在Shewhart图已确定的潜在变点后挑选10次连续的扫描,计算出这些扫描的均值。如果均值与参考值的差别大于一个标准差(在本例中等于0.5%倍参考值),证实这个变点是真实的;否则,忽略Shewhart图给出的信号,也不改变参考值。这个方法可以滤除那些小的无临床意义的改变,但这种方法只对超出了一个标准差的差别才有效,因此可能会延误真正变点的确定。
三、移动平均图
另一种方法是计算25次连续测量值的均值和标准差,并绘制这些均数和标准差随时间的变化图。通过假定整个过程的 CV为常量(0.5%倍参考均值),并以相当于原始Shewhart方式的Ⅰ类错误率(0.27%)建立控制限 [35]。进一步地,用 X i, i=1,2,…, n,表示同一仪器 n次纵向体模扫描测得的QC值,我们根据25次扫描定义移动均值和标准差。
(5-18)
上式为得到第 i次扫描为止的前25次扫描值的移动平均;
(5-19)
上式为得到第 i次扫描为止的前25次扫描值的移动标准差。注意第一次的移动平均只能在第一个25次扫描值全部得到后才可计算。
现在如果假定 X i独立地服从正态分布 N( μ, σ 2),即 M i服从正态分布 N( μ, σ 2/25),而 服从自由度为24的 χ 2分布(记为 )。但要注意的是,对于不同的 i, M i之间不独立, 之间也不独立。
令 μ 0为参考均值,如果仪器在正常状态下,我们会接受零假设 H 0: μ= μ 0;如果仪器失控,就接受备择假设 H 1: μ≠ μ 0。我们取相当于原始Shewhart方式的Ⅰ类错误水准0.0027,如果 ,则拒绝零假设。因此,移动平均的控制限为参考均值±59.91%倍标准差。
我们假定仪器的 CV为常量,因此如果在正常状态下,参考均值与 CV的乘积即为标准差。用零假设 H 0: σ= σ 0检查仪器的精度是否在控制之下,对应的备择假设为 H 1: σ﹥ σ 0。用同样的Ⅰ类错误率作为均数差,如果 或者 S i﹥1.41 σ 0,则拒绝零假设。因此移动标准差的控制限是1.41倍标准差。
注意我们只关心标准差的增量,因此只考虑移动标准差图的上限。换句话说,我们关注的是质量控制而不是质量改进。一旦移动平均超出了控制限,就把那一点的移动平均值当做下一次的新参考值。
移动平均的性能与参加计算的扫描次数有关。我们选择25次扫描是基于功效分析,这样移动平均图误警的可能性低于0.27%,而有98%的可能性检测到超过均数一个标准差的增量。另外,移动标准差图有98%的可能性发现标准差的100%增加 [34]。25次也是典型的质量控制测量中一个月内完成扫描的次数。
四、CUSUM图
CUSUM图是累积和图的简略形式。在实际应用中,我们建议使用被称为TABULAR CUSUM [35]的CUSUM图,因为它不受是否有图形的限制。我们定义第 i次质量控制测量值的CUSUM表的单侧上限 S H( i)和单侧下限 S L( i)如下:
(5-20)
(5-21)
此处 μ 0是参考均值; σ是标准差; k是滤除无意义改变的参数,通常取0.5; S H(0)和 S L(0)的初始值为0。如果 S L( i)或 S H( i)大于5,图就会报警。也就是说,当标准化BMD值距 μ 0值大于 k,累积的上界和会以超出 k值的量增加;另一方面,如果偏差小于 k,累积和会以相应方式减少。当累积和小于0时,就忽略过去的数据并设其为0;而当累积和大于5时,我们就认为足以说明数据偏离了参考均值。
当CUSUM显示出改变时,它还能估计改变发生的时间和幅度,然后用估计出的改变幅度再建立新的参考值。
表5-7给出了实例3中应用 CUSUM图的结果。表中的 S H( i)和 S L( i)由(5-20)和(5-21)定义,为了检测到一个标准差的均值改变,我们取 k=0.5 [35]。随着序列 S H( i)和 S L( i),序列 N H( i)和 N L( i)分别表示自上一次正的 S H( i)和 S L( i)观察值以来的扫描次数。例如,从记录1到4, S H( i)为正,因此 N H( i)值从1到4。但 S H(45)为0,因此相应的 N H(45)=0。对 N L( i)有类似的规律。
表5-7 中心3的CUSUM表(03/13/89到05/15/89)
续表
如前面解释过的,初始参考值是由前25个观察值的均值计算而得的。但是,一旦 S H( i)或 S L( i)大于5,我们就认为扫描仪失控了。例如1989年4月20日,出现 S H(60)﹥5,提示BMD值过高了,注意到 N H( i)=1的最后日期,我们估计此事件是从1989年4月10日开始。因此,把调查的注意力集中在那个时间附近。估计相对于参考值的变化幅度为 σ[ k+ S H( i) /N H( i)],等于平均差别 [35]。
一旦过程失控,我们就建立一个新的参考值。如果是因为厂家校正仪器,就取校正后的前面25次观察值建立新的均值。然而,如果不是由仪器引起或是回顾性分析,当新的BMD值大于参考值,就用 μ 0+ σ[ k+ S H( i)/ N H( i)]估计新的参考值,否则就用 μ 0- σ[ k+ S L( i)/ N L( i)]来估计。最后得到第60次扫描后的新的 μ 0的值为1.040mg/cm 2。
图5-3显示了表5-7的图形形式,图中矩形为累积和 S H( i)与 S L( i),圆点为观察值。在某种意义上,表5-7比图5-3更易于确定变点。
图5-3 例5-3中QC数据的CUSUM图
可以构造分离的CUSUM图来反映方差的单侧改变。Ryan建立了单侧方差图 [39]。在这种方法中,将观察到的两次成功扫描的差值 X i- X i -1转换为 0.82218}/0.34914,后者近似地服从标准正态分布 N(0,1)。在方差图中,我们取 k=0.75来减少由于单个异常点引起的报警次数。如果确定了方差改变的警报,我们就会调查报警的原因,然后重新校准仪器。
表5-8给出了实例5-3的方差图,表中计算了 Z i的值。因为 Z i服从标准正态分布,第8列给出了方差的CUSUM上界。和前面一样, N H( i)指示正累积和的出现,这对于寻找原因是很有用的。其图形形式类似于图5-3,在此就不再给出。
表5-8 实例5-3方差改变的CUSUM表
文献 [35,39]给出了推导CUSUM图数学边界的一般方法,在其中还可以找到关于Shewhart和CUSUM的理论比较。
另一种形式的CUSUM图是V-mask图,本质上与Tabulate CUSUM是相同的 [35,40]。
五、放射医学研究中的统计过程控制图的比较
Lu等 [34]在他们用Hologic脊骨体模的日常扫描监控DXA扫描仪的应用中,比较了几种不同的统计过程控制方法。他们用从5个临床试验点得到的纵向质量控制数据作为模拟研究结果,对这些方法作了比较。得出的结论是视觉检查相对主观,并依赖于操作者的经验和注意力;带灵敏化规则的常规Shewhart的误警率高;带灵敏化规则并过滤了无意义均值改变的Shewhart,误警率最低,但灵敏度也相对较低,这种方法对统计学要求不高,在临床研究点容易应用;CUSUM方法则最好地结合了灵敏度、特异度以及变化时间和幅度的识别,因此适合在临床试验的质量控制中心使用。CUSUM尤其适用于根据变点对病人数据进行校准时 [41]的应用。将移动平均表和移动标准差表结合起来的方法,作为监控DXA扫描仪性能的质量控制方法来说,其性能最接近于CUSUM方法。
六、其他图
在上述所有方法中,我们都假定连续测量之间没有自相关,而这对于放射医学设备的纵向质量控制来说几乎是不可能的。这种假设对统计过程控制表的应用及其决策的影响还很不清楚。Wheeler [42]认为:常用的控制限“只有当自相关很密切(比如0.80或更大)时”才是有害的。他的结论是“不必过分担心控制图的自相关效应”。就我们开展DXA质量控制的个人经验而言,不管是Shewhart还是CUSUM表,都没有观察到它们的缺陷。但这并不表明对于其他的应用来说自相关不是问题。Johnson和Bagshaw就认为潜在的问题非常严重 [43]。Strike建议在基础医学如定量分析的过程控制中,要“明智”地使用CUSUM [22]。
处理自相关的统计学方法是基于移除了自相关后的残差构造过程图,或使用指数加权的移动平均( EWMA)控制图 [35]。对于统计过程控制的应用而言, EWMA是一个灵活的统计量。当应用于不相关的数据时,对于累积和控制图来说它是个很好的选择。当应用于自相关的数据时,用它构成的控制图可以消除过多的误警问题,这一点是传统控制图所无法克服的。 EWMA的详细介绍在大部分关于质量控制的著作中都可以找到 [35,39]。
此处提到的所有统计过程控制图都是针对单变量连续测量的,除此之外,还有一些针对比或比率 [44,45],以及多元的质量控制和改进技术方法 [35,46]。
第四节 一致性评价
在临床试验的质量控制中,总是需要评价测量方法的一致性。例如,在骨质疏松症的纵向试验中,可能会更新研究点的DXA仪,由于试验的有效性评价是考察相对于基准水平BMD的改变,因此必须确保新旧仪器测得的BMD值的等价性或一致性;临床试验还要求放射医师结果的一致性,即确保不同放射医师的读片结果是相同的;同样,研究开始和结束时的读片结果也应该是相似的。所有这些都需要作一致性评价。
对于DXA扫描仪的升级,我们通常用新旧仪器对体模进行多次扫描,如果可能,最好对一组志愿者进行多次扫描,用人体数据评价一致性效果更好。而且这些志愿者的BMD范围最好包括所有可能的临床测量范围。要升级临床试验中的仪器,试验点必须首先告知试验组织者和质量保障中心并得到他们的批准,还必须依靠厂家进行适当的安装和校准。试验点还要记录仪器升级的文档。
要评价临床试验中不同放射医师间读片的一致性,以及同一读片者在试验期间的纵向一致性,通常在开始试验前先要对他们进行分组培训。将有代表性的片子存在数据库中,让参加研究的所有读片者在一起读这些片子并讨论分级标准。分组训练的结果要存档,并且只有受过训练的放射医师才能参加研究。训练完后要考察读片者间的一致性,如果一致性达不到预定要求,再重新训练读片者,并重新检验其一致性。直到读片者的一致性达到了预定的要求,才能开始试验。在试验期间,还要让放射医师再次定期地读这些测试片,以评价他们读片情况的一致性。这是纵向一致性的重要保证。所有评价一致性的读片结果也要存档,供组织者或药检审批机构审核。
在其他研究中,如诊断方式或放射医学设备的确认等,一致性评价也很重要。在这种情况下,必须确立一个金标准,确认就是保证新的测量方法与金标准的一致性。
一、关联性与一致性
一致性与关联性是两个有关但又有区别的概念。一致性意味着两种测量方法的可交换性,换句话说,不管是用旧DXA扫描仪还是用升级后的新仪器,测得病人的BMD应该是相同的;或者说无论是何人何时读片,判断出的脊骨骨折程度也应该是相同的。另一方面,关联性是指两台仪器或两名读片者在相同方向上的趋向一致。也就是说,如果两名病人的BMD不同,虽然测量方法不一样,但DXA仪测出的BMD较大者和较小者是一样的。
最好用两个连续变量的相关系数为例来说明一致性和关联性的差别 [47,48]。不管两个连续变量的规模如何都可以应用相关,如身高和体重。但即使得出身高和体重高度相关,因为它们测量的是完全不同的事物,也不能相互交换。而且,即使 X和 Y是测量相同物理特性的两个连续型变量,具有相同的单位,相关仍不能说明一致性。事实上, Cor( X, Y)= Cor( a+ bX, Y),因此当均值变化或规模改变时,相关仍是不变的。进一步地,相关的估计依赖于样本真值的取值范围,范围越宽,相关系数越高。在相关系数的假设检验中,零假设是两个变量的独立性,与一致性无关。因此用相关系数来评价一致性是不恰当的。但另一方面,两个规模相同的连续变量如果具有很高的相关性,提示了校准变量的可能性,因此二者是一致的。
二、两个连续变量的一致性评价
正如上一节所讨论的,只有当两个变量测量的是同一物理特性并具有同样的单位时才能评价它们的一致性。令 Y 1和 Y 2是这样的两个连续变量,分别服从正态分布 和 ,并由同一个体测得, Y 1和 Y 2的相关系数为 ρ。令 D= Y 1- Y 2和 A=( Y 1+ Y 2)/2,现在进行回归分析 D= α+ βA+ ε,我们关注的是 α= β=0 [47]。
容易证明如下公式
(5-22)
和
(5-23)
因此 α= β=0就意味着 和 ,即两种测量方法具有相同的分布参数。
Bland和Altman [47]进一步建议绘制差值 D对应于均值 A的图,并计算 D的标准差 σ D。按95%可信度,配对数据的差值范围为±2 σ D。如果 σ D小于等于 Y 1和 Y 2的精度误差,这两种测量方法就是可互换的,即二者是等价的。或者说,如果 小于 Y 1和 Y 2的 CV,它们就是等价的。这里我们用直条表示样本均值。
注意到 D和 A都是随机变量,Bartko [49]提出了Bland-Altman图的一个双变量置信椭圆,95%椭圆的公式为
(5-24)
式中 是自由度为2时 χ 2分布的95%分位数, r是 D和 A的样本相关系数。
可以用Bradley-Blackwood方法检验假设 α= β=0 [50],检验统计量为
(5-25)
上式可同时检验截距和斜率是否为0。
表5-9给出了用3台不同的DXA扫描仪测量10名正常志愿者的AP脊骨BMD(mg/cm 2)的数据集,我们感兴趣的是扫描仪1与其他两台扫描仪的等价性。
表5-9 3台不同 DXA扫描仪测量的10名志愿者的AP脊骨BMD值
续表
如表5-9所示,经Bradley-Blackwood检验,我们接受零假设,即还没有理由认为扫描仪1和2的均值和标准差存在差别。但扫描仪1和3间的差别有统计学意义,进一步数据检查表明扫描仪1和3间的标准差有差别。用Bland和Altman的方法,在图5-4中我们绘图比较了扫描仪1和2以及扫描仪1和3。用虚线显示的95%置信区间是最重要的。即使Bland-Altman回归的截距或斜率非零具有统计学意义,如果变异的差别小于人群短期精度误差,我们仍可认为测量方法是可互换的。Bland-Altman图的95%置信椭圆可用于显示样本方差间的差别。
图5-4 三台扫描仪等价性的Bland-Altman示意图
虚线是两台扫描仪差值的95%置信区间,椭圆是95%二元置信椭圆
双变量正态分布有5个参数,即两个均数、两个标准差和一个相关系数,Bland-Altman回归比较了其中4个。可能有两个正态随机变量具有相同的均值和标准差,相关系数却为负,如当均值 Y为0时的 Y和- Y。因此,只用Bland-Altman回归来评价一致性是不够的,还要检查两种测量方法的相关性。只有Bland-Altman的截距和斜率为零,且高度相关才能说明两个变量的等价性。
三、类内相关系数
测量一致性的另一种方法是类内相关系数( ICC) [51]。 ICC的定义很简单,就是读片者或方法间方差占全体读片者或方法间方差之和(总变异)的比率。进一步地,我们假定 Y ij= μ+ p i+ r j+( pr) ij+ ε ij,其中 i代表第 i个个体( i=1,…, N), j代表第 j名读片者或设备( j=1,…, K); Y ij是第 j名读片者 /扫描仪 /仪器测得的第 i个个体的值; μ是所有观察值的全部共同效应; p i是病人的随机效应; r j是设备或读片者的随机效应;( pr) ij代表病人和设备之间的交互作用; ε ij为测量误差。我们假定 p i和 r j是独立的,且分别服从正态分布 和 ; ε ij独立于 p i和 r j,且服从分布 。只有有重复观察值时,交互项( pr) ij才能从测量误差中分离出来,否则就会丢失。类内相关系数的定义为
(5-26)
从上式可以看出, ICC高则意味着作为测量误差的两名读片者间的差别小。Lee等建议诊断界点取为0.75,超出界值后就可考虑读片者或测量设备间的一致性了 [51]。
根据两因素混合模型的方差分析表结果,估计 ICC如下
(5-27)
式中 MSB, MSR,和 MSE分别是个体间均方、读片者或设备间均方以及误差均方。
Fleiss和Shrout [52]推导出 ρ ICC的置信区间的近似公式,令 F U和 F L分别是自由度为( N-1)和 υ的 F分布的上下100(1- α/2)%百分位数,
(5-28)
ρ ICC100(1- α)%置信边界的上下边界 ρ U和 ρ L,分别按如下公式近似计算
(5-29)
及
(5-30)
表5-10是实例5-4中扫描仪比较的方差分析表,及其对应的类内相关系数。
表5-10 实例5-4数据的方差分析表和 ICC
这个例子清楚地说明用 ICC评价两台扫描仪的一致性的灵敏度较低。扫描仪1和3的 ICC非常高,但Bland-Altman回归却显示出有统计学意义的不一致性。Bland和Altman [53]还指出了用 ICC评价一致性的其他不足,如样本变异的依赖性。但另一方面,用 ICC更易于评价超过两个以上的一致性。Bartko给出了 ICC的另一种定义,这种定义更简单,并且有确切的公式计算置信区间 [49]。
四、分类变量一致性的 Kappa统计量( κ)
与连续型测量一样,只有当两个分类变量具有相同的生物或物理含义时,考察它们的一致性才有意义。分类变量的一致性大多应用于健康或疾病状态的定性评价,其中包括两名不同的读片者或者同一名读片者在不同时期得到的结果。前者通常指读片者间的一致性,而后者是指同一读片者不同时期的一致性。在临床研究中还会涉及到多名读片者的定性评价。我们希望所有的读片者都能得到一致的读片结果;而且,我们还希望这种一致性在整个研究期间都不变。因此,定期地回顾读片者间和同一读片者的一致性,应该作为临床试验的质量控制的一部分。如果读片者间发生了分歧,就需要重新训练他们。
显示两名读片者的分类变量的最简单方法是用2×2表,如表5-11所示。表中 X 1和 X 2是两名读片者的结果,0表示健康,1表示疾病; P ij代表事件发生的概率。有多种方法可以测量读片者间一致性,例如,最直接的一种是一致性概率,即 P( X 1= X 2)= P 00+ P 11。一致性概率的分析与二值概率分析类似。Freedman,Parmar和Baker [54]针对两名读片者一次或重复读片结果的研究,给出其一致性概率分析所需样本含量的估计方法。
表5-11 两个二值变量输出结果的联合分布
一致性概率的缺点是即使两名读片者都是独立的,仍有可能得到大于0的一致性概率。由此Cohen用 Kappa统计量 [55]加以改进, Kappa的定义为
(5-31)
式中 P 0= P 00+ P 11是观察到的一致性概率, P E= P 0+ P +0+ P 1+ P +1是当 X 1和 X 2独立时由变异引起的一致性概率。 κ在完全一致时可达100%;而在 X 1和 X 2完全不同时,又可低至- P E/(1- P E)。
如果我们用 n ij表示表5-11中每个分类观察到的个体数,则 P ij, P i +和 P + j的最大似然估计分别为 ,其中 n是总个体数。经过数学推导,用概率的最大似然估计在(5-31)中进行代换,得到 κ的估计为
(5-32)
计算(5-32)中 MLE估计量的方差的方法有几种。Fleiss等 [56]用 delta方法得到了大样本下估计量的方差:
(5-33)
而Kraemer [57]和Fleiss与Davies [58]则提出另一种方法,即用折刀法计算 κ估计量的方差。令 是当第( i, j)个格子中的一个观察值被排除时 κ的 ,则 k的折刀估计量为
(5-34)
与 相比,该估计量的偏倚较小。折刀法的方差可以由如下估计
(5-35)
Garner [59]以表5-11中2×2表的边缘分布为条件,提出了下面较为简单的公式
(5-36)
虽然上述公式都是渐近等价的,但在应用于小样本时仍有差别。一项模拟研究 [60]对 的不同估计量进行了比较,并指导对于小样本如何选择Cohen 的估计方法及构造置信区间,结果显示在表5-12中。表中“(”和“)”表示开区间,“[”和“]”表示闭区间。Landis和Koch [61]给出了如何根据 Kappa值解释读片者间一致性水平。其中,优势(prevalence)定义为(2 n 11+ n 10+ n 01)/(2 n) [62]。最后一列指明了估计样本方差的首选公式。
表5-12 选择构造Cohen 的置信区间的方法的指南 [60]
在质量控制和质量保障中, Kappa统计量主要应用于估计问题。开始研究前,我们希望确保读片者间的一致性高于一个预定的水平,同时还希望确保整个过程中的同一读片者的 Kappa统计量控制超过给定的水平。 Kappa的应用十分广泛,远远超出了质量保障的领域,已有大量的文献,包括有序数据及多选项数据的一致性 [63-66];病例-对照研究 [67];多个读片者或相关样本 [68-70];用logistic回归模型调整 Kappa统计量的共变效应 [71]等。由于篇幅所限,我们无法介绍所有内容,请感兴趣的读者自行查阅。
五、分类变量一致性的对数线性模型
对数线性模型可表达机会一致性和超出机会的一致性;也可以显示几个观察者间一致性的模式,或者个体按某个协变量分层后一致性模式的比较 [72]。后者在质量改进中尤其有用,可用来确定读片者一致性的影响因素。
令{ m ij= nP ij}表示两个观察者A和B对 n个个体( i, j)评分的期望频数,当由机会产生的一致性时,对数线性模型可表示为如下形式
(5-37)
进一步将其扩展为如下的拟独立模型 [73]
(5-38)
式中指示变量 I ( i = j )当 i= j时值为1,否则为0;模型参数的限制为 。当观察者间不一致时,甲读者的评分在统计学意义上独立于乙读者的评分。当 δ i﹥0时,关于结果 i的一致性比根据机会预期的高。许多软件包都可以拟合此模型。当我们假定常量 δ i= δ,机会校正一致性的 Kappa指数为 [74]
(5-39)
Graham将上述模型进行了扩展,引入了二元协变量 [75]。令 X为二元协变量,其值为0和1;令{ m ijk= nP ij( X= k)}是协变量 X等于 k时读片者A和B观察( i, j)的频数,则扩展模型为
(式5-40)
式中有单个上下标的项对应主效应,有双重上下标的项表示上标对应变量间的部分关联,用以控制上标忽略的变量。我们强制主效应和部分关联项的和为0。在这个模型中, δ AB代表两个读片者间的全面一致性, 表示当协变量 X= k时与 X关联的附加机会校正一致性,模型的限制条件是 的和为0。这个模型很容易扩展到多元协变量情形,用SAS CATMOD程序可以得到其估计量。
在模型(5-40)中,对任一对不同类别的 i和 j, 被解释为两个条件一致性的对数优势比均值的估计,即log[( m iik/ m jik)/( m ii 0/ m ji 0)]和log[( m jjk/ m ijk)/( m jj 0/ m ij 0)]。在文章中 [75],Graham应用此模型研究了年龄、性别和在主要和替代方法是如何影响用主调查法与替代方法测量健康休闲活动的一致性。
六、潜在分类模型
在用潜在分类分析一致性时,我们假定观察结果的相关,是因为它们与某些潜在分类有关。而且这些潜在分类关联可以完全解释所有观察到的一致性。例如,假定在研究总体中有3类个体:那些所有读片者一致肯定或否定的,以及那些未定的个体,这些未定个体的结果必须由每个读片者依一定的概率随机给肯定或否定的结果 [76]。令 K是那些完全一致的发生率, p是其中属于肯定类的概率,同时令 π是未决定个体的肯定评分的概率。假定两名评分者对于未决定个体的评分是独立的,表5-13给出了2×2表的概率分布。
表5-13 潜在分类模型的2×2表的概率
因此,如果 p= π, K是Cohen Kappa统计量。如果 p/(1- p)= π 2/(1- π) 2, K等于(式5-39)中的Aickin Kappa。
潜在分类模型的应用也很广 [76],例如,Baker,Freedman,和Parmar [77]就提出了一个重复观测的模型,可以同时分离二元测量值的读片者间一致性和同一读片者不同时间的一致性。
第五节 校准和标准化
质量保障最重要的任务是防止测量误差超过预定的水平。要达到这个目的,我们从精度和准度两方面来评价仪器的性能,确保其适用于临床诊断或研究。一旦我们选定了仪器或方法来测量研究参数,就要确保它们相互间的等价性。在研究期间,我们用质量过程控制技术来监控仪器是否仍在要求的精度下运行,以及读片者是否保持他们读片结果的一致性。在所有的过程中,我们还要观察不同设备或读片者间的不一致的地方,一旦选定了其中一个作为参考值,对其他设备或读片者根据参考标准修正其差别的过程就称为校准。
例如在多中心研究中,我们通常以协作中心的结果作为参考标准,因此任何与协作中心有差别的点或仪器都要进行校准,在临床试验质量控制的参考文献中称之为相互校准 [41]。虽然从数学意义上讲,任意点都可以被选为参考标准,实际上参考标准的选择要依赖于限制条件和研究点的质量控制历史。有些时候,我们还可能需要多个参考标准,例如,在用不同厂家DXA扫描仪的骨质疏松症临床实验中,首先要为每个厂家选择一个参考标准,根据标准分别进行校准;然后还要进行参考标准之间的校准,前一部分是同一标准测量方法的校准,后一部分则称为比较校准。
单台放射医学仪器也存在校准问题。在前面第三节提到过的纵向质量控制中,放射医学仪器与按体模定义的标准作比较。通常我们检查相对于基准值的均数和方差改变。同时我们也对尺度的不同感兴趣,比如测量单位的变化。对于DXA扫描仪,可以用不同线性比例密度的体模作为参考标准,按这个标准,如果一台扫描仪与标准的差别有临床意义,就需要进行校准。
一、根据标准校准测量方法
要对设备进行校准,先要测得标准。一种方法是用已知的理论测量值对体模进行测量 [32]。在其他情形下,我们测量一系列的体模或一组样本个体,来检查参考设备与其他研究设备之间的差别,如多中心试验中的相互校准 [7]。在所有情况下,我们观察成对的数据( X i, Y i),其中 X i代表测量标准, Y i表示需要校准仪器的测量值。
实际的问题是如何根据测量值 Y正确设定标准值 X。最自然的解决方法是执行 X i关于 Y i的回归,然后对 Y应用此回归模型。这种方法很实用,但它却存在统计问题。
当我们选择标准的时候,假定标准是准确的,也就是可以忽略其测量误差。因此,测量误差只与 Y有关,其线性关系为 Y= α+ β X+ ε,其中 α和 β是回归参数, ε是 Y的随机测量误差。 α和 β也被称为常量偏倚和相对(比例)偏倚。
用 和 表示回归参数的最大似然估计,其协方差阵与 RMSE模型一样,可以很容易地用统计软件包算出。根据这些估计量,对于一个给定的观察值 y,可用式 对其进行校准。
除 时,预测值 是真实值 x的有偏估计,
(5-41)
式中 S e是回归直线的 RMSE; 和 S XX是用于得到校准的 X i的样本均值和样本方差,因为 是用相关正态变量的比估计的。多数情况下,当 很大时,这种偏倚可以忽略。尤其当
(5-42)
偏倚可以忽略不计。当 g﹥0.2时,我们实际上还不能根据标准 X对 Y进行校准 [22]。校准后 的95%置信区间的详情在同一参考文献中也可以找到。
当我们允许标准 X有测量误差时,就用带测量误差的回归来处理校准问题。重新整理线性回归,得到 X和 Y的关系如下:
X= γ 0+ γ 1 Y+ δ
(5-43)
这个校准模型和普通回归模型不同的是, Y是随机变量, Y= U+ ε。只有在确定的条件下,回归才是确定的 [78]。我们假定测量误差 ε和真值 U是独立的, ε的均值为0,方差 已知(重复测量估计),则校准公式为
(5-44)
这里 是观察值 Y和测量误差的斜率的最小二乘估计。
二、校准和潜结构模型比较
Barnett [79]首先考虑用模型来评价“对同一组个体测量其同一特性的一批 p台设备的相对校准和相对准确度”。放射医学研究中普遍用不同厂家生产的类似设备来测量同一物理特性。由于各种原因,即使对同一个体,这些仪器也不会得到确定的测量结果。因此,对于临床研究来说,不同厂家设备间的转换是十分重要的,这样可以减少由仪器引入的变异,从而改进研究效率,也有利于不同研究间的比较。
对于第 i个个体,令向量 表示 p台仪器对该个体的测量值,此处上标 T表示“转置”。统计学上,我们假定用 测量来自未知正态总体 的 X i, X i的量无法直接观察到, 和 X i的关系如下
(5-45)
和 为未知的回归参数, 是服从 的 p维随机测量误差。
上面这个模型与一般校准模型的区别在于,在一般模型中 X i是可以观察到的,而在校准问题中 X i是未知的 [80]。
基于观察值 的统计量有 p个均值和 p( p+1)/2个协方差阵,而未知参数中有2个关于 X分布的参数,2 p个回归参数和 p( p+1)/2个测量误差的协方差阵。因此,当 p﹤3,比较校准是不确定的;即使当 p≥3,要确定模型仍然需要另外的假设。
Barnett [79]假定 a 1=0和 b 1=1,且测量误差的协方差阵Σ是一个对角阵,他利用矩估计得到了模型参数的 MLE。其他人也对类似问题进行了研究 [81-84]。Lu等 [85]给出了一个扩展模型的简短形式,即下述 EM法则。
与Barnett一样,我们假定Σ为对角阵,当无法得到 X i的观察值时,模型的对数似然十分复杂。观察值 的对数似然函数为
(5-46)
要确定模型,我们还强制回归参数的线性形式,即 和 。当 和 c 1= c 2=0时,模型与Barnett的相同 [79]。当 ; c 1=0和 c 2=2.912时,模型与Lu等类似 [84]。如果已知 X i,则似然函数很简单,
(5-47)
因此可以将 X i视为缺失值,用 EM法则来得到模型参数的 MLE。 EM法则的步骤如下:
步骤0:设置模型参数 , μ 0和 的初始值。
步骤1.E-步骤:计算统计量的完全似然函数的条件期望,为
(5-48)
(5-49)
步骤2.M-步骤:将条件统计量代入如下公式计算 MLE,
(5-50)
(5-51)
(5-52)
(5-53)
(5-54)
式中 和 分别是 和 X i的样本均数; ; λ 1和 λ 2是条件极值的 La- grange系数,
步骤3:根据非条件对数似然函数的收敛性,决定终止还是返回步骤1。
基于 MLE,可以利用逆线性校准,用任一台仪器的测量值对未观察到的 X进行校准。此外,模型还允许用下述公式对第 k台仪器与第 l台仪器进行校准,
(5-55)
式中下标 i表示第 i个个体, k, l表示仪器, a k, a l, b k,和 b l分别是向量 和 的第 k和 l个成分。
当 p=3时模型更简单,可以得到 MLE的闭合形式和明确的渐近协方差 [84]。在三台不同厂家仪器测量的骨矿物密度标准化研究中应用了这个模型 [84,86,87]。
三、比较校准的最小二乘估计
我们定义 和 ,其中 k是实数, G是 p× p的对角阵, G=diag( g j)且 g j≥0。如果 是设备的标准参考值,则其中每对元素间都没有差别,令 H是 p× p阵:
Hui等提出找出使向量 中的元素间差别最小的 g j [88],即,
(5-56)
其限制条件为 。因为二次方程的限制,上述最小化方程的解没有显示解,但可以用编程语言(如 Maple)得到上述公式的数值解。
与前面提到的潜结构模型一样,要确定模型需要两个限制条件。Hui等证明可以用线性限制来决定常数参数 k [88]。
得到 g j的解后,可以用下述公式对仪器间的值进行校准。
(5-57)
对于 p=3,当且仅当潜结构模型中仪器的测量误差 相等时,最小二乘逼近(5-57)与潜结构模型(5-55)才是一致的 [84]。
第六节 结论
对于疾病的临床诊断和病人变化的临床监控来说,放射医学设备的质量是十分重要的。质量保障和质量改进需要许多人的共同努力,包括厂家、维修人员、操作人员以及评价质量、监控质量变化和确定质量改进范围的统计学家。本章我们介绍了应用于放射医学研究的质量保障的统计学概念和方法,由于篇幅所限,我们不能穷尽全部素材和观点。本章所讨论的方法不仅限于放射医学,同样可应用于许多临床研究。质量保障和质量控制的实践重于理论讨论,成功的质量保障有立竿见影的效果。而在质量保障中统计学家起着积极主动的作用。对于临床医生和生物医学工作者来说,应该认识到在质量控制和质量保障实践中统计学的重要性;同样,对于生物医学统计学家来说,理解各学科的观点,向不同领域的科学家有效地传递统计学理论和方法也是十分重要的。统计学家和生物医学研究者在各个领域的合作,不仅有利于临床研究,也会向统计学提出挑战,促进了统计新方法的产生和发展。
参考文献
1.Huxsoll J F. Organization of Quality Assurance. In:Huxsoll J. F,ed. Quality Assurance for Biopharmaceuticals. New York:John Wiley and Sons,1994,2-13.
2.Therasse P A S G,Eisenhauer EA,Wanders J,et al. New guidelines to evaluate the response to treatment in solid tumors[see comments]. Journal of the National Cancer Institute,2000,92(3):205-16.
3.WHO. Assessment of fracture risk and its application to screening for postmenopausal osteoporosis:report of a WHO study group. Geneva:World Health Organization,1994.
4.Siris E. Alendronate in the treatment of osteoporosis:a review of the clinical trials. Journal of Womens Health & Gender-Based Medicine,2000,9(6):599-606.
5.Switula D. Principles of good clinical practice(GCP)in clinical research. Sci Eng Ethics,2000,6(1):71-77.
6.van Kuijk C. Good clinical practice in clinical trials:what does it mean for a radiology department? Radiology,1998,209(3):625-627.
7.Fuerst T,Lu Y,Hans D,et al. Quality assurance in bone densitometry. In:Genant H. K,Guglielmi G,Jergas M,eds. Bone Densitometry and Osteoporosis. Berlin Heidelberg New York:Springer-Verlag,1998,461-476.
8.Fraass B D K,Hunt M,Kutcher G,et al. American Association of Physicists in Medicine Radiation Therapy Committee Task Group 53:quality assurance for clinical radiotherapy treatment planning. Medical Physics,1998,25(10):1773-1829.
9.Laurila J S N C,Suramo I,Tolppanen E M,et al. The efficacy of a continuous quality improvement(CQI)method in a radiological department. Comparison with non-CQI control material. Act a Radiologica,2001,42(1):96-100.
10.Genant H,Wu C,van Kuijk C,et al. Vertebral fracture assessment using a semiquantitative technique. Journal of Bone and Mineral Research,1993,8(9):1137-48.
11.Gluer C,Blake G,Lu Y,et al. Accurate assessment of precision errors:how to measure the reproducibility of bone densitometry techniques. Osteoporosis International,1995,5:262-70.
12.Njeh C F,Nicholson P H F,Langton C M. The physics of ultrasound applied to bone. In:Njeh CF,Hans D,Fuerst T,Gluer C. C,Genant H. K,eds. Quantitative Ultrasound:Assessment of Osteoporosis and Bone Status. London:Martin Dunitz Ltd,1999,420.
13.Gluer C,Genant H. Impact of marrow fat on accuracy of quantitative CT. J. Comput Assist Tomogr,1989,13(6):1023-35.
14.Jergas M,Uffmann M. Basic considerations and definitions in bone densitometry. In:Genant H,Guglielmi G,Jergas M,eds. Bone densitometry and Osteoporosis. New York:Springer,1998,269-90.
15.Liu C Y,Zheng Z Y. Stabilization Coefficient to Random Variable. Biometrical Journal,1989,31(4):431-441.
16.Miller G. E. Asymptotic test statistics for coefficients of variation. Communication in Statistics-Theory and Methods,1991,20(10):3351-3363.
17.Feltz C J,Miller G E. An asymptotic test for the equality of coefficient of variation from k populations. Statistics in Medicine,1996,15:647-658.
18.Fung W K,Tsang T S. A simulation study comparing tests for the equality of coefficients of variation. Statistics in Medicine,1998,17:2003-2014.
19.Arenson R,Lu Y,Elliott S,et al. Measuring the academic radiologist’s clinical productivity:Survey Results for Subspecialty Sections. Academic Radiology,2001,8(6):524-532.
20.Efron B,Tibshirani R J. An Introduction to the Bootstrap. San Francisco:Chapman & Hall,1993.
21.Shao J,Tu D. The Jackknife and Bootstrap. New York:Springer-Verlag,1995.
22.Strike P W. Statistical Methods in Laboratory Medicine. Oxford:Butterworth-Heinemann Ltd,1991.
23.Quan H,Shih W. J. Assessing Reproducibility by the Within-Subject Coefficient of Variation with Random Effects Models. Biometrics,1996,52(4):1195-1203.
24.Miller C G,Herd R J,Ramalingam T,et al. Ultrasonic velocity measurements through the calcaneus:which velocity should be measured? Osteoporosis International,1993,3(1):31-5.
25.Blake G M,Fogelman I. Technical principles of dual x-ray absorptiometry. Semin Nucl Med,1997,27(3):210-28.
26.Carroll R J,Ruppert D,Stefanski LA. Measurement Error in Nonlinear Models. London:Chapman & Hall,1995.
27.Machado A,Hannon R,Henry Y,et al. Standardized coefficient of variation for dual x-ray absorptiometry(DXA),quantitative ultrasound(QUS)and markers of bone turnover(Abstract). Journal of Bone and Mineral Research,1997,12(Suppl. 1):S258.
28.Langton C M. ZSD:a universal parameter for precision in the ultrasonic assessment of osteoporosis. Physiol Meas,1997,18:67-72.
29.Cummings S R,Black D. Should perimenopausal women be screened for osteoporosis? Ann Intern Med,1986,104:817-823.
30.Glüer C. Monitoring skeletal changes by radiological techniques. Journal of Bone and Mineral Research,1999,14(11):1952-62.
31.Faulkner K M,M R. Quality control of DXA instruments in multicenter trials. Osteoporosis International,1995,5(4):218-27.
32.Kalender W,Felsenberg D,Genant H. K,et al. The European spine phantom-a tool for standardization and quality control in spine bone mineral measurements by DXA and Qct. Eur J Radiol,1995,20:83-92.
33.Anderson J W J,Clarke G D. Choice of phantom material and test protocols to determine radiation exposure rates for fluoroscopy. Radiographics,2000,20(4):1033-42.
34.Lu Y,Mathur A K,Blunt B A,et al. Dual X-ray absorptiometry quality control:comparison of visual examination and process-control charts. Journal of Bone and Mineral Research,1996,11(5):626-637.
35.Montgomery D C. Introduction to Statistical Quality Control. 2nd ed. New York:Wiley,1992.
36.Orwoll ES,Oviatt SK,Biddle JA. Precision of dual-energy x-ray absorptiometry:development of quality control rules and their application in longitudinal studies. Journal of Bone and Mineral Research,1993,8(6):693-699.
37.Jergas M,Genant H K. Current methods and recent advances in the diagnosis of osteoporosis. Arthrit Rheum,1993,36(12):1649-1662.
38.SAS/QC. User’s Guide(for SAS V8). Cary,N. CSAS Research Institute,2000.
39.Ryan TP. Statistical Methods For Quality Improvement. New York:Wiley,1989.
40.Pearson D C,S A. Long-term quality control of DXA:a comparison of Shewhart rules and Cusum charts. Osteoporosis International,1997,7(4):338-43.
41.Lu Y,Mathur AK,Gluer CC,et al. Application of statistical quality control method in multicenter osteoporosis clinical trials. International Conference on Statistical Methods and Statistical Computation for Quality and Productivity Improvement,Seoul,Korea,1995,474-480.
42.Wheeler D J. Shewhart’s Chart:Myths,Facts,and Competitors. 45th Annual Quality Congress Transactions:American Society for Quality Control,1991,533-538.
43.Johnson RA,Bagshaw M. The effect of serial correlation on the performance of CUSUM tests. Technometrics,1974,16:103-112.
44.Kaminsky FC,Maleyeff J,Providence S,et al. Using SPC(statistical process control)to analyze quality indicators in a healthcare organization. Journal of Healthcare Risk Management,1997,17(4):14-22.
45.Quesenberry CP. Statistical process control geometric Q-chart for nosocomial infection surveillance. American Journal of Infection Control,2000,28(4):314-20.
46.Thompson JR,Koronachi J. Statistical process control for quality improvement. New York:Chapman & Hall,1993.
47.Bland JM,Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet;1986,307-310.
48.Bland JM,Altman DG. Comparing two methods of clinical measurement:a personal history. International Journal of Epidemiology,1995,24(Suppl.1):S7-S14.
49.Bartko J J. General methodology II measures of agreement:a single procedure. Statistics in Medicine,1994,13:737-745.
50.Bradley E L,Blackwood L G. Comparing paired data:A simultaneous test of means and variances. The American Statistician,1989,43:234-235.
51.Lee J,Koh D,Ong C. N. Statistical evaluation of agreement between two methods for measuring a quantitative variable. Comput. Biol. Med,1989,19(61-70).
52.Fleiss J L,Shrout P E. Approximate interval estimation for a certain intraclass correlation coefficient. Psychometrika,1978,43:259-262.
53.Bland J M,Altman D G. A note on the use of the intraclass correlation coefficient in the evaluation of agreement between two methods of measurements. Comput. Biol. Med,1990,20(5):337-340.
54.Freedman L S,Parmar M K B,Baker S G. The design of observer agreement studies with binary assessments. Statistics in Medicine,1993,12:165-179.
55.Cohen J A. A coefficient of agreement for nominal scales. Educ. Psychol Meas,1960,20:37-46.
56.Fleiss J L,Cohen J,Everitt B S. Large-sample standard errors of kappa and weighted kappa. Psychological Bulletin,1969,72:323-327.
57.Kraemer H C. Extension of the kappa coefficient. Biometrics,1980,36:207-216.
58.Fleiss J L,Davies M. Jackknifing functions of multinomial frequencies,with an application to a measure of concordance. American Journal of Epidemiology,1982,115:841-845.
59.Garner J B. The standard error of Cohen’s Kappa. Statistics in Medicine,1991,10:767-775.
60.Blackman N. JM,Koval J. J. Interval estimation for Cohen’s kappa as a measure of agreement. Statistics in Medicine,2000,19:723-741.
61.Landis J R,Koch G G. The measurement of observer agreement for categorical data. Biometrics,1977,33:159-174.
62.Block DA,Kraemer HC.2×2 kappa coefficients:measures of agreement or association. Biometrics,1989,45:269-287.
63.Cohen J. Weighted Kappa:nominal scale agreement with provision for scaled disagreement or partial credit. Psycological Bulletin,1968,70(4):213-219.
64.Fleiss J. L. Statistical Methods for Rates and Proportions. 2nd ed. New York:Wiley. 1981.
65.Barlow W,Lai M Y,Azen S P. A comparison of methods for calculating a stratified Kappa. Statistics in Medicine,1991,10:1465-1472.
66.Donner A,Eliasziw M. A hierarchical approach to inferences concerning interobserver agreement for multinomial data. Statistics in Medicine,1997,16:1097-1106.
67.Kraemer H C,Bloch D A. A note on case-control sampling to estimate Kappa coefficients. Biometrics,1990,46(1):49-59.
68.Posner K L,Sampson P D,Caplan R A,et al. Measuring interrater reliability among multiple raters:an example of methods for nominal data. Statistics in Medicine,1990,9:1103-1115.
69.Oden NL. Estimating Kappa from binocular data. Statistics in Medicine,1991,10:1303-1311.
70.Shoukri M M,Martin S W. Maximum likelihood estimation of the Kappa coefficient from models of matched binary responses. Statistics in Medicine,1995,14:83-99.
71.Shoukri M M,Mian I U H. Maximum likelihood estimation of the Kappa coefficient from bivariate logistic regression. Statistics in Medicine,1996,1409-1419.
72.Agresti A. Modelling patterns of agreement and disagreement. Statistical Methods in Medical Research,1992,1:201-218.
73.Tanner M A,Young M A. Modeling agreement among raters. Journal of American Statistical Association,1985,80:175-180.
74.Aickin M. Maximum likelihood estimation of agreement in the constant predictive probability model,and its relation to Cohen’s kappa. Biometrics,1990,46:293-302.
75.Graham P. Modelling covariate effects in observer agreement studies:the case of nomial scale agreement. Statistics in Medicine,1995,14:299-310.
76.Guggenmoos Holzmann I,Vonk R. Kappa-like indices of observer agreement viewed from a latent class prespective. Statistics in Medicine,1998,17:797-812.
77.Baker S G,Freedman L S,Parmar M K B. Using replicate observations in observer agreement studies with binary assessments. Biometrics,1991,47(4):1327-1338.
78.Cheng CL,Van Ness J W. Statistical Regression with Measurement Error. London:Arnold,1999.
79.Barnett DV. Simultaneous pairwise linear structural relationships. Biometrics,1969,28:129-142.
80.Theobald C M,Mallinso JR. Comparative calibration,linear structural relationships and congeneric measurements. Biometrics,1978,34:39-45.
81.Fuller W A. Measurement Error Models. New York:Wiley,1987.
82.Dunn G. Design and analysis of reliability studies. NewYord:Oxford University Press,1989.
83.Kimura DK. Functional comparative calibration using EM algorithm. Biometrics,1992,48:1263-1271.
84.Lu Y,Ye K,Mathur A,et al. Comparative calibration without a gold standard. Statistics in Medicine,1997,16:1889-1905.
85.Lu Y,Ye K,Mathur AK,et al. Application of random effects models in comparative calibration. Proceedings of the Biometrics SeCTion of American Statistical Association,1997,170-176.
86.Hanson J. Standardization of femur BMD[letter]. Journal of Bone and Mineral Research,1997,12(8):1316-7.
87.Lu Y,Fuerst T,Hui S,et al. Standardization of bone mineral density at femoral neck,trochanter and Ward’s triangle. Osteoporosis International,2001,12:438-444.
88.Hui SL,Gao S,Zhou XH,et al. Universal standardization of bone density measurements:a method with optimal properties for calibration among several instruments. Journal of Bone and Mineral Research,1997,12(9):1463-1470.
作者简介
赵守军,博士,现为美国加州大学旧金山分校生物统计学专家。1982年毕业于山西医学院,1986年获山西医学院生物统计学硕士学位,1993年获上海医科大学流行病学博士学位。曾任上海医科大学流行病学副教授,参与国家八五、九五攻关项目甲、乙型肝炎和出血热的研究,2000年获国家科技进步二等奖。曾在加州大学旧金山分校放射医学系做过博士后研究。现负责医学研究数据的统计学工作,包括临床试验设计、质量控制、大规模医学数据库的管理与分析。主要兴趣为传染病数学模型、多元统计模型应用以及诊断统计方法等。
颜杰,现为广东出入境检验检疫局高级统计师。1991年毕业于西南大学计算机学系,1998年获第三军医大学医学统计学硕士学位。1998—2001年在第三军医大学担任统计学讲师,2001—2003年在中山医科大学担任统计学讲师。主要兴趣为统计学实用技术和大数据分析。