欢迎关注,SAS茶谈!
在临床试验中,样本率作为试验有效性终点的情形,并不少见。在这种情况下,除了需要计算样本率之外,一般还需要计算率对应的95%可信区间。
这篇文章介绍,如何利用SAS输出样本率的可信区间,文章末尾附有精确概率法(Clopper-Pearson method)计算可信区间的完整代码。
1. 率的计算
率,指在一定范围内某现象实际发生数 与 可能发生该现象的总数之比,常用于说明某现象发生的频率或强度。
计算率的数据为分类资料。通常为二分类资料,例如,生存和死亡,发病与不发病等。当然,也会遇到多分类资料,例如肿瘤试验中CR、PR、PD与SD。
对于多分类资料,通?;嶙掷嘧柿辖写?,例如,CR和PR转化为缓解,PD和SD转化为未缓解。
如果不将多分类数据转化为二分类,SAS中也有选项指定用于计数的那一个分类。不过,SAS选项无法处理多个分类合并成单个分类的情况,对于这种情况还是需要转化为二分类数据。具体实现细节,这里就不赘述。
2. 率的可信区间
参考《医学统计学》(第三版,陆守曾、陈峰主编),计算率的可信区间常用2种方法,正态近似法和精确概率法。
正态近似法,也称Wald Confidence Limits。当样本量n足够大,且样本率 p 和 (1-p) 都不太小时,如np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布。具体公式介绍可以参考SAS文档,SAS Help Center: Wald Confidence Limits。
精确概率法,也称Exact (Clopper-Pearson) Confidence Limits。当样本量太少时,使用正态近似法计算的可信区间范围可能超过[0, 1],这样的结果显然是错误的。在这种情况下,应使用精确概率法。Clopper和Pearson于1934年提出了这种方法,具体公式介绍可以参考SAS文档,SAS Help Center: Exact (Clopper-Pearson) Confidence Limits。
SAS默认输出以上2种可信区间。
在临床试验统计分析中,率的可信区间一般都要求使用精确概率法 (Clopper-Pearson method)。
3. 率的可信区间的SAS实现
3.1 基础实现
我以《医学统计学》中的例题为例,进行演示,该例题应用的是正态近似法:
通过题干可以知晓,抽取的144人中,阳性人数为13,阴性人数为131,构建数据集如下,0表示阳性,1表示阴性:
data tmp1;
do i = 1 to 13;
aval = 0;
output;
end;
do i = 1 to 131;
aval = 1;
output;
end;
drop i;
run;
在SAS中计算率的可信区间,使用的是FREQ过程步中,tables
语句中的binomial
选项,默认输出Wald和Exact可信区间。
proc freq data = tmp1;
table aval/ binomial;
run;
运行的结果如下,其中Wald可信区间与教科书中正态近似法的结果一致。
也可以通过binomial
选项中的子选项cl =
,控制输出具体的可信区间:
proc freq data = tmp1;
table aval/ binomial(cl = wald exact);
run;
结果与默认输出一致:
3.2 指定用于计数的分类(level =
)
从上面输出结果可以看出,率的计算都是基于aval = 0
。这是因为Freq过程步计算率时,都是以默认排序排在首位的那一类别进行计算的。这时候,如果想要计算“阴性率”的可信区间,如何处理呢?
简单直接的方法是,用0来表示阴性、1来表示阳性,这样FREQ默认输出就是“阴性率”的可信区间,具体代码不再举例。
另一个方法,就是使用binomial
中的level =
选项,指定需要计数的那一个类别。level =
选项,后面可以接数字,表示指定分类的位序;也可以接字符,表示指定分类的名称。
例题中的“阴性率”可以这样实现:
**level = level-number;
proc freq data = tmp1;
table aval/ binomial(cl = wald exact level = 2);
run;
**level = "level-value";
proc freq data = tmp1;
table aval/ binomial(cl = wald exact level = "1");
run;
上面两段代码输出结果相同,都是使用 aval = 1作为计数的分类。不过,在应用时,建议使用字符名称,因为位序数字可能与变量值相同,因而造成误导。
3.3 分类缺失,如何处理?(Weight
)
如果收集到的数据,阳性率为0,即数据集中aval的值全部为1。这种情况下阳性率的可信区间如何计算?
data tmp2;
do i = 1 to 144;
aval = 1;
output;
end;
drop i;
run;
因为原始数据中并没有aval=0这一取值,所以需要一种方法把“分类 0”表示出来。
这个可以依靠频数计数的方法实现。
频数计数时,需要补全缺失类别,可以通过Means过程步preloadfmt
选项,也可以通过Dummy数据集的方法实现,具体可以参考:SAS编程:频数汇总时如何处理分析分组种类不全的情况?。
推荐使用preloadfmt
选项:
proc format;
value aval
0 = 0
1 = 1
;
run;
proc means data = tmp2 nway completetypes;
format aval aval.;
class aval / preloadfmt order = data;
var aval;
output n = count out = count(drop = _:);
run;
结果如下:
整理成频数表的形式之后,“分类 0”就表示出来了。然后,通过Weight
语句将计数的Count变量作为FREQ过程步分析时的权重。
这里有一点要注意,FREQ过程步,也是默认忽略频数为0 的类别,若将其纳入分析需要使用zeros
选项,即weigth count / zeros;
, 具体参考SAS Help Center: WEIGHT Statement。
proc freq data = count;
table aval/ binomial(cl = wald exact level = "0");
weight count / zeros;
run;
结果如下:
这样,即便缺失、样本率为0的类别,也是可以计算出可信区间的。
4. 可信区间输出到数据集
以上计算的可信区间结果都是输出到SAS Results界面,而为了生成Efficacy Table,需要将可信区间结果输出到数据集中。
过程步运行结果输出到数据集,通常有两种做法。第一,在过程步中,使用Output
语句;第二,使用ods
语句进行输出。两者输出结果的展现形式,略有不同。
4.1 Output
语句
为了输出tables
语句中的binomial
选项的结果,output
语句中,也需要添加选项binomial
。具体语法参考SAS Help Center: OUTPUT Statement。
proc freq data = count;
tables aval/ binomial(cl = exact level = "0");
weight count / zeros;
output out = cl binomial;
run;
输出的数据集和Results的如下:
数据集中红色方框里的两个变量,就是对应可信区间的上下限,小数位数保留略有不同。每个变量的Label都会描述变量的含义,很容易辨识。与Result内容相比,Ouput语句输出的数值没有Format,以原始数据的形式进行展示。
4.2 ods output
语句
SAS过程步输出到Results中的内容,都是有具体的名称,可以通过ods output
将具体名称的内容输出到数据集。
查看Results内容的具体名称,通常也有2种方式。
第一,从SAS官方文档中查询。例如,FREQ过程步中,对应的binomial
选项输出内容名称如下(来源:SAS Help Center: ODS Table Names)
第二,也可以用ods trance on;
进行查询输出内容的名称。
ods trace on ;
proc freq data = count;
tables aval/ binomial(cl = exact level = "0");
weight count / zeros;
run;
ods trace off;
以上程序运行之后,就可以从Log中查看Results中输出内容的名称:
知晓内容名称后,就可以使用ods output
将对应内容输出到数据集:
*ods trace on ;
ods output BinomialCLs = cl;
proc freq data = count;
tables aval/ binomial(cl = exact level = "0");
weight count / zeros;
run;
ods output close;
*ods trace off;
运行结果如下,上下限的数值以6.4
的Format进行展示,与Results中显示一致。
输出到数据集之后,具体如何处理成Table中的显示,这里就不过多讲了。
最后,附上用于计算精确概率法可信区间的完整代码:
**Raw data, 0=Positive, 1=negative;
data tmp;
do i = 1 to 13;
aval = 0;
output;
end;
do i = 1 to 131;
aval = 1;
output;
end;
drop i;
run;
**Count frequency;
proc format;
value aval
0 = 0
1 = 1
;
run;
proc means data = tmp nway completetypes;
format aval aval.;
class aval / preloadfmt order = data;
var aval;
output n = count out = count(drop = _:);
run;
**Get exact 95% CI for the proportion of positive;
*ods trace on ;
ods output BinomialCLs = cl;
proc freq data = count;
tables aval/ binomial(cl = exact level = "0");
weight count / zeros;
run;
ods output close;
*ods trace off;
总结
以上就是SAS中获取率的可信区间的所有过程,文章先是介绍率以及率对应的可信区间,接着介绍SAS中实现过程。SAS编程中需要考虑,计数分类的指定,以及计数分类缺失的处理。最后,介绍将过程步计算的结果输出到SAS数据集的2种方式。
临床试验中通常会涉及多个试验组,实际应用可能还需要使用By
语句进行分组处理。对应的Means过程步中,试验组作为分组变量也需要preloadfmt
选项补全可能缺失的分组,这里不进一步补充了。
若试验组涉及汇总组的处理,可以参考SAS编程:生成Table时,汇总组(Total)组如何处理?,这里也不进一步探讨。
感谢阅读, 欢迎关注:SAS茶谈!
若有疑问,欢迎评论交流!