SAS处理数据的三个重要步骤
STEP1:Examining Data for Analysis检查数据
这是数据处理最重要的部分,因为异常值会影响到处理结果并误导你。所有在使用复杂数据分析步之前,需检查数据。
首先,
#Getting to konw data
Proc contents data=mydata; run;
使用contents过程步,可获得数据集名及其保存位置,数据创建时间和最后修改时间,变量数和类型;
然后,
#Examination of numeric variables
Proc univariate data=mydata plot; var height; ID family; run;
本过程步提供了数值变量最完整的信息:检验变量分布;描述统计;显示极端观测;绘制分布图。 plot选项提供了茎叶图、盒子图和正态分布图,可视化检查数据。
#Examination of character/discrete variables离散变量检查语句:
Proc freq data=mydata ; table block family/out=FreqTable nocol norow nocum nopercent; run;
最后,
#Data Summary
Proc means data=hbook.mydata mean std cv n maxdec=2; var Height diameter; run;
本语句提供数据汇总功能,在排除异常值后,以手里的数据做个全面的了解。
STEP2:推断统计
经过第一步预处理,可保证数据通过正态检验和齐次性检验。
#analysis of variance
Proc Anova; Proc GLM; Proc MIXED
上面的三个语句功能各异,均用于进行方差分析。Proc MIXED国内用的较少,外文期刊常能见到。
#Correlation and regression
Proc corr; Proc Reg; Proc nlin;
上面两个语句用于计算相关系数和回归方程,以及线性和非线性拟合
STEP3:Plotting
参考:
http://blog.sina.com.cn/s/blog_7dc56e6e0100qxjs.html
- 上一篇: 从零开始搭建vue开发环境
- 下一篇: PHP 求两个字符串的最长公共子串