1、获取数据集。这里以MASS软件包中的Insurance数据集为例。data(Insurance) #获取数据集。如果没有则需要先安装MASS。dim(Insurance) #查看数据集维度head(Insurance) #查看数据前若干行
2、查看数据集的属性列表。attributes(Insurance)结果中展示了数据集中各变量的名称、数据集格式、数据集的行名称。
3、探索数据集的内部结构。str(Insurance)从结果中可以看出Insurance数据集共有64个观测值、5个变量,其中Distric为定性数据,Group、Age为定序数据,Holders和Claims为整数形定量数据。
4、查看各变量的统计指标值。summary(Insurance)结果中可以看到定性数据的各类取值频数,以及定量数据的四分位点数据。
5、利用Hmisc软件包中的describe函数查看变量详情。install.packages("Hmisc")library(Hmisc) #安装并加载Hmisc软件包describe(Insurance) #变量的描述统计结果中可以看到各个定性变量的总观测值个数、缺失个数、水平个数,以及每个水平下的频数和频率;定量变量则显示了0.05到0.95的一系列分位数取值,以及频率最高和最低的5个水平值。
6、利用fBasics软件包中的basicStats函数查看数据集信息。install.packages("fBasics")library(fBasics) #安装并加载软件包basicStats(Insurance[,4:5]) #获取数据集的各定量变量统计信息可以看出,该函数给出了峰度、偏度等分布指标结果。