1、选取数据集并整理。将因变量转化为二分类变量。回归分析要求自变量为数值型变量,如果自变量中有分类数据,则要转化为哑变量后再作分析。这里以R软件中ggplot程序包中的diamonds数据集为例,来说明Logistic的实现过程。diamonds$cut 为原来的因变量,转换为二分类变量diamonds$Logistic_y。
2、随机选取原始数据的70%作为训练集,另外30%作为测试集。
3、建立逻辑回归模型并运算。Logistic回归模型是广义线性模型glm的一种,参数为binomial。从结果可知,carat、depth、table、price四个变量都很显著。
4、模型解释。以price为例,参数值9.999172e-01表示在其他变量不变的情况下,price每增加一个单位,logistic_y的优势比将乘以9.999172e-01。
5、模型给出的Logistic_y的预测值为一个概率值。这里做一个二分类的转换。
6、准确率的计算。将预测正确的数量除以总数,得到准确率为72.72%。因为训练样本是随机抽取的,因此每次的计算结果可能会不同。
7、模型绛嗪托钪评价,ROC曲线。ROC图的横坐标表示所有确实为“假”的样本中,被误判真的样本率。ROC纵坐标指在所有确实为真的样本中,被判为的“真”的占比。该曲线越靠近左上角,模型越优。AUC为ROC曲线下方所包围的面积,面积越大,分类效果越好。