R中使用Dplyr重命名以及一个老套的回归模型|全球热议

(相关资料图)

同样来自哥大的工程课程machine learning，这是一堂由IBM的首席研究员讲授的机器学习课程。

头图是谐音烂梗，2017年学校附近的小破电影院重映了Emma Watson的 Regression(中文叫做回溯迷踪，电影老套又平庸)，我们这次使用的模型也叫做Regression。。。

背景：研究即将接受根治性前列腺切除术的男性前列腺特异性抗原水平与一些临床指标之间的相关性（拜托，这种数据超硬核的好不好）。

该数据集来自斯坦福大学的Stamey et al. (1989)

data：https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data

description：https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt

变量包括对数癌症体积（lcavol）、对数前列腺重量（lweight）、年龄、良性前列腺增生量（lbph）、精囊浸润（svi）、包膜穿透率（lcp）、Gleason评分（Gleason）和Gleason分数4或5的百分比（pgg45）。（注意：svi是一个二元变量，gleason是一个有序分类变量）

现在让我们扩充第2到9列的数据，因为第一列是观测ID没啥意义，第10列是“训练集”标识也没啥意义。我们现在需要将数据进行组合，以生成合格的训练和测试数据集。

要小心，因为R的Dply包中的重命名函数很容易出错。我们需要给组合的列9一个名称，使其成为我们的因变量。当我们将数据集组合为data frame这一格式时，名称“V9”自动分配给第9列，这还挺方便。

如果我们跳过函数“as.data.frame”，则列9没有名称（null），Dply的重命名函数将崩溃。后续就是老套的回归训练啦，这里不做展开。

关键词：

R中使用Dplyr重命名以及一个老套的回归模型|全球热议

推荐阅读

黑芝麻产地在哪里黑芝麻的生长环境介绍

光刻机上市公司荷兰的光刻机是最好的为什么?

长江源头在哪里?长江的主要支流介绍

玉米历史介绍玉米什么时候传入中国

垃圾短信电话号码如何举报?12321官网简介

相关新闻

新闻

热点

资讯

R中使用Dplyr重命名以及一个老套的回归模型|全球热议

推荐阅读

黑芝麻产地在哪里 黑芝麻的生长环境介绍

光刻机上市公司 荷兰的光刻机是最好的为什么?

长江源头在哪里?长江的主要支流介绍

玉米历史介绍 玉米什么时候传入中国

垃圾短信电话号码如何举报?12321官网简介

相关新闻

新闻

热点

资讯

黑芝麻产地在哪里黑芝麻的生长环境介绍

光刻机上市公司荷兰的光刻机是最好的为什么?

玉米历史介绍玉米什么时候传入中国