当前位置:科学 > 正文

R中使用Dplyr重命名以及一个老套的回归模型|全球热议

2023-03-31 22:04:10  来源:哇松鼠君


(相关资料图)

同样来自哥大的工程课程machine learning,这是一堂由IBM的首席研究员讲授的机器学习课程。

头图是谐音烂梗,2017年学校附近的小破电影院重映了Emma Watson的 Regression(中文叫做回溯迷踪,电影老套又平庸),我们这次使用的模型也叫做Regression。。。

背景:研究即将接受根治性前列腺切除术的男性前列腺特异性抗原水平与一些临床指标之间的相关性 (拜托,这种数据超硬核的好不好)。

该数据集来自斯坦福大学的Stamey et al. (1989)

data:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data

description:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt

变量包括对数癌症体积(lcavol)、对数前列腺重量(lweight)、年龄、良性前列腺增生量(lbph)、精囊浸润(svi)、包膜穿透率(lcp)、Gleason评分(Gleason)和Gleason分数4或5的百分比(pgg45)。(注意:svi是一个二元变量,gleason是一个有序分类变量)

现在让我们扩充第2到9列的数据,因为第一列是观测ID没啥意义,第10列是“训练集”标识也没啥意义。我们现在需要将数据进行组合,以生成合格的训练和测试数据集。

要小心,因为R的Dply包中的重命名函数很容易出错。我们需要给组合的列9一个名称,使其成为我们的因变量。当我们将数据集组合为data frame这一格式时,名称“V9”自动分配给第9列,这还挺方便。

如果我们跳过函数“as.data.frame”,则列9没有名称(null),Dply的重命名函数将崩溃。后续就是老套的回归训练啦,这里不做展开。

关键词:

推荐阅读

黑芝麻产地在哪里 黑芝麻的生长环境介绍

黑芝麻产地在哪里1 黑芝麻的起源说到黑芝麻的起源,必然离不开江西。江西是继河南,湖北、安徽之后的中国第四大芝麻主产区。它是中国第一大 【详细】

光刻机上市公司 荷兰的光刻机是最好的为什么?

光刻机上市公司1 ABMABM公司成立于1986年,总部设在美国硅谷San Jose,主要经营掩模对准曝光机(光刻机),单独曝光系统,光强计 探针,该公 【详细】

长江源头在哪里?长江的主要支流介绍

长江源头在哪里?1 长江的源头位于青藏高原腹部,其源头主要包括沱沱河、当曲河和楚玛尔河,其中沱沱河是长江的正源头,全长358公里,发源于 【详细】

玉米历史介绍 玉米什么时候传入中国

玉米历史介绍玉米原产美洲,据《饮食须知》(1367年左右)记载,说到玉蜀黍,加上元朝尚食局(元朝朝廷管理皇帝饮食的专门机构)有御麦面,认为 【详细】

垃圾短信电话号码如何举报?12321官网简介

垃圾短信电话号码如何举报?网页版:搜索12321进入百度不良网络和垃圾短信处理官网。然后选择左边的举报短信进入短信举报界面。然后填写里面 【详细】

相关新闻

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有