投稿问答最小化  关闭

万维书刊APP下载

R语言|数据清洗基础2(列名称)

2023/5/8 17:23:28  阅读:97 发布者:

列名称通常用的比较频繁,因此需要合理命名方便使用,注意以下几个原则:

简短

无空格,可以替换为下划线_

没有不常用字符

类似风格命名法(例如,date_onsetdate_reportdate_death

自动清理

#导入数据

library(haven)

library(expss)

spss_data = haven::read_spss("D:/data.sav")

install.packages('janitor')

library(janitor)

names(data)#查看列名称(变量名)

# pipe the raw dataset through the function clean_names(), assign result as "data1"  

data1 <- data %>%

  janitor::clean_names()#自动清理

# see the new column names

names(data1 )#查看列名称(变量名)

可以看到自动清理前后列名称的不同。

手动清理

library(dplyr)

data2 <- data %>%

  

  # standardize column name syntax

  janitor::clean_names() %>%

  

  # manually re-name columns

                # NEW name # OLD name

           rename(par_type= xrtype ,

                  gender = xrgender)

names(data2)

#按照位置重命名

data2 <- data %>%

  

  # standardize column name syntax

  janitor::clean_names() %>%

  

  # manually re-name columns

  # NEW name # OLD name

rename(newNameForFirstColumn  = 1,

       newNameForSecondColumn = 2)

names(data2)

#通过 select() summarise()重命名

names(data)

#重命名并且仅保留重命名的列

data %>%

  select(# NEW name             # OLD name

    community_id     = `communityID`,    # rename and KEEP ONLY these columns

    par_type = `xrtype`)

参考文献

https://epirhandbook.com/en/cleaning-data-and-core-functions.html

转自:“科研写作成长记”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com