5.2.4 字符处理函数
字符处理函数可以从文本型数据中抽取信息,或者为打印输出和生成报告重设文本格式。
zf <- c("nitrogen", "agriculture") # 创建一个字符型变量。
nchar(zf) # 返回变量的字符数量。nitrogen由8个字母组成,返回值为8。复制
## [1] 8 11
复制
length(zf) # 注意length函数返回的是变量包含的个数,而nchar则是数据集每个变量的字符个数。
复制
## [1] 2
复制
grep("n",zf) # 判断字母“n”是否包含在字符变量zf中,因为n包含在zf中的第1个元素nitrogen,而第2个元素agriculture中没有n,所以返回下标1。
复制
## [1] 1
复制
sub("n", "5", "nitrogen") # 将zf中的小写字母n替换为大写字母N。注意sub只替换匹配的第一个。这个例子中末尾也有一个“n”,但是第一个匹配的是首字母n。
复制
## [1] "5itrogen"
复制
gsub("n", "5", "nitrogen") # gsub("目标字符", "替换字符", 对象),将nitrogen中的n替换为5。gsub是所有满足条件的都替换。
复制
## [1] "5itroge5"
复制
chartr("n", "5", "nitrogen") # 将nitrogen中的n替换成5。chartr(old,new,x),其中,old表示原有字符串内容,new为替换后的字符串内容,x表示要操作的对象。
复制
## [1] "5itroge5"
复制
strsplit('nitrogen','') # 分割字符变量nitrogen,分割方式为''。
复制
## [[1]]
## [1] "n" "i" "t" "r" "o" "g" "e" "n"复制
paste("nitrogen", 1:8, sep = "-") # 将nitrogen与1到8连接,连接符为-。
复制
## [1] "nitrogen-1" "nitrogen-2" "nitrogen-3" "nitrogen-4" "nitrogen-5"
## [6] "nitrogen-6" "nitrogen-7" "nitrogen-8"复制
paste("nitrogen", "level") # paste函数连接nitrogen和level,paste函数连接默认分割符为空格。
复制
## [1] "nitrogen level"
复制
paste0("nitrogen", "level") # paste0函数连接nitrogen和level,paste0函数连接默认分割符为空。
复制
## [1] "nitrogenlevel"
复制
toupper("nitrogen") # 将字符变量nitrogen转为大写。
复制
## [1] "NITROGEN"
复制
tolower("NITROGEN") # 将字符变量NITROGEN转为小写。
复制
## [1] "nitrogen"
复制
casefold("nitrogen", upper = T) # 将nitrogen转为大写。
复制
## [1] "NITROGEN"
复制
substr(zf, 4, 8) # 提取字符向量zf从第4到第8的字符。
复制
## [1] "rogen" "icult"
复制
substr(zf, 4, 8) <- "12345" # 替换字符向量中元素4到8的字符为12345。
zf # 返回替换结果。复制
## [1] "nit12345" "agr12345ure"
复制
substr("nitrogen", 1, 6) # 提取字符变量1到6的字母。
复制
## [1] "nitrog"
复制
substring("nitrogen", 1, 6) # 作用同上。当substr和substring的起始和结束参数为整数时,两函数运行结果相同。
复制
## [1] "nitrog"
复制
substring("nitrogen",1) # substring函数不指定结束参数的话,默认为最大。
复制
## [1] "nitrogen"
复制
substr("nitrogen", 1:4, 4:8) # substr返回的字符串个数是第一个参数的长度。
复制
## [1] "nitr"
复制
substring("nitrogen", 1:4, 4:8) # substring返回3个参数中最长的向量长度。短向量循环。
复制
## [1] "nitr" "itro" "trog" "roge" "nitrogen"
复制
5.2.5 其他实用函数
length(zf) # 返回对象长度。
复制
## [1] 2
复制
seq(1,10,2) # 生成序列,从1到10的数,间隔2。
复制
## [1] 1 3 5 7 9
复制
rep(5,10) # 将5重复10次。
复制
## [1] 5 5 5 5 5 5 5 5 5 5
复制
cut(1:12, 3) # 将1到12的数分割成3个水平的因子。
复制
## [1] (0.989,4.67] (0.989,4.67] (0.989,4.67] (0.989,4.67] (4.67,8.33]
## [6] (4.67,8.33] (4.67,8.33] (4.67,8.33] (8.33,12] (8.33,12]
## [11] (8.33,12] (8.33,12]
## Levels: (0.989,4.67] (4.67,8.33] (8.33,12]复制
pretty(1:12, 4) # 将1到12的数分割为4个区间。
复制
## [1] 0 2 4 6 8 10 12
复制
cat("I","am studying", "\n", "\'","R","\'") # 连接对象,\n表示新行,\t为制表符,\'为单引号,\b为退格,等等。键入?Quotes以了解更多。
复制
## I am studying
## ' R '复制
data.frame(v1 = seq(1,12,2), v2 = rep(c(1,2,3),2)) # 利用seq和rep来构建一个数据框。
复制
## v1 v2
## 1 1 1
## 2 3 2
## 3 5 3
## 4 7 1
## 5 9 2
## 6 11 3复制
参考资料:
1. 《R语言实战》(中文版),人民邮电出版社,2013.
2. R语言中的字符处理函数,http://www.360doc.com/content/19/0730/13/19913717_851861764.shtml
文章转载自ZJH的学习笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
【专家有话说第五期】在不同年龄段,DBA应该怎样规划自己的职业发展?
墨天轮编辑部
1295次阅读
2025-03-13 11:40:53
【专家观点】罗敏:从理论到真实SQL,感受DeepSeek如何做性能优化
墨天轮编辑部
1279次阅读
2025-03-06 16:45:38
2025年2月国产数据库大事记
墨天轮编辑部
1008次阅读
2025-03-05 12:27:34
2025年2月国产数据库中标情况一览:GoldenDB 3500+万!达梦近千万!
通讯员
890次阅读
2025-03-06 11:40:20
2月“墨力原创作者计划”获奖名单公布
墨天轮编辑部
457次阅读
2025-03-13 14:38:19
AI的优化能力,取决于你问问题的能力!
潇湘秦
431次阅读
2025-03-11 11:18:22
优炫数据库成功应用于国家电投集团青海海南州新能源电厂!
优炫软件
343次阅读
2025-03-21 10:34:08
达梦数据与法本信息签署战略合作协议
达梦数据
294次阅读
2025-03-06 09:26:57
国产化+性能王炸!这套国产方案让 3.5T 数据 5 小时“无感搬家”
YMatrix
278次阅读
2025-03-13 09:51:26
磐维数据库对外门户全新升级!
磐维数据库
244次阅读
2025-03-04 15:32:59