R中的数据结构(Array,Factor,List,DataFrame)
#一维数组 x1 <- 1:5; x2 <- c(1,3,5,7,9) x3 <- array(c(2, 4, 6, 8, 10)) #多维数组 xs <- array(1:24, dim=c(3,4,2)) #访问 x1[3] x2[c(1,3,5)] x3[3:5] xs[2, 2, 2] xs[2, 2, 1] #增加 x1[6] <- 6 x2[c(7, 9, 11)] <- c(11, 13, 15) #动态增加 x1[length(x1) + 1] <- length(x1) + 1 append(x2, 17) x2 <- append(x2, 17) #修改,凡是能够访问到的地方,都可以修改 x1[3] <- 30 #删除,凡是能够访问到的地方,都可以删除 x1[-3] x1 <- x1[-3] #查找/过滤 x1[x1 >= 4]
Factor因子
因子用来存储类别变量和有序变量,这类变量不能用来计算,只能用来分类或者计数。
因子(Factor):因子表示分类变量
有序因子(odered factor):有序因子表示有序变量。
#读取学生成绩的数据
data <- read.csv("1.csv", fileEncoding="utf8");
#查看数
data
#查看第一列数据
data[, 1]
#把第一列数据转换为分类结构
data[, 1] <- factor(data[, 1]);
#查看第一列数据
data[, 1]
#作用一、统一映射为另一个标签数据
data[, 1] <- factor(
data[, 1],
labels=c("三年一班", "三年二班", "三年三班")
);
#查看第一列数据
data[, 1]
#作用二、处理异常数据
data <- read.csv("2.csv", fileEncoding="utf8");
data
data[, 1] <- factor(
data[, 1],
levels=c(1, 2, 3),
labels=c("三年一班", "三年二班", "三年三班")
);
data
#转换成字符向量
as.vector(data[, 1])
#转换成数字向量
as.numeric(data[, 1])
#连续变量的离散化
score <- data[,3]
#切分成3组
score1 <- cut(score, breaks = 3)
table(score1)
#切分成自己设置的组
score2 <- cut(score, breaks = c(90, 100, 110, 120, 130, 140))
table(score2)
#一个有序因子
scoreOrder <- ordered(
score2,
labels = c("bad", "ok", "average", "good", "excellent")
)
scoreOrder
table(scoreOrder)
#可排序的离散分类结构
data <- read.csv("1.csv", fileEncoding="utf8");
data[, 1] <- ordered(
data[, 1],
levels=c(1, 3, 2),
labels=c("三年一班", "三年三班", "三年二班")
);
table(data[, 1])
data[order(data[, 1]),]
data <- read.csv("1.csv", fileEncoding="utf8", stringsAsFactors=FALSE);
data[, 2]
数组的元素要求是同类型(不同类型会转成同一类型),List则可以组合多种不同类型的对象。一个List就像是一个JSON,一个包含很多键值对的数据结构。
#一、list的创建方式:
#1、无tag的方式:
j<-list("Joe", 55000, T)
#2、带tag的方式:
j<-list(name="Joe", salary=55000, union=T)
#二、list中元素的访问:
#1、list_name$tag_name
j$name
j$salary
j$union
#2、list_name[[tag_name]]
j[["name"]]
j[["salary"]]
j[["union"]]
#3、list_name[[index]]
j[[1]]
j[[2]]
j[[3]]
#4、如果按照数组的访问方式,返回的是一个list
j[2]
j[2]$salary
#5、访问标签
labels(j)
labels(j[2])
#6、一次只能访问一个位置
list[1:2]
list[[1:2]]
#Error in list[[1:2]] : object of type "builtin" is not subsettable
#三、修改list
#1、增加,可以访问的地方,都可以增加
j$sex <- "男"
j[5] <- 173
#2、修改,同理,可以访问的地方,都可以修改
j$salary <- j$salary+j$salary*0.08
#3、删除,把可以访问的地方,设置为NULL,即为删除,
#注意,删除之后,它后面的位置索引都自动减一
j$sex <- NULL;
j
#四、检索
j=="Joe"
#五、查看长度
length(j)
数据框用于存储多行和多列的数据集合。可以把数据框理解为excel中的列。
#定义数据框
age <- c(21, 22, 23)
name <- c("KEN", "John", "JIMI")
f <- data.frame(age, name);
f
#如果列没有内容,列定义是不成功的
df <- data.frame(age=c(), name=c())
df <- c(1, 2)
#可以先赋值为NA值
df <- data.frame(age=c(NA), name=c(NA))
#数据框的变量名[行位置 , 列位置]
f[1,1]
f[,1]
f[1,]
#修改列名
names(f)
names(f) <- c("age2", "name2")
f
colnames(f)
names(f)[2] <- "name2"
#如果不知道列序号,只是知道列名,如何修改某一列呢?
names(f)[names(f)=="name"] <- "name2"
#修改行名
row.names(f)
row.names(f) <- 0:2
f
#删除行
f[-1,]
f
#注意,删除后的DataFrame需要一个变量来接收,并不会直接修改原来的
nf <- f[-1, ]
nf
f <- f[-1, ]
#删除列
f[, -1]
f
nf <- f[, -1]
nf
#增加行
f[nrow(f)+1, ] <- c(24, "KENKEN")
f
#增加列
f[, "sex"] <- c(0, 1, 1);
f
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。
