1.条件与循环语句
- 条件语句
if
语句形式
if (condition) {
expr
} else if (condition){
}
...
else {
}
例子:
num_views <- 14
# Control structure for num_views
if (num_views > 15) {
print("You're popular!")
}else{
print("Try to be more visible!")
}
ifelse
> ifelse(2>1,'haha','zzzz')
[1] haha
switch
switch相当于一个函数,而且这个函数第一个表达式只能是字符类型。
> name <- 'john'
> switch(name,john = 'Hello John', zeus = 'Hello zeus','Hello')
[1] Hello John
上面name要寻找到与其匹配的变量名就会返回等号后面的表达式,如果匹配到变量名而等号后没有值,那就会就从后面一个表达式返回。如果没有变量名的表达式,就是默认值,不允许有两个默认值。
> switch(name,john = , zeus = 'Hello zeus','Hello')
[1] "Hello zeus"
一个小例子,根据factor变量输出:
> sex <- factor(c('M','F'))
> switch(as.character(sex[1]),M = 'male',F = 'female')
[1] male
这个例子里面需要把factor变量就行类型转换,否则会报错。
- 循环语句
while
x <- 10
while(i>0){
print('Hello')
x <- i - 1
}
for
for(i in 1:10){
}
2.factor
factor有人翻译成因子,根据语法这有点类似c语言中的枚举,这里就不翻译了。在数据中某些字段自会是一些可选字段中的某个值,那么就可以用factor,比如说人的性别就可以用factor。
- 建立factor
> gender_vector <- c("Male", "Female", "Female", "Male", "Male")
> factor_gender_vector <-factor(gender_vector)
> factor_gender_vector
[1] Male Female Female Male Male
Levels: Female Male
> mode(factor_gender_vector)
[1] "numeric"
上面的测试可以看出factor变量其实是个数值类型。
- 有序
对于factor类型的变量,可以有序也可以无序。上面的例子中性别就是无序的,如果考虑温度的低、中、高的问题,那么factor就是有序的。
> temperature_vector <- c("High", "Low", "High","Low", "Medium")
> factor_temperature_vector <- factor(temperature_vector, order = TRUE, levels = c("Low", "Medium", "High"))
> factor_temperature_vector
[1] High Low High Low Medium
Levels: Low < Medium < High
- 修改名称
> survey_vector <- c("M", "F", "F", "M", "M")
> factor_survey_vector <- factor(survey_vector)
> factor_survey_vector
[1] M F F M M
Levels: F M
上面的示例代码自动生成的factor是F
,M
,显然我们可以把它改成更有意义的名字。
> levels(factor_survey_vector) <- c('女','男')
> factor_survey_vector
[1] 男 女 女 男 男
Levels: 女 男
- 查看变量信息
> mode(factor_survey_vector)
[1] "numeric"
> summary(factor_survey_vector)
Female Male
2 3
> summary(survey_vector)
Length Class Mode
5 character character
mode
查看数据类型,summary
查看数据信息。
3. DataFrame
DataFrame
类似于数据库中的表或者是pandas中的DataFrame。
- 查看数据
> head(mtcars)#从头列出部分数据
> str(mtcars)#查看数据信息
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
- 创建DataFrame
# Definition of vectors
name <- c("Mercury", "Venus", "Earth", "Mars", "Jupiter", "Saturn", "Uranus", "Neptune")
type <- c("Terrestrial planet", "Terrestrial planet", "Terrestrial planet",
"Terrestrial planet", "Gas giant", "Gas giant", "Gas giant", "Gas giant")
diameter <- c(0.382, 0.949, 1, 0.532, 11.209, 9.449, 4.007, 3.883)
rotation <- c(58.64, -243.02, 1, 1.03, 0.41, 0.43, -0.72, 0.67)
rings <- c(FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE, TRUE)
# Create a data frame from the vectors
planets_df <-data.frame(name,type,diameter,rotation,rings)
- 元素选择
# 查找单个元素第一行第三列
> print(planets_df[1,3])
[1] 0.382
#查找第四行,注意这里选择一行所有列的写法
> print(planets_df[4,])
name type diameter rotation rings
4 Mars Terrestrial planet 0.532 1.03 FALSE
#查找第四行,2,3,4列,类似于切片操作
> print(planets_df[4,2:4])
type diameter rotation
4 Terrestrial planet 0.532 1.03
#使用列名获取数据
> planets_df[1:5,'diameter']
[1] 0.382 0.949 1.000 0.532 11.209
#使用列名获取一列数据
> planets_df['diameter']
diameter
1 0.382
2 0.949
3 1.000
4 0.532
5 11.209
6 9.449
7 4.007
8 3.883
#使用简化写法获取一列数据
> planets_df$diameter#与planets_df[,"diameter"]相同
[1] 0.382 0.949 1.000 0.532 11.209 9.449 4.007 3.883
#这里要注意上面和下面的差异,为何一个竖排和一个竖排输出,原因就是上面输出的是list,下面的是numberic。
- 条件选择
上面的例子中,有些行星有行星环,有些没有,如何获取有环的行星名字。
> rings_vector <- planets_df$rings
> rings_vector
[1] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE
> planets_df[rings_vector, "name"]
[1] Jupiter Saturn Uranus Neptune
Levels: Earth Jupiter Mars Mercury Neptune Saturn Uranus Venus
#要获取没环的行星名字,使用!操作取反。
#一个不输入name,直接获取整个筛选数据表。
使用subset来获取子集,选择直径小于的1的行星
> subset(planets_df, subset = diameter < 1)
name type diameter rotation rings
1 Mercury Terrestrial planet 0.382 58.64 FALSE
2 Venus Terrestrial planet 0.949 -243.02 FALSE
4 Mars Terrestrial planet 0.532 1.03 FALSE
- 排序
使用order函数进行排序,整个函数返回的排序之后的位置。
> a = c(2,3,1)
> order(a)
[1] 3 1 2
> a[order(a)]
[1] 1 2 3
根据直径进行排序
> positions <- order(planets.$diameter)
> planets[positions,]