R小盐准备介绍R语言机器学习与预测模型的学习笔记
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
01 KMeans聚类算法
聚类是从数据集中对观测值进行聚类的机器学习方法。它的目标是聚类相似观测值,不同类别之间差异较大。聚类是一种无监督学习方法,因为它仅尝试从数据集中发现结构,而不是预测应变量的值。
最常用的聚类算法就是k-means聚类算法。k-means聚类算法把数据集中每个观测值分为K个类别。每个分类中的观测值相当类似,K类之间彼此差异较大。实际应用中执行下列几步实现k-means聚类算法:
1.确定K值
2.将每个观察结果随机分配到一个初始簇中,从1到K。
3.执行以下步骤,直到集群分配停止变化。
02 R 实现kmeans聚类算法
library(factoextra)
library(cluster)
#load data
df <- USArrests
#remove rows with missing values
df <- na.omit(df)
#scale each variable to have a mean of 0 and sd of 1
df <- scale(df)
#view first six rows of dataset
head(df)
02 寻找最佳聚类数量
① 总体平方和
执行kmeans聚类算法,我们可以使用内置包stat中的kmeans()函数,语法如下:
kmeans(data, centers, nstart)
data : 数据集名称
centers: 聚类数量,即选择k的值
nstart: 初始配置个数。因为不同的初始启动集合可能会导致不同的结果,所以建议使用几种不同的初始配置。k-means算法将找到导致簇内变异最小的初始配置。
首先使用 fviz_nbclust 函数创建一个图,展示聚类数量及总体平方和之间的关系:
fviz_nbclust(df, kmeans, method = "wss")
通常我们创建这类图形寻找某个K类对应的平方和值开始弯曲或趋于平缓的肘形。
② 差距统计
另一个决定最佳聚类数量的是使用指标:差距统计。它用于比较不同k值聚类差距变化情况。使用cluster包中的clusGap()以及fviz_gap_stat()函数画图:
#calculate gap statistic based on number of clusters
gap_stat <- clusGap(df,
FUN = kmeans,
nstart = 25,
K.max = 10,
B = 50)
#plot number of clusters vs. gap statistic
fviz_gap_stat(gap_stat)
3 使用最优k执行kmeans聚类
# 设置随机种子,让结果可以重现
set.seed(1)
# 调用kmeans聚类算法 k = 4
km <- kmeans(df, centers = 4, nstart = 25)
# 查看结果
km
# Show in New Window
# Clustering k = 1,2,..., K.max (= 10): .. done
# Bootstrapping, b = 1,2,..., B (= 50) [one "." per sample]:
# .................................................. 50
# R Console
#
#
# Show in New Window
# K-means clustering with 4 clusters of sizes 13, 13, 16, 8
可以通过fviz_cluster()函数在二维空间中以散点图方式展示结果:
#plot results of final k-means model
fviz_cluster(km, data = df)
# 使用aggregate()函数查看每个类中变量的均值:
#find means of each cluster
aggregate(USArrests, by=list(cluster=km$cluster), mean)
# cluster Murder Assault UrbanPop Rape
#
# 1 3.60000 78.53846 52.07692 12.17692
# 2 10.81538 257.38462 76.00000 33.19231
# 3 5.65625 138.87500 73.87500 18.78125
# 4 13.93750 243.62500 53.75000 21.41250
#add cluster assigment to original data
final_data <- cbind(USArrests, cluster = km$cluster)
#view final data
head(final_data)
4 kmeans 算法的优缺点
优点:
算法计算速度快
能够处理大数据集
缺点:
在执行算法之前需要指定聚类数量
对异常值敏感
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型