机器学习-无监督学习
目录
1 无监督学习
1.1 K-均值聚类
概念
设定簇个数
随机确定初始簇心
寻找各点最近的簇心
避免收敛到局部最小
度量效果
SSE误差平方和
后处理
将最大SSE簇拆分
合并
最近质心
使SSE增加最小的两个质心
二分K-均值
有一个簇不断一分为二
优点
易实现
缺点
可能收敛到局部最小值
在大数据集上收敛较慢
适用
数值型
案例
对地图上的点进行聚类
1.2 Apriori算法
概念
关联分析
频繁项集
关联规则
优点
易实现
缺点
在大数据集上较慢
适用
数值型
标称型
案例
过会投票的模式
毒蘑菇相似特征
1.3 FP-growth算法
概念
基于Apriori
结合树模型建模
比Apriori快
优点
快于Apriori算法
缺点
实现困难
在某些数据集上性能会下降
适用
标称型
案例
从微博中发现共现词
新闻报道被查看的集合