当前位置: 首页 > news >正文

层次聚类算法_聚类分析算法

8adb2ef83897642de8434139d2e33bfe.png

聚类分析的典型应用场景

  • 目标用户的群体分类
  • 不同产品的价值组合
  • 探测、发现孤立点、异常值

主要聚类算法的分类

8f355e20c667ecdfa3ae4880d190a9b2.png

聚类分析应用注意事项

1.噪声和异常值的处理

  • 直接删除那些比其他任何数据点都要远离聚类中心点的异常值
  • 随机抽样

2.数据标准化

参与聚类的变量绝大多数都是区间型变量,不同区间型变量之间的数量单位不同,如果不加处理直接进行聚类,很容易造成聚类结果的失真。

数据标准化不仅可以为聚类计算中的各个属性赋予相同的权重,还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异

标准差标准化,经过这种方法处理后的数据符合标准正态分布,即均值为0,标准差为1。(μ为所有样本数据的均值,σ为所有样本数据的标准差)

99323c61436c3e456e90fca4468f7b12.png

3.聚类变量的少而精

  • 紧紧围绕具体分析目的和业务需求挑选聚类变量
  • 通过相关性检测,可防止相关性高的变量同时进入聚类计算
  • 衍生变量
  • 主成分分析,作为一种常用的降维方法,可以在聚类之前进行数据的清理,精简变量的数量

聚类分析的拓展应用

  • 聚类的核心指标与非聚类的业务指标相辅相成
  • 数据的探索和清理工具
  • 个性化推荐的应用

聚类分析的优势和缺点

优势

  • 聚类技术已经比较成熟,算法也比较可靠
  • 聚类技术不仅本身是一种模型技术,可以直接响应业务需求,提出细分的具体方案来指导实践
  • 聚类的结果比较容易用商业和业务的逻辑来理解和解释
  • K-Means算法具有简洁、高效的特点
  • K-Means算法是一个不依赖顺序的算法

缺点

  • 数据分析师需要事先指定聚类的数目k
  • 算法对数据噪声和异常值比较敏感

聚类分析结果的评估

1.业务专家的评估

2.聚类技术上的评价指标

RMSSTD:群体中所有变量的综合标准差,RMSSTD越小表明群体内(簇内)个体对象的相似程度越高,聚类效果越好。

R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。

SPR:该指标适用于层次方法中的凝聚层次聚类算法,它表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SPR越小,表明合并成新的群体时,损失的群内相似性比例越小,新群体内的相似性越高,聚类效果就越好。

Distance Between Clusters:该指标适用于层次方法中的凝聚层次聚类算法,它表示在要合并两个细分群体(簇)时,分别计算两个群体的中心,以求得两个群体的距离。一般来说,距离越小说明两个群体越适合合并成一个新群体。

相关文章:

  • centos如何复制粘贴_教你Vim编辑器,如何删除一行或者多行内容
  • java更改模块状态_2020年4月Github上最热门的Java开源项目
  • 佳能g3800故障灯说明书_啄木鸟家庭维修|天花机故障灯闪什么问题
  • 曲面积分的投影法_第二型曲面积分的投影法与对称性
  • python常用包及主要功能_python常用包及功能介绍
  • **Java有哪些悲观锁的实现_乐观锁、悲观锁、Redis分布式锁和Zookeeper分布式锁的实现以及流程原理...
  • amd关闭超线程_直接提高40帧?超线程开启/关闭游戏对比测试
  • easyui 控制某列显示不显示_称重显示控制器工作原理
  • python编写脚本教程_Python编写生成验证码的脚本的教程
  • python中图例legend标签内容_关于python 的legend图例,参数使用说明
  • 45个python入门案例_Python入门教程:15道不容错过的Python基础入门小案例
  • 初中学历python学不会_《差点学不会Python》——第二章 关于Python的一些基础知识...
  • python数据结构算法_python数据结构和算法
  • pythonfor循环语句例子_Python中的for循环语句
  • 乔布斯斯坦福大学演讲pdf_史蒂芬·保罗·乔布斯:2005斯坦福大学演讲【双语字幕】...
  • 【跃迁之路】【733天】程序员高效学习方法论探索系列(实验阶段490-2019.2.23)...
  • ECS应用管理最佳实践
  • ES6 学习笔记(一)let,const和解构赋值
  • Fabric架构演变之路
  • Javascript弹出层-初探
  • nginx 负载服务器优化
  • October CMS - 快速入门 9 Images And Galleries
  • Vue组件定义
  • 看完九篇字体系列的文章,你还觉得我是在说字体?
  • 入手阿里云新服务器的部署NODE
  • 一道面试题引发的“血案”
  • ​【原创】基于SSM的酒店预约管理系统(酒店管理系统毕业设计)
  • ​2020 年大前端技术趋势解读
  • ​3ds Max插件CG MAGIC图形板块为您提升线条效率!
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • #{}和${}的区别是什么 -- java面试
  • ${ }的特别功能
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (TOJ2804)Even? Odd?
  • (笔试题)合法字符串
  • (第27天)Oracle 数据泵转换分区表
  • (附源码)计算机毕业设计ssm电影分享网站
  • (简单) HDU 2612 Find a way,BFS。
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (十)T检验-第一部分
  • (数据结构)顺序表的定义
  • (四)Controller接口控制器详解(三)
  • (算法)Travel Information Center
  • (转)负载均衡,回话保持,cookie
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • .java 指数平滑_转载:二次指数平滑法求预测值的Java代码
  • .Net 高效开发之不可错过的实用工具
  • .NET 设计模式初探
  • .net经典笔试题
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • [1204 寻找子串位置] 解题报告
  • [Android] 修改设备访问权限
  • [C/C++]关于C++11中的std::move和std::forward
  • [C\C++]读入优化【技巧】