当前位置: 首页 > news >正文

数据仓库实验四:聚类分析实验

目录

    • 一、实验目的
    • 二、实验内容和要求
    • 三、实验步骤
      • 1、建立数据表
      • 2、建立数据源视图
      • 3、建立挖掘结构Student.dmm
      • 4、部署项目并浏览结果
      • 5、挖掘模型预测
    • 四、实验结果分析
    • 五、实验总结体会


一、实验目的

  通过本实验,进一步理解基于划分的、基于层次的、基于密度的聚类分析方法以及经典的聚类分析算法,并掌握利用 SQL Server 等工具平台进行聚类分析的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解聚类分析算法常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于 SQL Server、Weka、SPSS 等工具平台,利用 K-means 等聚类分析算法进行聚类分析,正确分析实验结果,发现知识,完成实验报告。

三、实验步骤

  以下是参照示例:以 SQL Server 作为工具,完成数据集的构建和聚类分析。——以下内容,仅供参考!

1、建立数据表

启动SQL Server,在DM数据库中建立一个Student表,其结构如下,并输入示例数据。

在这里插入图片描述
在这里插入图片描述

2、建立数据源视图

新建一个 Analysis Services 项目 ClusterMining。建立数据源视图,它对应DM数据库中的Student表。

在这里插入图片描述
在这里插入图片描述

3、建立挖掘结构Student.dmm

新建挖掘结构,在“创建数据挖掘结构”页面的“您要使用何种数据挖掘技术?”选项下,选中列表中的“Microsoft聚类分析”。

在这里插入图片描述
选择数据源视图为DM。

在“指定表类型”页面上,在Student表的对应行中选中“事例”复选框,并单击下一步按钮。

在这里插入图片描述
在“指定定型数据”页面中,将“学号”列设为键列,把其它所有列设为输入列。

在这里插入图片描述
在这里插入图片描述
在“创建测试集”页面上,“测试数据百分比”选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的“挖掘结构名称”和“挖掘模型名称”中,都输入Student。

在这里插入图片描述
在“挖掘模型”选项卡中设置算法的参数如下图所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、部署项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述
在挖掘模型查看器中,浏览聚类分析的结果。

在这里插入图片描述

5、挖掘模型预测

(1)单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,指定DM数据源视图中的Student表。

在这里插入图片描述
(2)保持默认的字段连接关系,将Student表中的各个列拖放到下方的列表中,选中最后一行下面的空白行字段前面的“源”,从下拉列表中选择“预测函数”选项,并设置字段为Cluster。

在这里插入图片描述
(3)在任一空白处右击,并在下拉菜单中选择“结果”,出现如下所示的分类结果。

在这里插入图片描述

四、实验结果分析

1、分类关系图

(1)所有链接

在这里插入图片描述
(2)最强链接

在这里插入图片描述
2、分类剖面图

在这里插入图片描述
3、分类特征

在这里插入图片描述
4、分类对比
(1)“分类1”VS“非分类1”

在这里插入图片描述
(2)“分类1”VS“分类2”

在这里插入图片描述

五、实验总结体会

  通过数据挖掘聚类分析实验,积累了许多宝贵的经验。首先,我认识到对数据进行深入理解是取得成功的关键。在开始实验之前,我仔细分析了数据的结构、特征和可能存在的异常或缺失值等情况。这样的数据理解使我能够更好地选择合适的分析方法,并取得更好的结果。其次,在进行聚类分析之前,特征选择和预处理是不可或缺的步骤。通过特征选择,我能够提高模型的性能并降低计算复杂性。而预处理则可以使数据更加干净、一致,从而减少对聚类结果的影响。
  选择合适的算法是成功实现聚类分析的重要因素。我研究了各种聚类算法,包括K均值、层次聚类和DBSCAN等。每种算法都有其适用的场景和限制,所以我根据实际情况选择了最合适的算法。这样做可以确保我的聚类结果更加准确和可靠。然后,我意识到结果的解释和评估是聚类分析中不可或缺的步骤。聚类分析的结果不仅仅是一组类别标签,更重要的是对这些类别的解释和理解。最后,我意识到持续学习和改进是取得优秀成绩的关键。数据仓库与数据挖掘是一个不断发展和变化的领域,需要不断学习新的方法和算法。通过不断尝试新的技术和流程,我能够不断优化实验流程,并取得更好的结果。
  总的来说,进行数据仓库与数据挖掘的聚类分析实验是一个充满挑战但又充满乐趣的过程。通过深入理解数据、选择合适的算法、进行特征选择和预处理、解释和评估结果,以及持续学习和改进,我相信我能够不断提高我的数据分析技能,并在这个领域取得更出色的成果。

相关文章:

  • springboot项目中图片上传之后需要重启工程才能看到图片?
  • 给大家分享一套非常棒的python机器学习课程
  • Docker快速搭建Oracle服务
  • 57. UE5 RPG 处理AI敌人转向以及拾取物品的问题
  • 面向对象-----继承
  • 如何使用Matlab进行三角剖分(自定义函数实现delaunayTriangulation 使用Bowyer-Watson 算法)
  • 【Vue3进阶】- Vite 配置
  • C++质数的那些事(判断指数、区间筛质数、互质等等)
  • Linux-文件或目录权限
  • Vue 2 和 Vue 3 中同步和异步
  • Web Server项目实战3-Web服务器简介及HTTP协议
  • GPT‑4o普通账户也可以免费用
  • java中的Map集合
  • 单向无头链表实现
  • 基于transformers框架实践Bert系列4-文本相似度
  • 「译」Node.js Streams 基础
  • 【Leetcode】104. 二叉树的最大深度
  • ➹使用webpack配置多页面应用(MPA)
  • Apache Zeppelin在Apache Trafodion上的可视化
  • LeetCode算法系列_0891_子序列宽度之和
  • maven工程打包jar以及java jar命令的classpath使用
  • mysql外键的使用
  • python3 使用 asyncio 代替线程
  • Python打包系统简单入门
  • Python爬虫--- 1.3 BS4库的解析器
  • Spring Boot MyBatis配置多种数据库
  • supervisor 永不挂掉的进程 安装以及使用
  • tweak 支持第三方库
  • vuex 笔记整理
  • 浮现式设计
  • 高性能JavaScript阅读简记(三)
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 力扣(LeetCode)56
  • 前端攻城师
  • 如何使用 OAuth 2.0 将 LinkedIn 集成入 iOS 应用
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 通过几道题目学习二叉搜索树
  • 云大使推广中的常见热门问题
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • FaaS 的简单实践
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • 关于Android全面屏虚拟导航栏的适配总结
  • ​人工智能书单(数学基础篇)
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • ​水经微图Web1.5.0版即将上线
  • ​中南建设2022年半年报“韧”字当头,经营性现金流持续为正​
  • #NOIP 2014#Day.2 T3 解方程
  • (2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (转)创业的注意事项
  • ../depcomp: line 571: exec: g++: not found
  • .NET Micro Framework初体验
  • .NET国产化改造探索(三)、银河麒麟安装.NET 8环境
  • .NET开发不可不知、不可不用的辅助类(一)
  • .net开发时的诡异问题,button的onclick事件无效