Weka
Weka是一款数据挖掘开源软件,由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis)。Weka同时也是一种只在新西兰生存的鸟,它不会飞,但是拥有好奇的天性。
Weka是用Java写成的,安装需要jdk,它可以运行于几乎所有的操作平台,包括Linux,Windows等操作系统。
Weka平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。Weka集成了数据挖掘任务相关的机器学习算法。这些算法可以直接应用于数据集,或者你也可以自己编写Java代码调用它们。Weka包含各种用于数据预处理、分类、回归、聚类、关联规则以及可视化的工具。它也非常适合用于开发新的机器学习方法。
2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)
Weka存储数据的格式是ARFF(Attribute-RelationFile Format)文件,这是一种ASCII文本文件
Weka界面
- Explorer,WEKA中进行数据探索的软件环境。
- Experimenter,针对基于不同数据集的不同机器学习方法进行实验和统计测试,大规模性能比较
- KnowledgeFlow,功能和Explorer类似,但是使用拖拽的方式进行操作,同时它还支持增量学习。
- Workbench,包含了其他应用的组合,可供用户选择使用。为其他的界面提供了统一的操作接口
- SimpleCLI,一个简易的命令行接口,可以在不支持命令行的操作系统中直接调用Weka命令。
Weka数据
Weka与许多数据分析软件一样,Weka所处理的数据集是一个二维的表格.
Weka处理的数据表格中,一个横行称为一个实例(Instance),竖行代表一个属性(Arrtibute),数据表格称为一个数据集,在weka看来,呈现了属性之间的一种关系(Relation)
ARFF文件示例
数据集中的每一个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型
Explorer
Explorer是Weka的主要图形用户界面,包括预处理、分类、聚类、关联、属性选择以及可视化。
区域4,可以看到当前的特征、样本信息,并提供了特征选择和删除的功能。在区域4用鼠标选择单个特征后,
区域5将显示该特征的信息。包括最小值、最大值、期望和标准差。
区域6提供了可视化功能,选择特征后,该区域将显示特征值在各个区间的分布情况,不同的类别标签以不同的颜色显示。
https://blog.csdn.net/qq_38549200/article/details/82668179
https://www.bilibili.com/video/BV134411J7S5?p=1