当前位置: 首页 > news >正文

机器学习之手写决策树以及sklearn中的决策树及其可视化

文章目录

  • 决策树理论部分
    • 基本算法
    • 划分选择
      • 信息熵
    • 信息增益
    • 信息增益率
    • 基尼系数
    • 基尼指数
  • 决策树代码实现
  • 参考

决策树理论部分

在这里插入图片描述
决策树的思路很简单,就是从数据集中挑选一个特征,然后进行分类。

基本算法

在这里插入图片描述
从伪代码中可以看出,分三种情况考虑:
(1)如果输入样本同属于一类,那么将节点划分为此类的叶节点。
(2)如果属性划分次数达到上限,即属性划分完了,或者是样本中在此类属性取值都一样,可以认为全部划分仍然存在不同类的样本,那么这个节点就标记为类别数占较多的叶节点。
(3)需要继续划分的情况,选择一个属性对数据集进行划分。在这里插入图片描述

划分选择

划分选择还是比较重要的,因为不同的划分选择会建出不同的决策树。划分选择的指标就是希望叶节点的数据尽可能都是属于同一类,即节点的“纯度”越来越高。

信息熵

在这里插入图片描述
其中|y|是指样本标签的种类的个数,pk代表第k类样本所占的比例

信息增益

在这里插入图片描述
|Dv|代表a特征中同样是v值的样本的数量。
当前样本此特征的信息增益 = 当前样本的信息熵 - 加权求和的同特征值的样本的信息熵。

举个例子

西瓜数据集2.0如下
在这里插入图片描述
首先计算样本的信息熵
在这里插入图片描述
然后计算各个特征的信息增益
在这里插入图片描述
在这里插入图片描述
可见纹理的信息增益最大,也说明用纹理来划分当前数据,得到的纯度是最高的。

在这里插入图片描述
在这里插入图片描述

信息增益率

因为信息增益对可取值较多的属性有所偏好,为了减少这个影响,可以采用信息增益率。
在这里插入图片描述
但是仍然存在问题:
在这里插入图片描述

在这里插入图片描述

基尼系数

在这里插入图片描述

基尼指数

在这里插入图片描述

决策树代码实现

千言万语都在注释里了。

import math
import numpy
import numpy as np
import collections
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier  # 导入决策树DTC包


class DecisionNode(object):
    def __init__(self, f_idx, threshold, value=None, L=None, R=None):
        self.f_idx = f_idx  # 属性的下标,表示通过下标为f_idx的属性来划分样本
        self.threshold = threshold  # 下标 `f_idx` 对应属性的阈值
        self.value = value  # 如果该节点是叶子节点,对应的是被划分到这个节点的数据的类别
        self.L = L  # 左子树
        self.R = R  # 右子树


# 寻找最优的阈值
def find_best_threshold(dataset: np.ndarray, f_idx: int, split_choice: str):  # dataset:numpy.ndarray (n,m+1) x<-[x,y]  f_idx:feature index
    best_gain = -math.inf  # 信息增益越小纯度越低
    best_gini = math.inf # 基尼值越大纯度越低
    best_threshold = None
    candidate = [0, 1]  # 因为只有01,就用这两个来划分。候选值1代表是这个特征,0代表不是这个特征

    # 遍历候选值,找出纯度最大的划分值(这里是0或者1)
    for threshold in candidate:
        L, R = split_dataset(dataset, f_idx, threshold)   # 根据阈值分割数据集,小于阈值
        gain = None
        if split_choice == "gain":
            # 计算信息增益
            gain = calculate_gain(dataset, L, R)  # 根据数据集和分割之后的数
            if gain > best_gain:  # 如果增益大于最大增益,则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
        if split_choice == "gain_ratio":
            # 计算信息增益率
            gain = calculate_gain_ratio(dataset, L, R)
            if gain > best_gain:  # 如果增益大于最大增益,则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
            # 计算基尼指数
        if split_choice == "gini":
            gini = calculate_gini_index(dataset, L, R)
            if gini < best_gini:  # gini指数越小越好
                best_gini = gini
                best_threshold = threshold
    # 返回此特征最优的划分值(0或1)以及对应的信息增益/增益率/基尼指数
    return best_threshold, best_gain


# 计算信息熵
def calculate_entropy(dataset: np.ndarray):  # 熵
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        # 一条数据的最后一位是标签
        key = data[-1]
        # 统计数据类别个数
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    entropy = 0.0
    for key in d.keys():
        # pk
        p = d[key] / scale
        # -pk * log2(pk)
        entropy -= p * math.log(p, 2)
    return entropy


# 计算信息增益
def calculate_gain(dataset, l, r):
    # l:左子树的数据
    # r:右子树的数据
    # 计算信息熵
    e1 = calculate_entropy(dataset)
    # 因为每个特征只有两种取值,是或不是(l,r已然是按特征分开的两类)
    e2 = len(l) / len(dataset) * calculate_entropy(l) + len(r) / len(dataset) * calculate_entropy(r)
    gain = e1 - e2
    return gain


# 计算信息增益率
def calculate_gain_ratio(dataset, l, r):
    s = 0
    gain = calculate_gain(dataset, l, r)
    p1 = len(l) / len(dataset)
    p2 = len(r) / len(dataset)
    # 会出现 1/0 的情况 全被划分到一边 s=0
    # 只有0,1两种取值
    if p1 == 0:
        s = p2 * math.log(p2, 2)
    elif p2 == 0:
        s = p1 * math.log(p1, 2)
    else:
        s = - p1 * math.log(p1, 2) - p2 * math.log(p2, 2)

    # 如果s为0,说明全都划分到一类,信息增益率可以看成无限大
    if s == 0:
        gain_ratio = math.inf
    else:
        gain_ratio = gain / s

    return gain_ratio


# 计算基尼系数(随机抽取两个样本,其类别不一致的概率)
def calculate_gini(dataset: np.ndarray):
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        key = data[-1]
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    gini = 1.0
    for key in d.keys():
        p = d[key] / scale
        gini -= p * p
    return gini


# 计算基尼指数,基尼指数越小,纯度越高
def calculate_gini_index(dataset, l, r):
    gini_index = len(l) / len(dataset) * calculate_gini(l) + len(r) / len(dataset) * calculate_gini(r)
    return gini_index


def split_dataset(X: np.ndarray, f_idx: int, threshold: float):
    # 左边是f_idx特征小于阈值的数据
    # 右边是大于阈值的数据
    L = X[:, f_idx] < threshold
    R = ~L
    return X[L], X[R]


def majority_count(dataset):
    class_list = [data[-1] for data in dataset]
    # 返回数量最多的类别
    return collections.Counter(class_list).most_common(1)[0][0]


def build_tree(dataset: np.ndarray, f_idx_list: list, split_choice: str):   # return DecisionNode 递归
    # f_idx_list 待选取特征的列表
    class_list = [data[-1] for data in dataset]  # 类别
    # 全属于同一类别(二分类)
    if class_list.count(class_list[0]) == len(class_list):
        return DecisionNode(None, None, value=class_list[0])
    # 若属性都用完, 标记为数量最多的那一类
    elif len(f_idx_list) == 0:
        value = collections.Counter(class_list).most_common(1)[0][0]
        return DecisionNode(None, None, value=value)
    else:
        # 找到划分 增益最大的属性
        best_gain = -math.inf
        best_gini = math.inf
        best_threshold = None
        best_f_idx = None

        # 遍历所有特征,找出纯度最大的那个特征
        for i in f_idx_list:
            threshold, gain = find_best_threshold(dataset, i, split_choice)
            # 基尼指数越小纯度越大
            if split_choice == "gini":
                if gain < best_gini:
                    best_gini = gain
                    best_threshold = threshold
                    best_f_idx = i
            # 信息增益/信息增益率越大,纯度越大
            if split_choice == "gain" or split_choice == "gain_ratio" :
                if gain > best_gain:  # 如果增益大于最大增益,则更换最大增益和最大
                    best_gain = gain
                    best_threshold = threshold
                    best_f_idx = i

        # 拷贝原特征
        son_f_idx_list = f_idx_list.copy()
        # 移除进行分类的特征(挑选出的最优特征)
        son_f_idx_list.remove(best_f_idx)

        # 以最优阈值分割数据
        L, R = split_dataset(dataset, best_f_idx, best_threshold)
        # 左边的数据为0那么说明已经全都为一类了,那么叶节点就产生了
        if len(L) == 0:
            L_tree = DecisionNode(f_idx=None, threshold=None, value=majority_count(dataset))  # 叶子节点
        # 否则就继续往下划分
        else:
            L_tree = build_tree(L, son_f_idx_list, split_choice)  # return DecisionNode

        # 右边也同理
        if len(R) == 0:
            R_tree = DecisionNode(f_idx=None, threshold=None, value=majority_count(dataset))  # 叶子节点
        else:
            R_tree = build_tree(R, son_f_idx_list, split_choice)  # return DecisionNode
        # 递归调用建树
        return DecisionNode(f_idx=best_f_idx, threshold=best_threshold, value=None, L=L_tree, R=R_tree)


def predict_one(model: DecisionNode, data):
    if model.value is not None:
        return model.value
    else:
        feature_one = data[model.f_idx]
        branch = None
        if feature_one >= model.threshold:
            branch = model.R  # 走右边
        else:
            branch = model.L   # 走左边
        return predict_one(branch, data)


def predict_accuracy(y_predict, y_test):
    y_predict = y_predict.tolist()
    y_test = y_test.tolist()
    count = 0
    for i in range(len(y_predict)):
        if int(y_predict[i]) == y_test[i]:
            count = count + 1
    accuracy = count / len(y_predict)
    return accuracy


class SimpleDecisionTree(object):
    def __init__(self, split_choice):
        # split_choice 分割策略:信息增益、信息增益率或者基尼指数
        self.split_choice = split_choice

    def fit(self, X: np.ndarray, y: np.ndarray):
        dataset_in = np.c_[X, y] # 纵向拼接
        f_idx_list = [i for i in range(X.shape[1])]# 特征列
        self.my_tree = build_tree(dataset_in, f_idx_list, self.split_choice) # 建树

    def predict(self, X: np.ndarray): 
        predict_list = []
        for data in X:
            predict_list.append(predict_one(self.my_tree, data))

        return np.array(predict_list)


if __name__ == "__main__":
    predict_accuracy_all = []
    import pandas as pd
    for i in range(10):
        data = pd.read_csv("data.csv")
        y = data["label"].values 
        x = data.drop(columns="label").values

        X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

        predict_accuracy_list = []  # 储存4种结果
        split_choice_list = ["gain", "gain_ratio", "gini"]
        for split_choice in split_choice_list:
            m = SimpleDecisionTree(split_choice)
            m.fit(X_train, y_train)
            y_predict = m.predict(X_test)
            y_predict_accuracy = predict_accuracy(y_predict, y_test.reshape(-1))
            predict_accuracy_list.append(y_predict_accuracy)
            
        clf = DecisionTreeClassifier()  # 所以参数均置为默认状态
        clf.fit(X_train, y_train)  # 使用训练集训练模型
        predicted = clf.predict(X_test)
        predict_accuracy_list.append(clf.score(X_test, y_test))
        predict_accuracy_all.append(predict_accuracy_list)

    p = numpy.array(predict_accuracy_all)
    p = np.round(p, decimals=3)
    accs = []
    for i in p:
        accs.append(i)
    accs = pd.DataFrame(accs)
    accs.columns = ["gain", "gain_ratio", "gini", "sklearn"]
    print(accs)

输出结果:
在这里插入图片描述
我们还可以可视化一下sklearn帮我们建立的决策树:

from sklearn import tree
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 指定中文字体
mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

fn=data.columns[:-1]
cn=['坏瓜', '好瓜']
fig, axes = plt.subplots(nrows = 1,ncols = 1,figsize = (4,4), dpi=300)
tree.plot_tree(clf,
               feature_names = fn, 
               class_names=cn,
               filled = True);
# value表示对应类别的样例分别有多少个。

在这里插入图片描述
还是sklearn比较好。

参考

机器学习——周志华
手写分类决策树(鸢尾花数据集)

相关文章:

  • C++初识
  • 成都跨境电商开发
  • 无人机 gazebo 仿真---rotors_simulator 功能包介绍
  • LeetCode刷题总结---二分查找详解
  • vue中watch原理浅析
  • Graph Representation Learning Chapter[2]
  • 一个测试岗面了 30 多人,100多个人投简历,真的太卷了,不能再真实了....
  • 准备半年,面试2个月,上岸快手拿个35K应该不算高吧?
  • java计算机毕业设计网课信息管理系统源代码+数据库+系统+lw文档
  • requests库
  • 【C++】-- STL之位图
  • Git 详细安装教程
  • 如何做一个最便宜的小程序?
  • 基于uclinux 的CAN 总线嵌入式驱动编程
  • IPV6基础知识简介
  • [译]Python中的类属性与实例属性的区别
  • 【402天】跃迁之路——程序员高效学习方法论探索系列(实验阶段159-2018.03.14)...
  • 0x05 Python数据分析,Anaconda八斩刀
  • Angular Elements 及其运作原理
  • C++类的相互关联
  • canvas绘制圆角头像
  • Docker下部署自己的LNMP工作环境
  • HTML中设置input等文本框为不可操作
  • Js基础知识(四) - js运行原理与机制
  • laravel with 查询列表限制条数
  • Linux各目录及每个目录的详细介绍
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • v-if和v-for连用出现的问题
  • 关于使用markdown的方法(引自CSDN教程)
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 京东美团研发面经
  • 精彩代码 vue.js
  • 每天一个设计模式之命令模式
  • 前端攻城师
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 小程序button引导用户授权
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 原生js练习题---第五课
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • k8s使用glusterfs实现动态持久化存储
  • 关于Kubernetes Dashboard漏洞CVE-2018-18264的修复公告
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • #免费 苹果M系芯片Macbook电脑MacOS使用Bash脚本写入(读写)NTFS硬盘教程
  • $refs 、$nextTic、动态组件、name的使用
  • (arch)linux 转换文件编码格式
  • (C#)Windows Shell 外壳编程系列4 - 上下文菜单(iContextMenu)(二)嵌入菜单和执行命令...
  • (C#)获取字符编码的类
  • (C#)一个最简单的链表类
  • (JSP)EL——优化登录界面,获取对象,获取数据
  • (附源码)springboot电竞专题网站 毕业设计 641314
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (附源码)ssm学生管理系统 毕业设计 141543
  • (论文阅读笔记)Network planning with deep reinforcement learning
  • (南京观海微电子)——I3C协议介绍