当前位置: 首页 > news >正文

Python实现逻辑回归与判别分析--西瓜数据集

数据

        数据data内容如下:

d0a9f3f077fe4c0898f86fb88604636a.png

        读取数据:

import numpy as np
import pandas as pd
data = pd.read_excel('D:/files/data.xlsx')

        将汉字转化为01变量:

label = []
for i in data['好瓜']:l = np.where(i == '是',1,0)label.append(int(l))
data['label'] = label

        区分数据集,70%训练集和30%测试集:

from sklearn.model_selection import train_test_split
data_train,data_test = train_test_split(data,test_size=0.3,random_state=0)  # random_state是为了保留种子,保证每次跑出来的数都一样
trainx,trainy = data_train[['密度','含糖率']],data_train['label']
testx, testy = data_test[['密度','含糖率']],data_test['label']

逻辑回归

        逻辑回归主要解决二分类问题,通常称为正向类和负向类(1/0),被解释变量使用逻辑函数(又被称为Sigmoid函数)建模,形成一个特征变量的线性组合函数,逻辑函数总是返回一个0~1之间的概率值,如果该概率等于或大于一个用来区分的阈值(通常是0.5),则被预测为正向类,否则被预测为负向类。逻辑回归(也称对率回归)代码如下:

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()  
model.fit(trainx,trainy)
model.predict(testx)
model.score(testx,testy)   #预测准确度

判别分析

        判别分析就是一种分类方法,即判断样本所属类别的一种统计方法,判别分析是在已知研究对象分成若干类并已取得各类的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类的方法。判别分析代码实现如下:

#线性判别分析
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
model = LinearDiscriminantAnalysis()
model.fit(trainx,trainy)
model.score(testx,testy)   #预测准确度

 

相关文章:

  • BizDevOps全局建设思路:横向串联,纵向深化
  • Linux测试服务器端口是否打开
  • gitblit git pycharm 新建版本库及push备忘
  • 【linux】shell脚本中设置字体颜色,背景颜色详细攻略
  • HTTP/3 协议学习
  • 如何利用机器学习算法进行数据分析和挖掘,数据优化、预处理、特征提取等老板吩咐的工作
  • 自制HTML5游戏《开心消消乐》
  • Wireshark的基本用法以及注意事项
  • 速盾:高防服务器防御 DDoS 攻击的掩护技巧
  • 逆向学习网络篇:通过Socket建立连接并传输数据
  • 企业ERP系统规划图
  • 智慧公厕系统厂家的核心技术与光明源应用案例
  • 2020C++等级考试二级真题题解
  • oracle12c到19c adg搭建(五)dg搭建后进行切换19c进行数据字典升级
  • Java面试题:对比继承Thread类和实现Runnable接口两种创建线程的方法,以及它们的优缺点
  • @angular/forms 源码解析之双向绑定
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • CentOS 7 修改主机名
  • Cookie 在前端中的实践
  • laravel5.5 视图共享数据
  • leetcode-27. Remove Element
  • leetcode386. Lexicographical Numbers
  • leetcode388. Longest Absolute File Path
  • Linux链接文件
  • Magento 1.x 中文订单打印乱码
  • Redux 中间件分析
  • SQLServer之索引简介
  • 表单中readonly的input等标签,禁止光标进入(focus)的几种方式
  • 对话:中国为什么有前途/ 写给中国的经济学
  • 给Prometheus造假数据的方法
  • 基于Volley网络库实现加载多种网络图片(包括GIF动态图片、圆形图片、普通图片)...
  • 技术:超级实用的电脑小技巧
  • 技术胖1-4季视频复习— (看视频笔记)
  • 前端面试之闭包
  • 强力优化Rancher k8s中国区的使用体验
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 手机app有了短信验证码还有没必要有图片验证码?
  • 一些关于Rust在2019年的思考
  • 以太坊客户端Geth命令参数详解
  • PostgreSQL之连接数修改
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • #systemverilog# 之 event region 和 timeslot 仿真调度(十)高层次视角看仿真调度事件的发生
  • (1)STL算法之遍历容器
  • (done) 两个矩阵 “相似” 是什么意思?
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (附源码)c#+winform实现远程开机(广域网可用)
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (学习日记)2024.03.12:UCOSIII第十四节:时基列表
  • (转)linux下的时间函数使用
  • .NET Compact Framework 3.5 支持 WCF 的子集
  • .net core控制台应用程序初识
  • .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
  • .NET 设计模式—简单工厂(Simple Factory Pattern)
  • .NET/C# 获取一个正在运行的进程的命令行参数