当前位置: 首页 > news >正文

[scikit-learn] 第一章 初识scikit-learn及内置数据集介绍

文章目录

  • 菜鸡镇贴!!!
    • scikit-learn 简要介绍
    • scikit-learn 安装
    • scikit-learn 数据集介绍
    • 数据集API介绍
      • Loaders
      • Samples generator
    • 导入数据集demo

菜鸡镇贴!!!

请添加图片描述

scikit-learn 简要介绍

​ Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。

scikit-learn 安装

​ 本文仅提供Linux下的安装指南 其他平台可参照官网指南安装

Operating System :Linux

Packager : conda

​ 使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:

conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env

scikit-learn 数据集介绍

​ scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。

​ 简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。

数据集如下:

CategoryDataset
Toy datasetsIris plants dataset
Diabetes dataset
Optical recognition of handwritten digits dataset
Linnerrud dataset
Wine recognition dataset
Breast cancer wisconsin (diagnostic) dataset
Real world datasetsThe Olivetti faces dataset
The 20 newsgroups text dataset
The Labeled Faces in the Wild face recognition dataset
Forest covertypes
RCV1 dataset
Kddcup 99 dataset
California Housing dataset
Species distribution dataset
Generated datasetsGenerators for classification and clustering
Generators for regression
Generators for manifold learning
Generators for decomposition
Loading other datasets
Sample images
Datasets in svmlight / libsvm format
Downloading datasets from the openml.org repository
Loading from external datasets

数据集API介绍

General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。

**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。

**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。

Loaders

datasets.clear_data_home([data_home])		删除数据主缓存的所有内容。datasets.dump_svmlight_file(X, y, f, *[, ...])		以svmlight/libsvm文件格式转储数据集。datasets.fetch_20newsgroups(*[, data_home, ...])20个新闻组数据集中加载文件名和数据(分类)。datasets.fetch_20newsgroups_vectorized(*[, ...])		加载并向量化20个新闻组数据集(分类)。datasets.fetch_california_housing(*[, ...])			加载加州住房数据集(回归)。datasets.fetch_covtype(*[, data_home, ...])			加载covertype数据集(分类)。datasets.fetch_kddcup99(*[, subset, ...])			加载kddcup99数据集(分类)。datasets.fetch_lfw_pairs(*[, subset, ...])			加载“野生(LFW)对中的已标记人脸”数据集(分类)。datasets.fetch_lfw_people(*[, data_home, ...])		加载野外标记面孔 (LFW) 人物数据集(分类)。datasets.fetch_olivetti_faces(*[, ...])				从 AT&T(分类)加载 Olivetti 面孔数据集。datasets.fetch_openml([name, version, ...])			按名称或数据集 ID 从 openml 获取数据集。datasets.fetch_rcv1(*[, data_home, subset, ...])		加载 RCV1 多标签数据集(分类)。datasets.fetch_species_distributions(*[, ...])			Phillips 等人的物种分布数据集加载器。datasets.get_data_home([data_home])						返回 scikit-learn 数据目录的路径。datasets.load_breast_cancer(*[, return_X_y, ...])		加载并返回威斯康星州乳腺癌数据集(分类)。datasets.load_diabetes(*[, return_X_y, ...])			加载并返回糖尿病数据集(回归)。datasets.load_digits(*[, n_class, ...])					加载并返回数字数据集(分类)。datasets.load_files(container_path, *[, ...])			加载以类别作为子文件夹名称的文本文件。datasets.load_iris(*[, return_X_y, as_frame])			加载并返回鸢尾花数据集(分类)。datasets.load_linnerud(*[, return_X_y, as_frame])		加载并返回体育锻炼 Linnerud 数据集。datasets.load_sample_image(image_name)					加载单个样本图像的 numpy 数组。datasets.load_sample_images()							加载示例图像以进行图像处理。datasets.load_svmlight_file(f, *[, ...])				将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。datasets.load_svmlight_files(files, *[, ...])			从 SVMlight 格式的多个文件加载数据集。datasets.load_wine(*[, return_X_y, as_frame])			加载并返回葡萄酒数据集(分类)。

Samples generator

datasets.make_biclusters(shape, n_clusters, *)			生成用于双聚类的常量块对角结构数组。datasets.make_blobs([n_samples, n_features, ...])		生成各向同性高斯斑点以进行聚类。datasets.make_checkerboard(shape, n_clusters, *)		生成具有块棋盘结构的数组以进行双聚类。datasets.make_circles([n_samples, shuffle, ...])		在 2d 中制作一个包含小圆的大圆。datasets.make_classification([n_samples, ...])			生成随机 n 类分类问题。datasets.make_friedman1([n_samples, ...])				生成“Friedman #1”回归问题。datasets.make_friedman2([n_samples, noise, ...])		生成“Friedman #2”回归问题。datasets.make_friedman3([n_samples, noise, ...])		生成“Friedman #3”回归问题。datasets.make_gaussian_quantiles(*[, mean, ...])		生成各向同性高斯并按分位数标记样本。datasets.make_hastie_10_2([n_samples, ...])				生成 Hastie 等人使用的二元分类数据。 2009 年,例 10.2。datasets.make_low_rank_matrix([n_samples, ...])			生成一个具有钟形奇异值的低秩矩阵。datasets.make_moons([n_samples, shuffle, ...])			制作两个交错的半圆。datasets.make_multilabel_classification([...])			生成随机多标签分类问题。datasets.make_regression([n_samples, ...])				生成随机回归问题。datasets.make_s_curve([n_samples, noise, ...])			生成 S 曲线数据集。datasets.make_sparse_coded_signal(n_samples, ...)		生成信号作为字典元素的稀疏组合。datasets.make_sparse_spd_matrix([n_dim, ...])			生成稀疏对称定正矩阵。datasets.make_sparse_uncorrelated([...])				使用稀疏不相关设计生成随机回归问题。datasets.make_spd_matrix(n_dim, *[, ...])				生成随机对称正定矩阵。datasets.make_swiss_roll([n_samples, noise, ...])		生成瑞士卷数据集。

导入数据集demo

from sklearn import datasets# 调用数据集
iris = datasets.load_iris()
digits = datasets.load_digits()# 展示数据集
print(digits.data)
print(digits.target)
print(digits.images[0])

在这里插入图片描述

相关文章:

  • 【四 (4)数据可视化之 Ploty Express常用图表及代码实现 】
  • Linux 自动备份 mysql 脚本
  • Windows10安装RubyRails步骤
  • Apache zookeeper kafka 开启SASL安全认证
  • vite打包时发布时,放在服务器的二级目录中
  • 解析编程中不可或缺的基础:深入了解结构体类型
  • 【Linux-网络编程】
  • 【漏洞复现】大华智慧园区综合管理平台SQL注入漏洞
  • 【vue baidu-map】实现百度地图展示基地,鼠标悬浮标注点展示详细信息
  • 配置vscode环境极简版(C/C++)(图文)
  • 在idea中配置tomcat服务器,部署一个项目(下载教程加链接)
  • KONG - API转发流程梳理
  • 深入探索Java并发编程:ArrayBlockingQueue详解
  • Python最常用的库
  • 从零开始利用MATLAB进行FPGA设计(三)将Simulink模型转化为定点数据类型
  • Android Studio:GIT提交项目到远程仓库
  • Angular 响应式表单之下拉框
  • ES6之路之模块详解
  • java中的hashCode
  • js操作时间(持续更新)
  • Linux下的乱码问题
  • Linux学习笔记6-使用fdisk进行磁盘管理
  • PHP那些事儿
  • Selenium实战教程系列(二)---元素定位
  • spring学习第二天
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • uni-app项目数字滚动
  • WinRAR存在严重的安全漏洞影响5亿用户
  • 分享一份非常强势的Android面试题
  • 近期前端发展计划
  • 看域名解析域名安全对SEO的影响
  • 快速构建spring-cloud+sleuth+rabbit+ zipkin+es+kibana+grafana日志跟踪平台
  • 聊聊flink的TableFactory
  • 面试题:给你个id,去拿到name,多叉树遍历
  • 前端自动化解决方案
  • 一天一个设计模式之JS实现——适配器模式
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • ​业务双活的数据切换思路设计(下)
  • #我与虚拟机的故事#连载20:周志明虚拟机第 3 版:到底值不值得买?
  • (C语言)输入一个序列,判断是否为奇偶交叉数
  • (Redis使用系列) Springboot 实现Redis 同数据源动态切换db 八
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (第9篇)大数据的的超级应用——数据挖掘-推荐系统
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (附源码)ssm考试题库管理系统 毕业设计 069043
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (算法设计与分析)第一章算法概述-习题
  • (转)甲方乙方——赵民谈找工作
  • .Net MVC + EF搭建学生管理系统
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • @configuration注解_2w字长文给你讲透了配置类为什么要添加 @Configuration注解
  • [ Linux Audio 篇 ] 音频开发入门基础知识