当前位置: 首页 > news >正文

如何基于OpenCV和Sklearn算法库开展机器学习算法研究

       大家在做机器学习或深度学习研究过程中,不可避免都会涉及到对各种算法的研究使用,目前比较有名的机器学习算法库主要有OpenCV和Scikit-learn(简称Sklearn),二者都支持各种机器学习算法,主要有监督学习、无监督学习、数据降维等,OpenCV的所有机器学习相关函数都在OpenCV ML里面描述,OpenCV对图像处理方面有比较大的优势,后续在单独说明,Sklearn是目前机器学习领域最完整、同时也是最具影响力的算法库,基于Numpy, Scipy和matplotlib,包含了大量的机器学习算法实现,相关机器学习算法可通过sklearn.__all__进行查看,同时,Sklearn包含了非常多的已建设规范好的数据集,如波士顿数据集、mnist数据集等。
一般所说的机器学习或深度学习解决的问题主要有分类、回归、聚类和降维等。

一、十大经典机器学习算法
  1. 线性回归 (Linear Regression)
  2. 逻辑回归 (Logistic Regression)
  3. 决策树 (Decision Tree)
  4. 支持向量机(SVM)
  5. 朴素贝叶斯 (Naive Bayes)
  6. K邻近算法(KNN)
  7. K-均值算法(K-means)
  8. 随机森林 (Random Forest),集成算法
  9. 降低维度算法(Dimensionality Reduction Algorithms),主成分分析(即PCA)降维算法
  10. Gradient Boost和Adaboost集成算法
二、常见机器学习算法示例

以下是利用OpenCV或Sklearn实现的各种数据加载和分类回归问题示例,OpenCV对回归问题支持的不是太好,回归问题主要采用Sklearn实现了。完整代码如下。

import cv2  
import numpy as np  
import sklearn  
print(dir(cv2.ml))      # 查看opencv支持的所有算法函数,如cv2.ml.KNearest_create()  
print(sklearn.__all__)  # 查看sklearn支持的所有算法分类等,如sklearn.linear_model.LogisticRegression()
# 1.加载本地数据集  
print('###1.加载本地数据,访问mnist数据集','#'*50)  
from scipy.io import loadmat  
mnist = loadmat("./data/mnist-original.mat") #获取本地数据集  
print(mnist["data"].shape) #70000张图像,每张图像为28*28=784个像素  
print(mnist["label"].shape)   #70000个标签,为每张图像设置一个标签  
print(np.unique(mnist["label"])) #标签分类总共有10,及0~9  
X=mnist["data"].T # 对数据进行转置,行为照片数,列为28*28=784特征数  
y=mnist["label"].T  
print('###拆分训练集和测试集','#'*50)  
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:] #拆分数据集为训练集和测试集
# mnist分类模型训练和预测  
from sklearn.neighbors import KNeighborsClassifier  
from sklearn.linear_model import SGDClassifier  
from sklearn import metrics  
# model = SGDClassifier(random_state=42)  
model = KNeighborsClassifier()  
model.fit(X_train, y_train.ravel())  
y_pred=model.predict(X_test)  
accuracyError=metrics.mean_squared_error(y_test.ravel(), y_pred) #计算均方误差  
print('均方误差 =',accuracyError)# 2.加载digits数据,访问sklearn数据  
print('###2.加载sklearn的digits数据集','#'*50)  
from sklearn import datasets  
import matplotlib.pyplot as plt  
digits = datasets.load_digits()  
print(digits.data.shape) #1797张图像,每张图像为8*8=64个像素  
print(digits.images.shape)  
img = digits.images[0, :, :] #获取第一张图像的像素数据  
plt.imshow(img, cmap='gray') #显示出来  
plt.savefig('./notebooks/figures/02.04-digit0.png')  
plt.show()    
# 获取前10张图像并显示  
plt.figure(figsize=(14, 4)) #设置绘图区域大小,14行,4列  
for image_index in range(10):  # images are 0-indexed, subplots are 1-indexed  subplot_index = image_index + 1  plt.subplot(2, 5, subplot_index)  plt.imshow(digits.images[image_index, :, :], cmap='gray')  
plt.show()  # 3.加载boston数据,测试回归预测  
print('###3.加载sklearn的boston数据集','#'*50)  
from sklearn import datasets  
from sklearn import metrics  
from sklearn import model_selection  
from sklearn import linear_model  
import matplotlib.pyplot as plt  
boston = datasets.load_boston()  
print(dir(boston))  
linreg = linear_model.LinearRegression()   #线性回归  
# linreg= linear_model.Ridge()         #ridge回归  
# linreg= linear_model.Lasso()         #Lasso回归  
X_train, X_test, y_train, y_test = model_selection.train_test_split(  
boston.data, boston.target, test_size=0.1, random_state=42)  
linreg.fit(X_train, y_train)  
metrics.mean_squared_error(y_train, linreg.predict(X_train)) #计算均方误差  
linreg.score(X_train, y_train) #计算确定系数(R方值)  
#计算测试集的预测情况  
y_pred = linreg.predict(X_test)  
metrics.mean_squared_error(y_test, y_pred) #计算均方误差  
#绘图显示预测结果  
plt.style.use('ggplot')  
plt.rcParams.update({'font.size': 16})  
plt.figure(figsize=(10, 6))  
plt.plot(y_test, linewidth=3, label='ground truth')  
plt.plot(y_pred, linewidth=3, label='predicted')  
plt.legend(loc='best')  
plt.xlabel('test data points')  
plt.ylabel('target value')  
plt.show()  # 4.加载Iris数据,测试分类问题  
print('###4.加载sklearn的Iris数据集','#'*50)  
import numpy as np  
import cv2  
from sklearn import datasets  
from sklearn import model_selection  
from sklearn import metrics  
import matplotlib.pyplot as plt  
iris = datasets.load_iris()  
print(dir(iris))  
print(np.unique(iris.target))  
# 过滤数据,去掉分类2,变为二分类问题  
idx = iris.target != 2  
data = iris.data[idx].astype(np.float32)  
target = iris.target[idx].astype(np.float32)  
X_train, X_test, y_train, y_test = model_selection.train_test_split(  
data, target, test_size=0.1, random_state=42)  
# # (1) 利用opencv进行分类预测  
# lr = cv2.ml.LogisticRegression_create()  
# lr.setTrainMethod(cv2.ml.LogisticRegression_MINI_BATCH)  
# lr.setMiniBatchSize(1)  
# lr.setIterations(100) #设置迭代次数  
# lr.train(X_train, cv2.ml.ROW_SAMPLE, y_train)  
# lr.get_learnt_thetas() #获的权重参数  
# (2) 利用sklearn进行分类预测  
from sklearn.linear_model import LogisticRegression  
from sklearn.neighbors import KNeighborsClassifier  
from sklearn import svm  
from sklearn.tree import DecisionTreeClassifier  
# lr = KNeighborsClassifier(n_neighbors=1)  
# lr = svm.SVC()  
# lr = LogisticRegression()  
lr=DecisionTreeClassifier()  
lr.fit(X_train, y_train)  
#训练集预测  
# ret, y_pred = lr.predict(X_train) # opencv写法  
y_pred = lr.predict(X_train)        # sklearn写法  
metrics.accuracy_score(y_train, y_pred)  
#测试集预测  
# ret, y_pred = lr.predict(X_test)  # opencv写法  
y_pred = lr.predict(X_test)         # sklearn写法  
metrics.accuracy_score(y_test, y_pred)  
# 显示过滤后的数据  
plt.figure(figsize=(10, 6))  
plt.scatter(data[:, 0], data[:, 1], c=target, cmap=plt.cm.Paired, s=100)  
plt.xlabel(iris.feature_names[0])  
plt.ylabel(iris.feature_names[1])  
plt.show()

相关文章:

  • 便利工具分享:一个proto文件的便利使用工具
  • Filter和ThreadLocal结合存储用户id信息
  • HashMap散列表的相关知识点
  • Python Flask: 构建轻量级、灵活的Web应用
  • 一键云端,AList 整合多网盘,轻松管理文件多元共享
  • jbase打印导出实现
  • TCP/IP详解卷一第三章“链路层”概要总结(未完编辑中)
  • 【ES6标准入门】JavaScript中的模块Module语法的使用细节:export命令和imprt命令详细使用,超级详细!!!
  • QQ五毛项目记
  • openGauss学习笔记-126 openGauss 数据库管理-设置账本数据库-归档账本数据库
  • [acwing周赛复盘] 第 94 场周赛20230311
  • 解决:微软在登录时总是弹出需要家长或监护人同意才能使用该账户并且不断循环?
  • Elasticsearch:检索增强生成 (Retrieval Augmented Generation -RAG)
  • Spring 事务和事务传播机制
  • 2023年第九届数维杯国际大学生数学建模挑战赛
  • php的引用
  • JavaScript-如何实现克隆(clone)函数
  • android高仿小视频、应用锁、3种存储库、QQ小红点动画、仿支付宝图表等源码...
  • angular2 简述
  • CentOS 7 防火墙操作
  • java中具有继承关系的类及其对象初始化顺序
  • JS+CSS实现数字滚动
  • Netty+SpringBoot+FastDFS+Html5实现聊天App(六)
  • Spark VS Hadoop:两大大数据分析系统深度解读
  • Terraform入门 - 3. 变更基础设施
  • 安装python包到指定虚拟环境
  • 基于遗传算法的优化问题求解
  • 计算机常识 - 收藏集 - 掘金
  • 解决jsp引用其他项目时出现的 cannot be resolved to a type错误
  • 聊聊redis的数据结构的应用
  • 前端学习笔记之观察者模式
  • 如何编写一个可升级的智能合约
  • 云栖大讲堂Java基础入门(三)- 阿里巴巴Java开发手册介绍
  • 最近的计划
  • 新海诚画集[秒速5センチメートル:樱花抄·春]
  • ​​​​​​​​​​​​​​Γ函数
  • ​如何使用ArcGIS Pro制作渐变河流效果
  • # 数论-逆元
  • %check_box% in rails :coditions={:has_many , :through}
  • (floyd+补集) poj 3275
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (已解决)报错:Could not load the Qt platform plugin “xcb“
  • (原+转)Ubuntu16.04软件中心闪退及wifi消失
  • (最完美)小米手机6X的Usb调试模式在哪里打开的流程
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .net 8 发布了,试下微软最近强推的MAUI
  • .NET Compact Framework 多线程环境下的UI异步刷新
  • .net Stream篇(六)
  • .NET 应用启用与禁用自动生成绑定重定向 (bindingRedirect),解决不同版本 dll 的依赖问题
  • .NET的微型Web框架 Nancy
  • .NET构架之我见
  • .net开发引用程序集提示没有强名称的解决办法
  • .NET企业级应用架构设计系列之开场白
  • ::before和::after 常见的用法