当前位置：首页 > news >正文

吴恩达老师机器学习-ex4

news 来源：原创 2024/9/19 10:03:20

梯度检测没有实现。有借鉴网上的部分

导入相关库，读取数据

因为这次的数据是mat文件，需要使用scipy库中的loadmat进行读取数据。

通过对数据类型的分析，发现是字典类型，查看该字典的键，可以发现又X，y等关键字。

import numpy as np
import scipy.io as sio
from scipy.optimize import minimize
from sklearn.preprocessing import OneHotEncoder#读取数据
path = "./ex4data1.mat"
data = sio.loadmat(path)
# print(type(data))
# print(data.keys())
X = data.get("X")
Y = data.get("y").flatten()
# X = np.insert(X,0,values=1,axis=1)
# print(Y.shape)
# print(Y)

one-hot编码

在之前没有涉及神经网络的方向传播等时，可以直接将Y降维。

而在神经网络中需要对Y进行编码，使每一个y值都是一个10维的向量

#one-hot编码
encoder = OneHotEncoder(sparse=False)
Y_onehot = encoder.fit_transform(Y.reshape(-1,1))

随机初始化

当使用高级优化算法或者梯度下降算法时，需要对 $\Theta$ 向量进行赋值。

第一种想法是全部设为0，在逻辑回归中，是完全被允许的，但在训练神经网络时，这种初始值起不到任何作用。因为这会导致第二层激活项的值完全相同（因为前一层的权重相同），这个问题称为对称权重问题。

为了解决这个问题，我们采用随机初始化的方法，也就是将每一个 $\Theta _{ij}^{(l)}$ 都初始化为一个范围在 $[-\varepsilon ,\varepsilon ]$ 中的一个随机数。

#初始化参数
input_size = 400
hidden_size = 25
num_labels = 10
lamda = 1size = (input_size+1)*hidden_size+(hidden_size+1)*num_labels
params = np.random.uniform(-1.2,1.2,size)

序列化

因为到后面优化的时候fun和jac参数要求代价函数和梯度的第一个参数必须为一维向量，所以这里需要序列化。

#序列化
def serialize(theta1,theta2):return np.r_[theta1.flatten(),theta2.flatten()]
def deserialize(params):return params[:(input_size+1)*hidden_size].reshape(hidden_size,input_size+1),params[(input_size+1)*hidden_size:].reshape(num_labels,hidden_size+1)theta1,theta2 = deserialize(params)

前向传播

同上一题一致的前向传播

#前向传播
def feed_forward(params,X):theta1, theta2 = deserialize(params)a1 = np.insert(X, 0, values=np.ones(X.shape[0]), axis=1)z2 = a1 @ theta1.Ta2 = 1/(1+np.exp(-z2))a2 = np.insert(a2,0,values=1,axis=1)z3 = a2 @ theta2.Th = 1/(1+np.exp(-z3))return a1,z2,a2,z3,h

代价函数

$\theta _{0}$ 不需要正则化

公式如下：

#代价函数
def cost_func(params,X,Y,lamda):theta1, theta2 = deserialize(params)a1,z2, a2, z3, h = feed_forward(params,X)m = len(X)cost = -np.sum(Y * np.log(h) + (1-Y) * np.log(1-h))/mreg = (np.sum(np.power(theta1[:,1:],2)) + np.sum(np.power(theta2[:,1:],2)))* lamda/(2*m)return reg+cost

反向传播

相关公式如下：

#反向传播
def sigmoid_gradient(z):return 1/(1+np.exp(-z))*(1-1/(1+np.exp(-z)))def gradientReg(params,X,Y,lamda=1):theta1, theta2 = deserialize(params)m = len(X)a1, z2, a2, z3, h = feed_forward(params,X)delta3 = h - Ydelta2 = delta3 @ theta2[:,1:] * sigmoid_gradient(z2)Delta2 = delta3.T @ a2 / mDelta1 = delta2.T @ a1 / mtheta1[:, 0] = 0theta2[:, 0] = 0regDelta1 = Delta1 + (lamda / m) * theta1regDelta2 = Delta2 + (lamda / m) * theta2return serialize(regDelta1,regDelta2)

优化

fmin = minimize(fun=cost_func,x0=params,args=(X,Y_onehot,lamda),method="TNC",jac=gradientReg,options={'maxiter': 400})

预测

a1,z2,a2,z3,h = feed_forward(fmin.x,X)
y_pred = np.argmax(h,axis=1)
y_pred = y_pred + 1
acc = np.mean(y_pred==Y)
print(acc)

准确率达到了98.64%

---------------------------------------------------------------------------------------------------------------------------------

可以先将数据可视化，展示手写数字。

def one_image(X):pick_one = np.random.randint(5000)image = X[pick_one,:]fig,ax = plt.subplots()ax.imshow(image.reshape(20,20).T,cmap="gray_r")plt.xticks([])plt.yticks([])plt.show()one_image(X)
def more_image(X):pick_more = np.random.choice(len(X),100)images = X[pick_more,:]fig,ax = plt.subplots(nrows=10,ncols=10, figsize=(8, 8), sharex=True, sharey=True)for i in range(10):for j in range(10):ax[i,j].imshow(images[10*i+j].reshape(20,20).T,cmap="gray_r")plt.xticks([])plt.yticks([])plt.show()
more_image(X)

最后可以使用上面写出的函数将隐藏层可视化。

thetafinal1, thetafinal2 = deserialize(fmin.x)
hidden_layer = thetafinal1[:, 1:] 
more_image(hidden_layer)

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

架构师软考-每日两道单选题1

面试经典算法150题系列-数组/字符串操作之买卖股票最佳时机

【Qwen-Audio部署实战】Qwen-Audio-Chat模型之对话机器人部署测试

Shell编程——基础语法（2）和 Shell流程控制

算法训练（leetcode）第三十六天 | 188. 买卖股票的最佳时机 IV、309. 买卖股票的最佳时机含冷冻期、714. 买卖股票的最佳时机含手续费

OD C卷 - 执行任务赚积分

看不见的硝烟：中国网络安全三十年沉浮史

C++ 操作Git仓库

【C语言版】数据结构教程（一）绪论（上）

1.GPIO

YAML语法格式详解

为什么要使用双亲委派机制？

一文搞懂GIT

本地部署持续集成工具Jenkins并配置公网地址实现远程自动化构建

【Android】数据存储之SQLite数据库知识总结

《Javascript数据结构和算法》笔记-「字典和散列表」

CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...

Fundebug计费标准解释：事件数是如何定义的？

Go 语言编译器的 //go: 详解

gulp 教程

hadoop集群管理系统搭建规划说明

Javascript 原型链

JDK9: 集成 Jshell 和 Maven 项目.

Leetcode 27 Remove Element

mongodb--安装和初步使用教程

Transformer-XL: Unleashing the Potential of Attention Models

Vue--数据传输

Vue学习第二天

Web Storage相关

Work@Alibaba 阿里巴巴的企业应用构建之路

基于阿里云移动推送的移动应用推送模式最佳实践

前端性能优化--懒加载和预加载

使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集

提醒我喝水chrome插件开发指南

一份游戏开发学习路线

Android开发者必备：推荐一款助力开发的开源APP

###51单片机学习（1）-----单片机烧录软件的使用，以及如何建立一个工程项目

（11）MSP430F5529 定时器B

(arch)linux 转换文件编码格式

(Python) SOAP Web Service (HTTP POST)

（Redis使用系列） Springboot 实现Redis消息的订阅与分布四

（安全基本功）磁盘MBR，分区表，活动分区，引导扇区。。。详解与区别

(二)原生js案例之数码时钟计时

（附源码）spring boot车辆管理系统毕业设计 031034

（蓝桥杯每日一题）love

（六）c52学习之旅-独立按键

（企业 / 公司项目）前端使用pingyin-pro将汉字转成拼音

（四）图像的%2线性拉伸

（五十）第 7 章图（有向图的十字链表存储）

（一）十分简易快速自己训练样本 opencv级联haar分类器车牌识别

(转)清华学霸演讲稿：永远不要说你已经尽力了

(转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版

(转载)微软数据挖掘算法:Microsoft 时序算法(5)

*1 计算机基础和操作系统基础及几大协议

*p=a是把a的值赋给p，p=a是把a的地址赋给p。

相关文章：