当前位置: 首页 > news >正文

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

BertIntermediate 和 BertPooler源码解析

  • 1. 介绍
    • 1.1 位置与功能
    • 1.2 相似点与不同点
  • 2. 源码解析
    • 2.1 BertIntermediate 源码解析
    • 2.2 BertPooler 源码解析

1. 介绍

1.1 位置与功能

(1) BertIntermediate

  • 位置:位于 BertLayer 的注意力层(BertSelfAttention)和输出层(BertOutput)之间。
  • 功能:它执行一个线性变换(通过全连接层)并跟随一个激活函数(通常是 ReLU),为后续层提供更高层次的特征表示。

(2) BertPooler

  • 位置:位于整个 BertModel 的最后一层之后,直接处理经过编码的序列表示。
  • 功能:从序列的第一个标记(即 [CLS] 标记)提取特征,并通过一个线性变换和 Tanh 激活函数来生成一个全局表示,通常用于分类任务中的最终输出。

1.2 相似点与不同点

(1) 相似点

  • 两者都涉及到线性变换,并且都通过激活函数来增强模型的表达能力。
  • 都是 BERT 模型中的重要组成部分,从不同的角度和层次上处理输入数据。

(2) 不同点

  • 应用层次:
    BertIntermediate 作用于每个 Transformer 层,用于构建更深的层级特征。
    BertPooler 只在模型的最后一层作用,用于提取全局特征。
  • 功能目标:
    BertIntermediate 增强中间层的非线性特征,助于后续的自注意力机制。
    BertPooler 为分类或回归任务提供一个紧凑的全局特征表示。

2. 源码解析

源码地址:transformers/src/transformers/models/bert/modeling_bert.py

2.1 BertIntermediate 源码解析

# -*- coding: utf-8 -*-
# @time: 2024/7/15 14:17
import torchfrom torch import nn
from transformers.activations import ACT2FNclass BertIntermediate(nn.Module):def __init__(self, config):super().__init__()# 全连接层,将 hidden_size 映射到 intermediate_sizeself.dense = nn.Linear(config.hidden_size, config.intermediate_size)# 根据 config.hidden_act 定义激活函数if isinstance(config.hidden_act, str):self.intermediate_act_fn = ACT2FN[config.hidden_act]else:self.intermediate_act_fn = config.hidden_actdef forward(self, hidden_states: torch.Tensor) -> torch.Tensor:hidden_states = self.dense(hidden_states)  # 线性变换hidden_states = self.intermediate_act_fn(hidden_states)  # 激活函数return hidden_states

2.2 BertPooler 源码解析

# -*- coding: utf-8 -*-
# @time: 2024/7/19 11:41import torchfrom torch import nnclass BertPooler(nn.Module):def __init__(self, config):super().__init__()self.dense = nn.Linear(config.hidden_size, config.hidden_size)  # 全连接层,将 hidden_size 映射回 hidden_sizeself.activation = nn.Tanh()  # 激活函数为 Tanh 函数def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:# We "pool" the model by simply taking the hidden state corresponding# to the first token.# 提取序列中的第一个 token,也就是 [CLS] 的 hidden statefirst_token_tensor = hidden_states[:, 0]pooled_output = self.dense(first_token_tensor)  # 线性变换pooled_output = self.activation(pooled_output)  # 激活函数return pooled_output

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 使用 OpenCV 组合和缩放多张图像
  • 【网络基础】DNS协议详解:从背景到解析过程及`dig`工具的使用
  • Java核心概念之(线程、进程、同步、互斥)
  • (十二)Flink Table API
  • 给自闭症孩子家长的建议:携手同行,共筑爱的桥梁
  • Docker常见命令和参数
  • Cmake相关概念
  • HikariCP源码分析之源码环境搭建
  • 优化MySQL性能的方法
  • C#知识|语法拾遗:分支结构、循环
  • spark-sql 写入paimon主键表报错 Cannot write nullable values to non-null column
  • MegaCLI和H750阵列卡不匹配导致的服务夯死
  • 第二证券:两融账户开通需要的条件?证券两融开户?
  • Android中几种线程交互方式
  • uniapp开发安卓app--安卓低版本(4.4)不显示echarts图表问题解决思路
  • #Java异常处理
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • AHK 中 = 和 == 等比较运算符的用法
  • CentOS 7 防火墙操作
  • co模块的前端实现
  • ES6--对象的扩展
  • Eureka 2.0 开源流产,真的对你影响很大吗?
  • JavaScript新鲜事·第5期
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • JS 面试题总结
  • mysql常用命令汇总
  • Protobuf3语言指南
  • TypeScript实现数据结构(一)栈,队列,链表
  • 阿里云前端周刊 - 第 26 期
  • 纯 javascript 半自动式下滑一定高度,导航栏固定
  • 聊一聊前端的监控
  • 模仿 Go Sort 排序接口实现的自定义排序
  • 如何将自己的网站分享到QQ空间,微信,微博等等
  • 使用前端开发工具包WijmoJS - 创建自定义DropDownTree控件(包含源代码)
  • 通过来模仿稀土掘金个人页面的布局来学习使用CoordinatorLayout
  • 限制Java线程池运行线程以及等待线程数量的策略
  • 学习ES6 变量的解构赋值
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • 翻译 | The Principles of OOD 面向对象设计原则
  • ​secrets --- 生成管理密码的安全随机数​
  • ​补​充​经​纬​恒​润​一​面​
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • ()、[]、{}、(())、[[]]命令替换
  • (C#)一个最简单的链表类
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第5节(封闭类和Final方法)
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (windows2012共享文件夹和防火墙设置
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (六) ES6 新特性 —— 迭代器(iterator)
  • (生成器)yield与(迭代器)generator
  • (十一)JAVA springboot ssm b2b2c多用户商城系统源码:服务网关Zuul高级篇
  • (图文详解)小程序AppID申请以及在Hbuilderx中运行
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (五) 一起学 Unix 环境高级编程 (APUE) 之 进程环境
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...