当前位置: 首页 > news >正文

解决tiktoken库调用get_encoding时SSL超时

文章目录

  • 解决tiktoken库调用get_encoding时SSL超时
    • 1. 获取词表文件url
    • 2. 手动下载词表文件并保存到本地
    • 3. 复制并重命名文件
    • 4. 环境变量中设置tiktoken cache
    • 5. 使用tiktoken库
    • 参考资料

解决tiktoken库调用get_encoding时SSL超时

最近在看Build a Large Language Model (From Scratch) 这本书。在该书的第二章中,作者尝试使用tiktoken库构建一个tokenizer。然而,当我执行以下代码时,程序报错。

import tiktoken
tokenizer = tiktoken.get_encoding("gpt2")
ConnectTimeout: HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/gpt2.tiktoken (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7fd41b819630>, 'Connection to openaipublic.blob.core.windows.net timed out. (connect timeout=None)'))

这个错误的根本原因是构建tokenizer时tiktoken库尝试下载词表文件遇到网络问题而失败。一个可行的解决方案时先手动下载文件到本地,然后让tiktoken直接从本地文件读取数据并构建tokenizer。

1. 获取词表文件url

First, let’s grab the tokenizer blob URL from the source on your remote machine. If we trace the get_encoding function, we find it calls a function from tiktoken_ext.openai_public which has the blob URIs for each encoder. Identify the correct function, then print the source

首先需要查看一下构建我们所需的tokenizer需要哪些词表文件。我这里需要使用构建名为gpt2的tokenizer。从下面的输出信息可以看到,还有 o200k_base, p50k_base等可供选择。结果显示,构建gpt2tokenizer需要下载vocab.bpeencoder.json两个文件。

import tiktoken_ext.openai_public
import inspectprint(dir(tiktoken_ext.openai_public))
# The encoder we want is cl100k_base, we see this as a possible functionprint(inspect.getsource(tiktoken_ext.openai_public.gpt2))
# The URL should be in the 'load_tiktoken_bpe function call'

运行结果:

['ENCODING_CONSTRUCTORS', 'ENDOFPROMPT', 'ENDOFTEXT', 'FIM_MIDDLE', 'FIM_PREFIX', 'FIM_SUFFIX', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'cl100k_base', 'data_gym_to_mergeable_bpe_ranks', 'gpt2', 'load_tiktoken_bpe', 'o200k_base', 'p50k_base', 'p50k_edit', 'r50k_base']
def gpt2():mergeable_ranks = data_gym_to_mergeable_bpe_ranks(vocab_bpe_file="https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/vocab.bpe",encoder_json_file="https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json",vocab_bpe_hash="1ce1664773c50f3e0cc8842619a93edc4624525b728b188a9e0be33b7726adc5",encoder_json_hash="196139668be63f3b5d6574427317ae82f612a97c5d1cdaf36ed2256dbf636783",)return {"name": "gpt2","explicit_n_vocab": 50257,# The pattern in the original GPT-2 release is:# r"""'s|'t|'re|'ve|'m|'ll|'d| ?[\p{L}]+| ?[\p{N}]+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""# This is equivalent, but executes faster:"pat_str": r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""","mergeable_ranks": mergeable_ranks,"special_tokens": {ENDOFTEXT: 50256},}

2. 手动下载词表文件并保存到本地

根据步骤1获得的url,手动下载词表文件并保存到本地。

3. 复制并重命名文件

新建一个文件夹.tiktoken,将下载的词表文件复制至该文件夹。重命名各文件,新的文件值可以通过执行以下代码获取。blobpath是步骤1中获取的该文件对应的url值。

import hashlibblobpath = "your_blob_url_here"
cache_key = hashlib.sha1(blobpath.encode()).hexdigest()
print(cache_key)

比如对于我刚刚下载的encoder.json文件,结果如下:

import hashlibblobpath = "https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json"
cache_key = hashlib.sha1(blobpath.encode()).hexdigest()
print(cache_key)
6c7ea1a7e38e3a7f062df639a5b80947f075ffe6

于是将encoder.json重命名为6c7ea1a7e38e3a7f062df639a5b80947f075ffe6(注意,重命名后的文件不带.json后缀)。

4. 环境变量中设置tiktoken cache

执行以下代码,指定tiktoken cache为.titoken文件夹。注意,每次使用tiktoken库时都要运行下述代码。

import ostiktoken_cache_dir = "path_to_folder_containing_tiktoken_file"
os.environ["TIKTOKEN_CACHE_DIR"] = tiktoken_cache_dir# validate
assert os.path.exists(os.path.join(tiktoken_cache_dir, cache_key))

5. 使用tiktoken库

现在应该可以正常使用tiktoken库构建tokenizer。

encoding = tiktoken.get_encoding("gpt2")
encoding.encode("Hello, world")
[15496, 11, 995]

参考资料

[1] SSLError: HTTPSConnectionPool(host=‘openaipublic.blob.core.windows.net’, port=443): Max retries exceeded with url · Issue #281 · openai/tiktoken (github.com)

[2] python - how to use tiktoken in offline mode computer - Stack Overflow

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • IP纯净度对跨境电商有哪些影响
  • 【VMvare虚拟机-Ubuntu】解决内存不足问题
  • Linux bash 关联数组
  • 解锁定位服务:Flutter应用中的高德地图定位
  • Python 数据类型详解:列表、字典、元组与集合的操作指南
  • 【Linux进程】Linux Shell编程实战:构建简易脚本示例与技巧详解
  • 小说阅读书城微信小程序
  • C语言野指针
  • 小琳AI课堂:大语言模型如何符合伦理限制
  • ??Nginx实现会话保持_Nginx会话保持与Redis的结合_Nginx实现四层负载均衡
  • 网络运维故障处理
  • java基础面试题总结
  • QT多线程编程(基础概念以及示例)
  • linux_L2_linux删除文件
  • 第R3周:LSTM-火灾温度预测:3. nn.LSTM() 函数详解
  • Java 网络编程(2):UDP 的使用
  • Linux后台研发超实用命令总结
  • maya建模与骨骼动画快速实现人工鱼
  • nodejs实现webservice问题总结
  • Spring核心 Bean的高级装配
  • vue-cli在webpack的配置文件探究
  • 经典排序算法及其 Java 实现
  • 前端 CSS : 5# 纯 CSS 实现24小时超市
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 世界上最简单的无等待算法(getAndIncrement)
  • 数据仓库的几种建模方法
  • 微信小程序开发问题汇总
  • 延迟脚本的方式
  • 一起来学SpringBoot | 第三篇:SpringBoot日志配置
  • 鱼骨图 - 如何绘制?
  • 原生js练习题---第五课
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • 7行Python代码的人脸识别
  • 说说我为什么看好Spring Cloud Alibaba
  • ​LeetCode解法汇总2583. 二叉树中的第 K 大层和
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (第61天)多租户架构(CDB/PDB)
  • (二) Windows 下 Sublime Text 3 安装离线插件 Anaconda
  • (附源码)ssm高校运动会管理系统 毕业设计 020419
  • (四)鸿鹄云架构一服务注册中心
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (转)德国人的记事本
  • .NET MVC 验证码
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • @Bean, @Component, @Configuration简析
  • [2016.7.Test1] T1 三进制异或
  • [20171106]配置客户端连接注意.txt
  • [android] 请求码和结果码的作用
  • [BetterExplained]书写是为了更好的思考(转载)
  • [C#] 我的log4net使用手册
  • [C/C++]_[初级]_[关于编译时出现有符号-无符号不匹配的警告-sizeof使用注意事项]
  • [C++]拼图游戏