当前位置: 首页 > news >正文

基于bert的自动对对联系统

目录

概述

演示效果

核心逻辑

使用方式

1.裁剪数据集

根据自己的需要选择

2.用couplet数据集训练模型

模型存储在model文件夹中

3.将模型转换为ONNX格式

4.打开index.html就可以在前端使用此自动对对联系统了。


本文所涉及所有资源均在传知代码平台可获取。

概述

这个生成器利用预训练的BERT模型,通过微调来生成中国对联。对联是一种中文传统文化形式,通常由上下联组成,具有一定的韵律和意境。

演示效果

在这里可以插入动图展示您的程序运行效果

核心逻辑

在这里可以粘贴您的核心代码逻辑:

# start
class CoupletDataset(Dataset):
    def __init__(self, data_path, tokenizer):
        self.data_path = data_path
        self.tokenizer = tokenizer
        self.inputs, self.labels = self.load_dataset()    def load_dataset(self):
        with open(self.data_path + '/in_cut.txt', 'r', encoding='utf-8') as fin, \
             open(self.data_path + '/out_cut.txt', 'r', encoding='utf-8') as fout:
            inputs = [line.strip() for line in fin.readlines()]
            labels = [line.strip() for line in fout.readlines()]
        return inputs, labels    def __len__(self):
        return len(self.inputs)    def __getitem__(self, index):
        input_text = self.inputs[index]
        label_text = self.labels[index]        input_tokens = tokenizer.tokenize(input_text)
        label_tokens = tokenizer.tokenize(label_text)        # 拼接成BERT模型需要的输入格式
        input_tokens = ['[CLS]'] + input_tokens + ['[SEP]']
        label_tokens = label_tokens + ['[SEP]']        # 将token转换为对应的id
        input_ids = tokenizer.convert_tokens_to_ids(input_tokens)
        label_ids = tokenizer.convert_tokens_to_ids(label_tokens)        # 确保input_ids和label_ids的长度一致
        max_length = max(len(input_ids), len(label_ids))
        input_ids.extend([0] * (max_length - len(input_ids)))
        label_ids.extend([0] * (max_length - len(label_ids)))        # 将input_ids和label_ids转换为tensor
        input_ids = torch.tensor(input_ids).unsqueeze(0).to(device)  # 增加batch维度
        label_ids = torch.tensor(label_ids).unsqueeze(0).to(device)  # 增加batch维度        return input_ids, label_ids

使用方式

1.裁剪数据集

修改lines_to_read = 1000

选择你想要的数据集大小,这里采用了1000条对联

原始数据集有70万条对联,根据需求还有电脑性能选择

根据自己的需要选择

2.用couplet数据集训练模型

在终端中输入命令 python bert.py,训练模型并监控损失变化。训练完成后会生成损失图像,并将模型保存在 model 文件夹中。

最终出来loss损失图像

模型存储在model文件夹中

3.将模型转换为ONNX格式

使用命令 python app.py 将存储的模型转换为ONNX格式,以便在前端调用。

4.打开index.html就可以在前端使用此自动对对联系统了。

在输入框中输入上联。

感觉不错,点击我,立即使用

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Java8 新特性,看这篇文章就够了
  • 算法-插入排序
  • 【React】项目的目录结构全面指南
  • Spring随笔
  • 最近火爆的GraphRAG是什么?真的那么有用吗?
  • 正则采集器之四——采集网站管理
  • 后端面试题日常练-day13 【Java基础】
  • 一些和颜色相关网站,你懂的!!!
  • random.sample() 函数原理
  • RT-DETR:DETRs Beat YOLOs on Real-time Object Detection (CVPR2024)
  • M3U8流视频数据爬虫
  • 达梦数据库的系统视图v$bufferpool
  • 学习测试12-车(略)
  • Windows下Git Bash乱码问题解决
  • C++11新增特性及右值引用
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • es6
  • Java精华积累:初学者都应该搞懂的问题
  • linux安装openssl、swoole等扩展的具体步骤
  • Linux各目录及每个目录的详细介绍
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • swift基础之_对象 实例方法 对象方法。
  • Yii源码解读-服务定位器(Service Locator)
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 从输入URL到页面加载发生了什么
  • 海量大数据大屏分析展示一步到位:DataWorks数据服务+MaxCompute Lightning对接DataV最佳实践...
  • 猴子数据域名防封接口降低小说被封的风险
  • 盘点那些不知名却常用的 Git 操作
  • 前端面试之CSS3新特性
  • 使用API自动生成工具优化前端工作流
  • 突破自己的技术思维
  • 我与Jetbrains的这些年
  • 与 ConTeXt MkIV 官方文档的接驳
  • Hibernate主键生成策略及选择
  • 选择阿里云数据库HBase版十大理由
  • # Pytorch 中可以直接调用的Loss Functions总结:
  • #include到底该写在哪
  • $forceUpdate()函数
  • (007)XHTML文档之标题——h1~h6
  • (11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (C语言)fread与fwrite详解
  • (三)mysql_MYSQL(三)
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (源码分析)springsecurity认证授权
  • (转)3D模板阴影原理
  • (转)Android学习笔记 --- android任务栈和启动模式
  • (转)es进行聚合操作时提示Fielddata is disabled on text fields by default
  • (转)Linux下编译安装log4cxx
  • (转)可以带来幸福的一本书
  • ***监测系统的构建(chkrootkit )
  • .ai域名是什么后缀?
  • .NET COER+CONSUL微服务项目在CENTOS环境下的部署实践
  • .net core 管理用户机密