当前位置: 首页 > news >正文

金融监管科技业务中的AI应用:上市公司公告信息风险识别

面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

图片

目前该业务是由专人人工解读上市公司公告,撰写每日风险总结报告,然而这项工作不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动

  • 资料版面布局多样

公告文本的版面格式涵盖了段落、目录树、表格、图像等多种样式。

  • 公告内容差异大

不同种类公告内容差异大,不同行业披露信息差异大,不同公司撰文风格差异大。

  • 标注样本稀少

因标注标准复杂、专业性强导致的标注成本高,不同类别公告数量差异大,因监管和公司运营情况调整导致的标注时效性难以保证。

金仕达软件科技有限公司利用自然语言处理技术中的信息抽取技术ERNIE-UIE,打造了上市公司公告信息抽取系统,从上市公司常见的公告文本数据中,提取引起证券价格较大变化的重要事件及关键信息,实现自动提取影响证券价格较大变化的重要事件,为金融业务的开展提供风险管控的依据,并将此过程中积累的技术与经验推广到证券交易业务、风险管理业务以及客户服务等应用场景。在PaddleOCR和PaddleNLP的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著:文档页面导航准确率100% ,信息抽取准确率达到95% ,单篇抽取可在1秒内完成。上市公司公告信息抽取系统节约了80%的人工解读时间,极大提升了融资融券、反洗钱、操作风险管理业务的效率。

图片

3月23日晚7:00,金仕达AI实验室负责人、高级研究员孙科老师将做客飞桨直播间,分享上市公司公告信息抽取产业落地经验,更有孙科老师多年金融AI从业经验分享

01 解决思路

本项目中使用了提示学习来解决小样本问题,在项目中引入PaddleNLP中的ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于Prompt的信息抽取多任务统一建模方式,可以实现标注少量数据进行微调,即可完成在公告文本信息抽取任务中的任务适配,大大降低标注门槛和成本。 PaddleNLP中的ERNIE-UIE是一个大一统诸多任务的开放域信息抽取技术方案:通过构建结构化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE能够对不同的信息抽取目标进行统一编码,从而实现多任务的统一建模。ERNIE-UIE开创了基于Prompt的信息抽取多任务统一建模方式,通过大规模多任务预训练学习的通用抽取能力,可以实现不限定行业领域和抽取目标,零样本快速冷启动。简单场景,无需训练数据,即可全部抽取正确。针对复杂抽取需求,标注少量数据微调即完成任务适配,大大降低标注门槛和成本。除实体抽取任务外,在金融、医疗、互联网三大自建测试集的关系、事件抽取任务上进行实验,标注少样本也可带来显著的效果提升,即使模型在某些场景下表现欠佳,人工标几个样本,交给模型后就会有大幅的效果提升。

图片

上市公司公告信息抽取系统架构图ERNIE-UIE对于数据量更大的类别有更好的预测结果,即使对于少样本,诸如APER、EPER和TPER等类别,模型仍具有一定程度的预测能力,体现了ERNIE-UIE在小样本学习上的优势。

图片ERNIE-UIE进行实体抽取的效果模型训练完成后,转为推理模型,之后,利用飞桨服务化部署框架Paddle Serving方便集成的特性,将公告信息抽取服务快速部署为线上服务。用户通过WEB端访问业务框架后台时,即可直接调用智能文档解析服务展示结果。

相关项目

  • PaddleNLP GitHub地址

https://github.com/PaddlePaddle/PaddleNLP

  • PaddleNLP Gitee地址

https://gitee.com/paddlepaddle/PaddleNLP

02 技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。
文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。

图片

从技术研发到落地应用,大模型的发展已经进入产业落地的关键期。

相关文章:

  • Mac 安装Maven的几种方法和操作步骤
  • 超薄网络变压器(百兆千兆万兆)如何选型?及相关产品集成功能分类
  • keil调试专题篇
  • alter table column 列属性
  • 数据库面试题——锁
  • MySQL:索引与事物
  • springboot Aspect切面
  • 【Python】P1 Python 基础语法
  • Windows Server 2022 中文版、英文版下载 (updated Mar 2023)
  • 智能灯泡一Homekit智能家居系列
  • Java设计模式(二)——工厂模式
  • 半入耳蓝牙耳机哪款好?音质好高性价比的半入耳式蓝牙耳机
  • Matter名词解释
  • 什么是 LuaJIT?为什么 Apache APISIX 选择了 LuaJIT?
  • Java实用类之String、StringBuffer、StringBuilder
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • 【笔记】你不知道的JS读书笔记——Promise
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • jquery cookie
  • leetcode386. Lexicographical Numbers
  • Netty源码解析1-Buffer
  • PHP 7 修改了什么呢 -- 2
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • 复习Javascript专题(四):js中的深浅拷贝
  • 构造函数(constructor)与原型链(prototype)关系
  • 讲清楚之javascript作用域
  • 聚簇索引和非聚簇索引
  • 数据库写操作弃用“SELECT ... FOR UPDATE”解决方案
  • 算法之不定期更新(一)(2018-04-12)
  • 系统认识JavaScript正则表达式
  • 因为阿里,他们成了“杭漂”
  • # 手柄编程_北通阿修罗3动手评:一款兼具功能、操控性的电竞手柄
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (LNMP) How To Install Linux, nginx, MySQL, PHP
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (分布式缓存)Redis持久化
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (三) diretfbrc详解
  • (四)JPA - JQPL 实现增删改查
  • (转)Oracle 9i 数据库设计指引全集(1)
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .net 简单实现MD5
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • /etc/fstab 只读无法修改的解决办法
  • @Autowired注解的实现原理
  • [@Controller]4 详解@ModelAttribute
  • []AT 指令 收发短信和GPRS上网 SIM508/548
  • [1] 平面(Plane)图形的生成算法
  • [ERROR] 不再支持目标选项 5。请使用 7 或更高版本
  • [ffmpeg] x264 配置参数解析
  • [flask]http请求//获取请求体数据