当前位置: 首页 > news >正文

除中文外的正则_优质中文NLP资源集合,做项目一定用得到!

a597d508398ea45a82cb2ca635ed1901.png

c2f49cf7d108539b6d7a273a28bd4d63.png
整理 | Jane
出品 | AI科技大本营(公众号id:rgznai100)

今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks。

项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作;兴趣包括:语言资源构建、信息抽取与知识图谱、舆情分析等。喜欢分享一些小知识,设有知乎专栏《机器学习小知识》

作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新。项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如很多有用的词库:中英文敏感词、暴恐词表、文人名库、中文缩写库、停用词、公司名字大全、成语词库、地名词库百度中文问答数据集......非常值得学习研究 NLP 项目的同学们收藏!

除了几十个的优质资源汇总外,作者的另一个中文 NLP 工具包——coco NLP,也很实用,目前应用在寻找失踪人口项目中。通过这个工具包,大家可以直接从文本信息中抽取一些基本信息,比如手机号、邮箱、手机归属地、时间点、地址和一些词组信息。

0.先给大家 coco NLP 工具的地址:

https:// github.com/fighting41lo ve/cocoNLP

因为这个工具里也包含了第一个项目中提到的一些资源,下面我们所列的其他资源,就不再列出重复资源的地址了,比如:phone 中国手机归属地查询、抽取email的正则表达式、抽取phone_number的正则表达式、人名语料库、时间抽取等。

营长列出了其他一些主要资源的地址,大家还可以从文章最后给出的项目地址中访问更多。也感谢开源这些资源的作者,如果下面有提到你的项目,欢迎给我们留言,让营长发现可爱的你们~

1. textfilter: 中英文敏感词过滤

https:// github.com/observerss/t extfilter

2. langid:97种语言检测

https:// github.com/saffsd/langi d.py

3. langdetect:检测另一种语言

https:// code.google.com/archive /p/language-detection/

4. phone国际手机、电话归属地查询:

https:// github.com/AfterShip/ph one

6. ngender:根据名字判断性别,基于朴素贝叶斯计算的概率

https:// github.com/observerss/n gender

7.抽取身份证号的正则表达式

IDCards_pattern = r'^([1-9]d{5}[12]d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

8.中文缩写库

https:// github.com/zhangyics/Ch inese-abbreviation-dataset/blob/master/dev_set.txt

9.汉语拆字词典

https:// github.com/kfcd/chaizi

10.词汇情感值

https:// github.com/rainarch/Sen tiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result

11.中文词库、停用词、敏感词,此 package 的敏感词库分类更细,包含反动词库, 敏感词库表统计, 暴恐词库, 民生词库, 色情词库

https:// github.com/fighting41lo ve/Chinese_from_dongxiexidian

12.汉字转拼音

https:// github.com/mozillazg/py thon-pinyin

13.同义词库、反义词库、否定词库

https:// github.com/guotong1988/ chinese_dictionary

14.无空格英文串分割、抽取单词

https:// github.com/keredson/wor dninja

15.THU整理的词库,包含 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库

http:// thuocl.thunlp.org/sendM essage

16.百度中文问答数据集

链接: https:// pan.baidu.com/s/1QUsKcF WZ7Tg1dk_AbldZ1A
提取码: 2dva

17.Bert 资源

(1)文本分类实践

https:// github.com/NLPScott/ber t-Chinese-classification-task

(2)Bert Tutorial 文本分类教程

https:// github.com/Socialbird-A ILab/BERT-Classification-Tutorial

(3)Bert pytorch实现

https:// github.com/huggingface/ pytorch-pretrained-BERT

(4)Bert用于中文命名实体识别,tensorflow版本

https:// github.com/macanv/BERT- BiLSTM-CRF-NER

(5)Bert 基于 Keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型

https:// github.com/BrikerMan/Ka shgari

(6)Bert、ELMO的图解

https:// jalammar.github.io/illu strated-bert/

(7)BERT: Pre-trained models and downstream applications

https:// github.com/asyml/texar/ tree/master/examples/bert

更多优质资源可访问:

https:// github.com/fighting41lo ve/funNLP

(本文为AI科技大本营原创文章,转载请微信联系 1092722531)

❤添加小助手微信csdnai2,备注研究方向,邀你加入读者群。

相关文章:

  • 快速幂取模算法代码
  • 三十天学会绘画pdf_素描基础必学的观察法,全套PDF电子书下载!
  • .NET Core 版本不支持的问题
  • all方法 手写promise_Promise 所有方法实现
  • Java 的单元测试
  • 以下不属于时序逻辑电路的有_学习笔记:时序电路基础
  • 【字符串处理】关于KMP算法输出的是什么代码
  • 好分数阅卷3.0_揭秘!自考阅卷的批改套路!
  • 手机沙盒隔离软件_最好别装手机杀毒软件,不仅没用反而是累赘!
  • 一个简单的注册页面
  • 主进程和子进程_Python 简明教程 26,Python 多进程编程
  • golang文件下载断点续传(下载客户端)
  • 天体运行轨迹_按彗星轨迹,太阳系中存在第二平面,有可能是彗星的“第二家园”...
  • 一个网页打开的全过程
  • 环境图配置不存在pbr_[翻译]你也可以制作的PBR!
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【407天】跃迁之路——程序员高效学习方法论探索系列(实验阶段164-2018.03.19)...
  • CSS实用技巧
  • JS专题之继承
  • Lsb图片隐写
  • 和 || 运算
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 深入 Nginx 之配置篇
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 阿里云重庆大学大数据训练营落地分享
  • ​3ds Max插件CG MAGIC图形板块为您提升线条效率!
  • ​LeetCode解法汇总2182. 构造限制重复的字符串
  • "无招胜有招"nbsp;史上最全的互…
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (js)循环条件满足时终止循环
  • (NSDate) 时间 (time )比较
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (附源码)springboot太原学院贫困生申请管理系统 毕业设计 101517
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (附源码)ssm户外用品商城 毕业设计 112346
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (五)IO流之ByteArrayInput/OutputStream
  • (一)【Jmeter】JDK及Jmeter的安装部署及简单配置
  • (一)VirtualBox安装增强功能
  • (已解决)报错:Could not load the Qt platform plugin “xcb“
  • (转)http-server应用
  • (转)iOS字体
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • .NET CF命令行调试器MDbg入门(三) 进程控制
  • .NET CORE 第一节 创建基本的 asp.net core
  • .net 生成二级域名
  • .NET 使用配置文件
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .NET企业级应用架构设计系列之结尾篇
  • .NET中的Event与Delegates,从Publisher到Subscriber的衔接!
  • .pings勒索病毒的威胁:如何应对.pings勒索病毒的突袭?