当前位置: 首页 > news >正文

实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:academy_titles = file.readlines()# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:job_titles = file.readlines()# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:words = jieba.cut(title)filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

相关文章:

  • 16:00面试,16:06就出来了,问的问题有点变态。。。
  • npm淘宝镜像源切换
  • Redis常见命令
  • 谭浩强第五版C语言课后习题(编程题)+答案
  • 优橙内推广西专场——5G网络优化(中高级)工程师
  • 【ML】类神经网络训练不起来怎么办 5
  • C语言:指针进阶
  • MySQL数据库高阶语句②
  • Golang案例开发之gopacket抓包三次握手四次分手(3)
  • C语言UNIX域套接字CS模型
  • 全局UI方法-弹窗六-自定义弹窗
  • Flask 与小程序 的图片数据交互 过程及探讨研究学习
  • 如何在群晖NAS搭建bitwarden密码管理软件并实现无公网IP远程访问
  • Install Docker
  • 【机器学习】代价函数
  • 深入了解以太坊
  • 「译」Node.js Streams 基础
  • 2019.2.20 c++ 知识梳理
  • angular2开源库收集
  • Angular6错误 Service: No provider for Renderer2
  • AngularJS指令开发(1)——参数详解
  • CentOS 7 防火墙操作
  • css布局,左右固定中间自适应实现
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • JavaScript中的对象个人分享
  • Laravel Mix运行时关于es2015报错解决方案
  • Meteor的表单提交:Form
  • MySQL-事务管理(基础)
  • SSH 免密登录
  • 记录:CentOS7.2配置LNMP环境记录
  • 前端性能优化——回流与重绘
  • 小程序开发中的那些坑
  • 2017年360最后一道编程题
  • ​LeetCode解法汇总2182. 构造限制重复的字符串
  • #单片机(TB6600驱动42步进电机)
  • (14)学习笔记:动手深度学习(Pytorch神经网络基础)
  • (C++)八皇后问题
  • (vue)页面文件上传获取:action地址
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (转)iOS字体
  • (转)真正的中国天气api接口xml,json(求加精) ...
  • (转载)虚函数剖析
  • .bat批处理(一):@echo off
  • .NET Core WebAPI中封装Swagger配置
  • .NET Framework 和 .NET Core 在默认情况下垃圾回收(GC)机制的不同(局部变量部分)
  • .Net Remoting常用部署结构
  • .net Stream篇(六)
  • .NET/C# 异常处理:写一个空的 try 块代码,而把重要代码写到 finally 中(Constrained Execution Regions)
  • .net实现客户区延伸至至非客户区
  • @param注解什么意思_9000字,通俗易懂的讲解下Java注解
  • @Transactional 详解
  • [ 蓝桥杯Web真题 ]-布局切换
  • [8-23]知识梳理:文件系统、Bash基础特性、目录管理、文件管理、文本查看编辑处理...
  • [AIGC] SQL中的数据添加和操作:数据类型介绍