当前位置: 首页 > news >正文

用python重新定义【2019十大网络流行语】

↑ 关注 + 置顶 ~ 有趣的不像个技术号

 

“文明互鉴真硬核,

融梗柠檬谁觉得。

霸凌第一九九六,

 块链不知太难了。

12月1日,《咬文嚼字》编辑部以一首“顺口溜”发布2019年度十大流行语。“文明互鉴”、“区块链”、“硬核”、“融梗”、“××千万条,××第一条”、“柠檬精”、“996”、“我太难/南了”、“我不要你觉得,我要我觉得”、“霸凌主义”十条流行语入选。

微博评论下有很多网友纷纷表示,XXX为什么能上榜?XXX为什么没上榜?

这点呢,小五表示理解,毕竟采用不同的统计口径得出的结论可能不同。

那么,小五干脆也自己定义个统计口径,重新“定义”一下【2019十大网络流行语】

此处致敬一下重新定义的鼻祖——罗老师。

获取数据

通过搜索“网络流行语”,可以发现已经有网站帮我们做了整理。

利用python爬虫可以获取该网站的2019年度所有网络流行语。

def main():
    data = []
    n = 1
    for i in range(4542,5589): 
        dic = {}
        url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
        print('已成功采集{}条数据'.format(n))
        html = restaurant(url)
        doc = pq(html)
        dic['tittle'] = doc('#doctitle').text()
        dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text()
        data.append(dic)
        time.sleep(random.random())
        n = n + 1
    return data  

爬取成功√

共929个词语。

我们在获取这些热门流行词的同时,也获取了他们的一些其他数据,比如浏览次数和出现时间。

但浏览次数很难作为评判这个词语是否热门的指标,毕竟大家又不是都来这个网站搜索,所以还是需要一个全网的数据才更准确一点。

一开始选择了百度指数,结果发现很多词语没有收录,需要付费。于是我就选用了搜狗指数!

将刚才爬取得到的929个网络流行语,可以根据下面式子来构造url。

urls= 'http://zhishu.sogou.com/index/searchHeat?kwdNamesStr='+str(name)+'&timePeriodType=YEAR&dataType=SEARCH_ALL'

再循环爬取依次得到他们的年度平均搜索指数。

成功得到2019年度网络热门流行词排行榜(凹凸玩数据版)!

其中标记绿色的词语为2018年末出现,在2019年开始流行,在统计时也列入列入2019流行语中。

2019网络热门流行词排行榜

根据上文得到的热门流行词排行榜,小五又搜集了一些网上的资料 ,利用PS来制作了十张流行词的解释图。

下面开始颁奖:

一千个人眼中就有一千个哈姆雷特。

相信每个人心里都有自己的一个流行语排行榜。

不知道小五重新定义的排行榜与你心中的相差多少?

相关爬虫源码已上传github:https://github.com/zpw1995/aotodata/tree/master/interest/popular

作者:朱小五,互联网公司数据分析师。热衷于Python爬虫,数据分析,可视化,个人公众号《凹凸玩数据》,有趣的不像个技术号~

QQ群号:763628645

QQ群二维码如下, 添加请注明:姓名+地区+职位,否则不予通过

订阅我的微信公众号“杨建荣的学习笔记”,第一时间免费收到文章更新。别忘了加星标,以免错过新推送提示。

7

   

近期热文

你可能也会对以下话题感兴趣。点击链接就可以查看。

  • MySQL的主键命名挺任性,就这么定了

  • 回答:我不小心把公司的数据库给删了,该不该离职?

  • 迁移到MySQL的业务架构演进实战

  • 数据库修改密码风险高,如何保证业务持续,这几种密码双活方案可以参考

  • MySQL业务双活的初步设计方案

  • 如何优化MySQL千万级大表,我写了6000字的解读

  • 一道经典的MySQL面试题,答案出现三次反转

  • 业务双活的数据切换思路设计(下)

  • 业务双活的数据切换思路设计(一)

  • MySQL中的主键和rowid,看似简单,其实有一些使用陷阱需要注意

  • 小白学MySQL要多久?我整理了10多个问题的答案

8

   

转载热文

你可能也会对以下话题感兴趣,文章来源于转载,点击链接就可以查看。

  • 去IOE or Not?

  • 拉里·佩奇(Larry Page)的伟大归来

  • 《吊打面试官》系列-Redis基础

  • 唯一ID生成算法剖析,看看这篇就够了

  • 关于大数据运维能力的一些思考

  • DBA菜鸟的进化简史:不忘初心,记工作中踩过的三个坑

  • 美女主持直播,被突发意外打断!湾区网友却高喊: 我懂!超甜

相关文章:

  • 那些对我来说没有价值和有价值的事情
  • 关于MySQL GTID的一次深刻学习
  • 这才是真正的Git——Git内部原理揭秘!
  • MySQL 8.0与MariaDB 10.4,谁更易于填坑补锅?
  • 那些难忘的维护之夜
  • 《宣州谢眺楼饯别校书叔云》赏析
  • 无意中测试了下MySQL里面的join操作,发现还是存在理解偏差
  • 说几点关于数据库的见解
  • Oracle和MySQL的数据导入,差别为什么这么大
  • 使用Python分析北京积分落户数据,分析完我陷入了深思
  • 私有云MySQL多租户权限的初版设计
  • 关于中间件服务的配置管理,分为5个阶段
  • 一个诡异的MySQL慢日志问题
  • 关于MySQL中insert ignore,insert on duplicate和replace into,你可能没想过区别
  • 你可能不了解的《唐诗三百首》
  • [NodeJS] 关于Buffer
  • FineReport中如何实现自动滚屏效果
  • HomeBrew常规使用教程
  • iOS 系统授权开发
  • Javascript基础之Array数组API
  • Webpack 4x 之路 ( 四 )
  • Zepto.js源码学习之二
  • 从重复到重用
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • 看图轻松理解数据结构与算法系列(基于数组的栈)
  • 前端攻城师
  • 自定义函数
  • ​渐进式Web应用PWA的未来
  • ​香农与信息论三大定律
  • #define用法
  • #etcd#安装时出错
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot
  • #QT项目实战(天气预报)
  • (html5)在移动端input输入搜索项后 输入法下面为什么不想百度那样出现前往? 而我的出现的是换行...
  • (poj1.3.2)1791(构造法模拟)
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (南京观海微电子)——COF介绍
  • (三) diretfbrc详解
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)JVM内存分配 -Xms128m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=512m
  • ***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...
  • .mysql secret在哪_MYSQL基本操作(上)
  • .net core 客户端缓存、服务器端响应缓存、服务器内存缓存
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .NET MVC、 WebAPI、 WebService【ws】、NVVM、WCF、Remoting
  • .net 打包工具_pyinstaller打包的exe太大?你需要站在巨人的肩膀上-VC++才是王道
  • .net2005怎么读string形的xml,不是xml文件。
  • .NET大文件上传知识整理
  • .vimrc php,修改home目录下的.vimrc文件,vim配置php高亮显示
  • /3GB和/USERVA开关
  • @Autowired多个相同类型bean装配问题
  • @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
  • @Tag和@Operation标签失效问题。SpringDoc 2.2.0(OpenApi 3)和Spring Boot 3.1.1集成
  • [2009][note]构成理想导体超材料的有源THz欺骗表面等离子激元开关——