当前位置: 首页 > news >正文

数据可视化的一些小技巧

今天聊聊数据可视化。

在数据分析中,数据可视化是一道很重要的工序,毕竟人都是视觉动物,要想以最直观最震撼的方式,向不同知识背景的观众展示我的数据分析结果,可视化是最佳也几乎是唯一的选择。

机器学习也一样。虽说模型不相信视觉,但毕竟人工智能人工智能,有多少人工才能有多少智能,数据探索差不多就成了不可缺少的重要工序,这时数据可视化就很重要了。

不过,“可视化”听着好像很酷很复杂,实现挺简单。

拿加利福利亚房价预测来说好了,这个数据集已然成为回归预测的Hello World,要获取也很容易:

import sklearn.datasets as datasetsdataset = datasets.fetch_california_housing()

虽然内置了Api,不过数据还是要在线获取的。下好了可以通过变量dataset查看。dataset的类型是比较少见的sklearn.utils.Bunch,没必要深究,比较有用的属性有两个,data和feature_name,顾名思义,数据和属性名称。

看看都有哪些属性:

最后两个维度很重要,分别记录的是房子所在经度和维度,毕竟连猴哥都知道房子最重要的是位置。

那就看看位置分布好了。数据都在data里,不过是numpy.ndarray,要可视化先要做一些处理,转为DataFrame类型:

dataset = pd.DataFrame(dataset.data)

DataFrame是可以直接plot的,不过得设置plot什么。这里要看位置分布,就画个散点图吧:

dataset.plot(kind="scatter", x="Longitude", y="Latitude")

效果一言难尽,像是一群蚂蚁围攻两只正在约会的菜青虫:

对比一下加州的地图:

看得出来,散点图其实已经带了不少信息量,首先勾勒出了加州的大致轮廓,同时也反映出加州的发展重心在西边,和我国大多数地区正好相反——这不奇怪,加州毗邻西海岸。

大致趋势看出来来,不过,光知道哪是沿海城市未免太粗放了,好歹也得说一下哪是沿海一线城市。

这可以做到,将alpha调为0.5,这回菜青虫的内部结构也可以看清楚了:

下次再聊。


作者简介:

莫凡 ——新技术深度爱好者,曾经从事信息安全前沿技术跟踪研究和数据分析工作,在各类信息安全类技术期刊杂志发表文章五十余篇,现转为投身高端知识“白菜化”项目,希望能让将更多听起来高大上的名词沾一沾人间烟火,成为日常中生活真正用得上的知识,著有《机器学习算法的数学解析与Python实现》。个人公众号“睡前机器学习”,个人知乎号“木羊”。

RECOMMEND

推荐阅读

 

▲扫码了解详情并购买

推荐语:《Python数据可视化》介绍了利用Python实现数据可视化。并介绍了数据、信息与知识之间的关系。书中涉及的可视化过程应用了大量流行的Python库,你会学到采用Numpy、Scipy、IPython、MatPotLib、Pandas、Patsy和Scikit-Learn等生成可视化结果的不同方法。

 

▲扫码了解详情并购买

推荐语:Python是数据分析领域的主要技术和工具,Bokeh目前在Github的的Python数据可视化库上的排名独占鳌头,已经超过Matplotlib,因为动态、美观、易用等特性广受追捧!

这是一本适合零基础读者快速入门并掌握Bokeh的实战指南,作者是Bokeh的先驱用户和布道者,实践经验丰富。本书从图形绘制、数据动态展示、Web交互等维度全面讲解Bokeh功能和使用,不涉及复杂的数据处理和算法,包含大量实战案例。

▲扫码了解详情并购买

推荐语:本书借鉴数据科学家Jared P Lander在R语言上丰富的教学经验,通过大量实例,详细讲解R语言的核心功能。对于刚接触统计程序和模型的人,本书的内容组织结构使得学习R语言相当简单和直观。本书主要介绍R语言中20%的核心功能,但是这20%的功能足以让你解决80%的现代数据分析。



相关文章:

  • 一文读懂Istio服务网格
  • 网络安全百科全书,非它莫属
  • 【直播预告】2月27日|数字孪生造就Tesla——兼介我的“准工业4.0”生活
  • 千亿市场空间开启!网络安全开启新纪元步入黄金时代
  • 【直播预告】2月28日|老男孩创始人教你如何学好Linux运维
  • 反向压力:异步系统中的OOM问题
  • 一个月读完6本书?这些烧脑神书,你能读完1本,就是学霸!
  • 搜索引擎的竞价排名是怎样实现的?
  • 掌握Java核心技术,看我!
  • 【新书速递】斯坦福算法博弈论二十讲
  • 【直播预告】「甦:知识蓄力2020」编辑讲书智慧接力行动
  • 【一周书讯】网络安全、云计算、人工智能、大数据一网打尽
  • 计算机仿真模拟告诉你,为什么现在还不能开学
  • 物联网领域新计算范式技术、架构、应用方面的前沿指南
  • 无处不在的流计算到底是什么?终于有人讲明白了(附导图)
  • Android交互
  • Angularjs之国际化
  • CAP 一致性协议及应用解析
  • express + mock 让前后台并行开发
  • JavaScript实现分页效果
  • Netty 4.1 源代码学习:线程模型
  • php ci框架整合银盛支付
  • Python3爬取英雄联盟英雄皮肤大图
  • React-Native - 收藏集 - 掘金
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • 从0到1:PostCSS 插件开发最佳实践
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 手机端车牌号码键盘的vue组件
  • 通过几道题目学习二叉搜索树
  • 微服务框架lagom
  • 智能网联汽车信息安全
  • 最近的计划
  • 如何在招聘中考核.NET架构师
  • ​如何使用ArcGIS Pro制作渐变河流效果
  • (+4)2.2UML建模图
  • (1)(1.13) SiK无线电高级配置(五)
  • (二)fiber的基本认识
  • (附源码)spring boot校园健康监测管理系统 毕业设计 151047
  • (学习日记)2024.02.29:UCOSIII第二节
  • (转)es进行聚合操作时提示Fielddata is disabled on text fields by default
  • .NET 8.0 发布到 IIS
  • @Data注解的作用
  • [ JavaScript ] JSON方法
  • [ 隧道技术 ] cpolar 工具详解之将内网端口映射到公网
  • [BROADCASTING]tensor的扩散机制
  • [C#小技巧]如何捕捉上升沿和下降沿
  • [c++] 什么是平凡类型,标准布局类型,POD类型,聚合体
  • [LeetCode]—Anagrams 回文构词法
  • [LeetCode]Max Points on a Line
  • [LeetCode系列]3元素最近和问题的O(n^2)解法
  • [linux] GFLOPS和TFLOPS的换算
  • [LitCTF 2023]Http pro max plus
  • [LOJ161] 仙人掌计数