当前位置：首页 > news >正文

关于Python数据分析，这里有一条高效的学习路径

news 来源：原创 2024/5/4 14:07:55

广泛被应用的数据分析

谷歌的数据分析可以预测一个地区即将爆发的流感，从而进行针对性的预防；淘宝可以根据你浏览和消费的数据进行分析，为你精准推荐商品；口碑极好的网易云音乐，通过其相似性算法，为不同的人量身定制每日歌单……

数据正在变得越来越常见，小到我们每个人的社交网络、消费信息、运动轨迹……，大到企业的销售、运营数据，产品的生产数据，交通网络数据……

如何从海量数据中获得别人看不见的知识，如何利用数据来武装营销工作、优化产品、用户调研、支撑决策，数据分析可以将数据的价值最大化。

数据分析人才热度也是高居不下，一方面企业的数据量在大规模的增长，对于数据分析的需求与日俱增；另一方面，相比起其他的技术职位，数据分析师的候选者要少得多。

数据源于麦肯锡

那么，小白如何快速获得数据分析的能力呢？知乎上有很多书单，你可能也听过很多学习方法，但尝试过就知道这些跟高效没什么关系。

数据分析师应该具备哪些技能

需要Python基础学习资料的，关注后私信发送资料获取

要明确学习的路径，最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。

我们从拉勾上找了一些最具有代表性的数据分析师职位信息，来看看薪资不菲的数据分析师，到底需要哪些技能。

其实企业对数据分析师的基础技能需求差别不大，可总结如下：

SQL数据库的基本操作，会基本的数据管理
会用Excel/SQL做基本的数据分析和展示
会用脚本语言进行数据分析，Python or R
有获取外部数据的能力，如爬虫
会基本的数据可视化技能，能撰写数据报告
熟悉常用的数据挖掘算法：以回归分析为主

其次是数据分析的流程，一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程，每个部分需要掌握的细分知识点如下：

高效的学习路径是什么？就是数据分析的这个流程。按这样的顺序循序渐进，你会知道每个部分需要完成的目标是什么，需要学习哪些知识点，哪些知识是暂时不必要的。

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

- ❶ -

数据获取：公开数据、Python爬虫

外部数据的获取方式主要有以下两种。

第一种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站：

UCI：加州大学欧文分校开放的经典数据集，被很多数据挖掘实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

国家数据：数据来源于中国国家统计局，包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/

CEIC：超过128个国家的经济数据，能精确查找GDP、进出口零售，销售等深度数据。

http://www.ceicdata.com/zh-hans

中国统计信息网：国家统计局官方网站，汇集了国民经济和社会发展统计信息。

http://www.tjcn.org/

优易数据：由国家信息中心发起，国内领先的数据交易平台，很多免费数据。

http://www.youedata.com/

另一种获取外部数据的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些 Python 的基础知识：元素（列表、字典、元组等）、变量、循环、函数………

以及，如何用 Python 库（urllib、BeautifulSoup、requests、scrapy）实现网页爬虫。如果是初学，建议从 urllib+BeautifulSoup 开始。

常用的的电商网站、问答网站、二手交易网站、婚恋网站、招聘网站等，都可以爬到非常有价值的数据。

- ❷ -

数据存取：SQL语言

在应对万以内的数据的时候，Excel对于一般的分析没有问题，一旦数据量大，就会力不从心，数据库就能够很好地解决这个问题。而且大多数的企业，都会以SQL的形式来存储数据，如果你是一个分析师，也至少要懂得SQL的操作，能够查询、提取公司的数据。

SQL作为最经典的数据库工具，为海量数据的存储与管理提供可能，并且使数据的提取的效率大大提升。你需要掌握以下技能：

提取特定情况下的数据：企业数据库里的数据一定是大而繁复的，你需要提取你需要的那一部分。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……，SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改：这些是数据库最基本的操作，但只要用简单的命令就能够实现，所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系：这个部分是SQL的进阶操作，多个表之间的关联，在你处理多维度、多个数据集的时候非常有用，这也让你可以去处理更复杂的数据。

SQL这部分比较简单，主要是掌握一些基本的语句。当然，还是建议你找几个数据集来实际操作一下，哪怕是最基础的查询、提取等。

- ❸ -

数据预处理：Python（pandas）

很多时候我们拿到的数据是不干净的，数据的重复、缺失、异常值等等，这时候就需要进行数据的清洗，把这些影响分析的数据处理好，才能获得更加精确地分析结果。

比如销售数据，有一些渠道的销售是没有及时录入的，有一些数据是记录重复的。比如用户行为数据，有很多无效的操作对分析没有意义，就需要进行删除。

那么我们需要用相应的方法去处理，比如残缺数据，我们是直接去掉这条数据，还是用临近的值去补全，这些都是需要考虑的问题。

对于数据预处理，学会 pandas （Python包）的用法，应对一般的数据清洗就完全没问题了。需要掌握的知识点如下：