当前位置: 首页 > news >正文

科比老大职业生涯数据预测(基于随机森林模型)

1.实验背景

     
科比·布莱恩特,作为NBA历史上最伟大的篮球运动员之一,他的职业生涯充满了无数精彩瞬间。

科比于1996年以13顺位的选秀身份进入联盟,一生都效力于洛杉矶湖人队。于2016年宣布退役,职业生涯获奖无数,5次NBA总冠军,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯总得分超33000分,未来的名人堂球员等。在今年的1月26日,科比乘坐的私人飞机不幸失事,科比和二女儿吉安娜永远地离开了我们,这对无数球迷是一个莫大的打击。虽然科比离开了我们,但曼巴精神将激励着一代又一代的年轻人去追逐自己的梦想。

本实验旨在通过分析科比职业生涯的比赛数据,深入挖掘他的投篮技巧和比赛表现,从而更好地理解他的篮球艺术和竞技水平。同时,本实验也将帮助机器学习学习者掌握数据分析的基本技能,包括数据预处理特征工程模型建立参数调整等。


2.实验目的


1. 掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法。
2. 学会数据预处理的方法,包括数据清洗、数据合并、数据转换等。
3. 学会特征工程,包括特征提取、特征选择、特征转换等。
4. 学会建立随机森林模型,并进行模型参数调整,选择最优参数。
5. 学会对测试数据进行预测,并保存模型结果。

3.数据集说明

该数据集收录了自96赛季~2016赛季,科比整个职业生涯的比赛记录,共有30697条数据。每一条数据都是一次出手记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进行分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进行建模,来对不带标签的5000条数据进行预测。


4.实验步骤


4.1数据读取与描述性统计

读取科比职业生涯比赛数据集,对数据进行简单的描述性统计分析,了解数据的分布情况。

#导入此数据分析任务中要使用的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns;sns.set()
%matplotlib inline
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import KFold
raw = pd.read_csv('kobe_data.csv')
raw.head()

让我们来看看数据集长啥样:

由上述结果可以看出,该数据集共有25个特征,其中24个特征都是完整的,只有shot_made_flag这个特征是存在缺失值的。

所以接下来我们会将数据集切分为两部分,含有shot_made_flag的数据集作为训练集,缺失shot_made_flag的数据集作为测试集。

通过对训练集进行建模,来预测测试集上的shot_made_flag值。

4.2单变量分析

(1)查看科比出手类型的分布,绘制出手类型的次数统计图。

#查看科比出手类型的分布
plt.figure(figsize = (10,6))
raw['combined_shot_type'].value_counts().plot(kind = 'bar')
plt.xlabel('出手类型');plt.ylabel('出手次数');plt.title('科比职业生涯不同出手类型的次数统计')

由上图可知,科比最喜欢的进攻方式就是跳投+肘击,紧接着是上篮。

(2)查看科比两分球,三分球的出手数,绘制出手数的柱状图。

#查看科比两分球,三分球的出手数
plt.figure(figsize = (8,6))
raw['shot_type'].value_counts().plot(kind = 'bar')
plt.xlabel('远投还是中距离');plt.ylabel('出手次数');plt.title('科比职业生涯远投和中距离的出手数')
plt.xticks(rotation = 0)

由上图可以看出,科比的进攻手段主要以中距离进攻为主,像我们比较熟悉的急停跳投,翻身跳投,干拔跳投等。


(3)查看科比出手距离的分布,绘制出手距离的直方图。

#查看科比出手距离的分布
plt.figure(figsize = (8,6))
raw['shot_distance'].hist(bins = 100)
plt.xlabel('出手距离');plt.ylabel('出手次数');plt.title('科比出手距离的分布')


(4)绘制出手距离的箱线图

这里简单介绍一下箱线图

箱线图(Box Plot),又称为盒须图盒式图箱形图,是一种用于展示一组数据分布情况的统计图表。它由五个数值点组成,分别是:最小值(下边缘)(Min)、下四分位数(Q1)、中位数、上四分位数(Q3)和最大值(上边缘)(Max)。箱线图能够反映数据的分散情况,展示数据集的对称性、分布的集中趋势以及离散程度,同时还能检测出异常值。

箱线图的组成部分如下:

中位数(Med):数据集的中心位置,将数据分为上下两部分。
箱体(Box):箱子由下四分位数(Q1)和上四分位数(Q3)之间的距离构成,表示数据的中间50%的分布范围。箱体的高度(即Q3与Q1之间的距离)被称为四分位距(IQR)。
须(Whisker):从箱体的两侧延伸出来,通常延伸到数据集的最小值和最大值,但在处理异常值时,可能会延伸到小于Q1-1.5IQR和大于Q3+1.5IQR的最近数据点。
异常值(Outlier):在须之外的数据点,通常用圆点表示。这些值被认为是异常或离群的。


箱线图的特点和用途:

直观展示数据分布:通过箱线图,我们可以直观地看到数据的中位数、上下四分位数以及异常值,从而对数据的整体分布有一个快速的了解。
比较多个数据集:通过绘制多个数据集的箱线图,可以方便地比较不同数据集的分布特点。
检测异常值:箱线图能够清晰地展示出数据中的异常值,有助于数据清洗和异常检测。

#绘制出手距离的箱型图
plt.figure(figsize = (6,4))
sns.boxplot(data = raw,y = 'shot_distance')
plt.xlabel('出手距离');plt.ylabel('出手次数');plt.title('科比出手距离的分布')

由上图可以看出科比在篮下的出手最多,大约有6000次,大约75%的出手为2分球,25%的三分球。

(5)可视化科比的出手区域,按照不同的标准划分的出手区域

#可视化科比的出手区域,按照不同的标准划分的出手区域
import matplotlib.cm as cm
plt.figure(figsize  = (20,10))def scatter_plot_by_category(feat):alpha = 0.1gs = raw.groupby(feat)cs = cm.rainbow(np.linspace(0,1,len(gs)))for g,c in zip(gs,cs):plt.scatter(g[1].loc_x,g[1].loc_y,color = c,alpha = alpha)
#shot_zone_area出手区域,左侧,右侧,中场,后场等
scatter_plot_by_category(raw['shot_zone_area'])
plt.title('shot_zone_area')#shot_zone_basic另一种划分出手区域的方式,中线,禁区,油漆区,左侧底角,右侧底角等
plt.subplot(1,3,2)
scatter_plot_by_category(raw['shot_zone_basic'])
plt.title('shot_zone_basic')#shot_zone_range出手区域的距离,小于8英尺,8-16英尺,16-24英尺,24英尺以上等
#三分球(22英尺以上)
plt.subplot(1,3,3)
scatter_plot_by_category(raw['shot_zone_range'])
plt.title('shot_zone_range')

4.3双变量分析

(1)查看科比的出手命中率,绘制命中率的柱状图。

#查看科比的出手命中率
plt.figure(figsize = (6,4))
kobe['shot_made_flag'].value_counts(normalize = True).plot(kind = 'bar')
plt.xlabel('命中情况');plt.ylabel('命中个数');plt.title('科比的出手命中率')

该样本只是整个数据集中的部分样本,不能反映出其职业生涯的真实命中率。 可以看出科比的出手命中率大约为44%,还是挺高的命中率。

(2)观察不同出手类型与命中率之间的关系,绘制条形图。

#观察不同出手类型与命中率之间的关系sns.barplot(data = kobe,x = 'combined_shot_type',y = 'shot_made_flag')

由上图可知,命中率从高往低依次为:扣篮-擦板-上篮-勾手-跳投-补篮

(3)观察两分球与三分球的命中率

#观察两分球与三分球的命中率sns.barplot(data = kobe,x = 'shot_type',y = 'shot_made_flag')

kobe.groupby('shot_type')['shot_made_flag'].value_counts(normalize = True)

上述结果可以看出科比的两分球命中率为47.7%,三分球的命中率为32.9%。

(4)观察出手距离与命中率之间的关系

#观察出手距离与命中率之间的关系
sns.scatterplot(data = kobe, x = 'shot_distance',y = 'shot_made_flag' )

sns.violinplot(data = kobe, y = 'shot_distance',x = 'shot_made_flag' )

由上图可以看出,出手距离越远,命中率越低,出手超过43英尺的都没有命中。

4.4数据预处理和特征工程


删除对最终预测结果无影响的id特征。
创建一个新的特征time_remaining,用于替代minutes_remaining和seconds_remaining,删除这两个特征。
将season数据处理为更简单易懂的格式。
删除lat,lon特征,因为它们与loc_x,loc_y表达的含义相同。
删除action_type特征,因为它与combined_shot_type表达的含义相近。
保留一个shot_zone_area特征,因为shot_zone_area,shot_zone_basic,shot_zone_range表达的含义相同。
删除team_name和game_date特征,因为它们对最终的预测结果没有影响。
保留opponent特征,因为matchup和opponent表达的是相同的意思。

#删除对最终预测结果无影响的id特征
drop_ids = ['game_event_id','game_id','team_id','shot_id']
for feature in drop_ids:raw = raw.drop(feature,axis = 1)
#创建一个新的特征time_remaining,用于替代minutes_remaining和seconds_remaining
raw['time_remaining'] = raw['minutes_remaining']*60 + raw['seconds_remaining']
#删除minutes_remaining和seconds_remaining特征
raw = raw.drop(['minutes_remaining','seconds_remaining'],axis = 1)
raw['season'].unique()
#将season数据处理为更简单易懂的格式
raw['season'] = raw['season'].apply(lambda x:int(x.split('-')[1]))
raw['season'].unique()
#lat,lon,loc_x,loc_y表达的是相同的含义,删除lat,lon特征
raw = raw.drop(['lat','lon'],axis = 1)
#action_type和combined_shot_type表达的含义相近,删除action_type
raw = raw.drop(['action_type'],axis = 1)#shot_zone_area,shot_zone_basic,shot_zone_range表达的也是相同的含义,保留一个就行
raw = raw.drop(['shot_zone_basic','shot_zone_range'],axis = 1)#team_name和game_date对最终的预测结果也没什么影响,删除这两个特征
raw = raw.drop(['team_name','game_date'],axis = 1)#matchup和opponent表达的是相同的意思,保留opponent就行
raw = raw.drop('matchup',axis = 1)
#查看当前数据集的信息
raw.info()

       

4.5划分训练集和测试集

将带有标签的数据作为训练集,不带标签的数据作为测试集。

#划分训练集测试集
train_data = raw[pd.notnull(raw['shot_made_flag'])]
test_data = raw[pd.isnull(raw['shot_made_flag'])]print('训练集的大小:',train_data.shape)
print('测试集的大小:',test_data.shape)

                                       

由于该测试集没有标签,所以我们需要通过交叉验证的方式将训练集分为训练样本和验证样本,用验证集来评估模型的好坏。

最终选取最好的模型,对测试样本进行预测。

4.6建立随机森林模型并进行调参

在这里先简单介绍一下随机森林模型:

随机森林(Random Forest)是一种基于决策树的集成机器学习算法,它通过在训练过程中引入随机性来提高预测性能,并且对过拟合具有很好的鲁棒性。随机森林由多个决策树组成,每个决策树都是在一个随机子集上进行训练的。这些决策树共同构成了一个“森林”,用于对新数据进行预测。

随机森林模型的训练过程如下:

①随机抽样:从原始数据集中进行有放回的随机抽样,得到多个样本集。
②决策树训练:对于每个样本集,训练一个决策树模型。在训练过程中,每个决策树节点在选择分裂特征时,只考虑一个随机子集的所有特征。
③聚合预测:对于新的数据点,将所有决策树的预测结果进行汇总。对于分类问题,通常采用多数投票法;对于回归问题,通常取所有树预测值的平均值。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import time#初始化一个随机森林模型
RFC = RandomForestClassifier()#使用网格搜索gridsearchcv寻找最佳的模型参数
param_grid = {'n_estimators':[40,80,120,160,200],'max_depth':[3,4,5,6,7,8,9,10],'min_samples_split':[3,4,5,6,7]}
grid = GridSearchCV(RFC,param_grid = param_grid,cv = 5,verbose = 2,n_jobs = -1)
t1 = time.time()
grid.fit(train_features,train_labels)
t2 = time.time()
print('模型的训练时间{}'.format(t2 - t1))


初始化一个随机森林模型。
使用网格搜索gridsearchcv寻找最佳的模型参数。
训练模型并找出最佳的模型参数。

5.实验总结

本实验通过分析科比·布莱恩特职业生涯的比赛数据,深入挖掘他的投篮技巧和比赛表现,帮助我们地理解他的篮球艺术和竞技水平。同时,本实验也帮助机器学习入门者掌握数据分析的基本技能,包括数据预处理、特征工程、模型建立和参数调整等。

What can I say

manba out!!!

相关文章:

  • 7_1_SVPWM概述
  • 如何在Ubuntu 14.04上安装和配置Postfix作为仅发送的SMTP服务器
  • 【你真的了解double和float吗】
  • 目标检测中损失函数的精妙作用:精确度与鲁棒性的双重保障
  • 九浅一深Jemalloc5.3.0 -- ⑨浅*gc
  • 如何在Laravel中实现数据验证:确保数据准确性的最佳实践
  • 【Vue报错】v-bind动态绑定src无效
  • NLP+LLM从入门到精通系列
  • 阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
  • 【ssh】permission denied, please try again.
  • 【Go语言入门学习笔记】Part7.闭包和defer关键字
  • 从华为和特斯拉之争,看智能驾驶的未来
  • Java 线程池之 ScheduledThreadPool
  • 如何在Perl中进行条件判断:掌握Perl条件语句的艺术
  • 稳定性四—NE流程及分析方法
  • 实现windows 窗体的自己画,网上摘抄的,学习了
  • 收藏网友的 源程序下载网
  • (十五)java多线程之并发集合ArrayBlockingQueue
  • CentOS从零开始部署Nodejs项目
  • golang中接口赋值与方法集
  • HashMap剖析之内部结构
  • HTML中设置input等文本框为不可操作
  • Java IO学习笔记一
  • js ES6 求数组的交集,并集,还有差集
  • learning koa2.x
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • Travix是如何部署应用程序到Kubernetes上的
  • vagrant 添加本地 box 安装 laravel homestead
  • Wamp集成环境 添加PHP的新版本
  • Web设计流程优化:网页效果图设计新思路
  • 动手做个聊天室,前端工程师百无聊赖的人生
  • 前端面试之闭包
  • 前端自动化解决方案
  • 听说你叫Java(二)–Servlet请求
  • 温故知新之javascript面向对象
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 一个JAVA程序员成长之路分享
  • 云栖大讲堂Java基础入门(三)- 阿里巴巴Java开发手册介绍
  • # windows 安装 mysql 显示 no packages found 解决方法
  • #NOIP 2014# day.2 T2 寻找道路
  • #QT(智能家居界面-界面切换)
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • (C语言)strcpy与strcpy详解,与模拟实现
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (一)utf8mb4_general_ci 和 utf8mb4_unicode_ci 适用排序和比较规则场景
  • (转)socket Aio demo
  • (转载)跟我一起学习VIM - The Life Changing Editor
  • .NET Core/Framework 创建委托以大幅度提高反射调用的性能
  • .net 获取url的方法
  • .NET(C#) Internals: as a developer, .net framework in my eyes
  • .NET/C# 反射的的性能数据,以及高性能开发建议(反射获取 Attribute 和反射调用方法)
  • /etc/sudoer文件配置简析
  • [ vulhub漏洞复现篇 ] JBOSS AS 5.x/6.x反序列化远程代码执行漏洞CVE-2017-12149
  • [ 云计算 | AWS ] 对比分析:Amazon SNS 与 SQS 消息服务的异同与选择