2022国赛C题解析
数据
读取玻璃文物的基本信息数据设置索引:
问题一
风化与类型、纹饰和颜色的关系
分别读取:
做相关性分析即可:
分析结果:
可视化下就丰富了论文了。
统计规律
做好可视化来描述统计规律就再好不过了。比如可以用这样的箱型图:
预测其风化前的化学成分含量
输出处理好后,决策树就挺好。这个题需要注意的是,这是化学背景的题,肯定要考虑化学反应,所以最好先预测sio2这个催化剂再预测花絮成分会好一点。
问题二
选择合适的化学成分进行亚类划分
使用层次聚类的方法即可,如果使用kmeans的话需要结合手肘法。最后分为三个亚类。可视化:
然后预测,可以继续使用决策树、支持向量机等
问题三
基于问题二的模型带上去就好了。为了增加工作量,增加一些其它算法实践进行对比。反正都会过拟合。
问题四
关联性:皮尔斯曼相关性
差异性:pandas提取两个类型的数据,做典型相关分析。相关小则差异大,相关大则差异小。直接用SPSS做很方便。
思考:如何处理机器学习的过拟合问题?
难度评价
数据挖掘中,中等题目吧。几乎每个人都能想到一点思路,所以选择它的人很多。做它容易,做好难。