当前位置: 首页 > news >正文

《陈天奇:机器学习科研的十年》阅读笔记

0、作者介绍

陈天奇是机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM班,博士毕业于华盛顿大学计算机系,研究方向为大规模机器学习。2019年,陈天奇在Twitter上宣布自己将于2020年秋季加入CMU任助理教授,成为加入CMU的年轻华人学者之一。

在本文中,陈天奇回顾了自己做机器学习科研的十年。

1、原文

十年前,MSRA的夏天,刚开始尝试机器学习研究的我面对科研巨大的不确定性,感到最多的是困惑和迷茫。十年之后,即将跨出下一步的时候,未来依然是如此不确定,但是期待又更多了一些。这其中的变化也带着这十年经历的影子。

起始:科研是什么

我从大三开始进入交大APEX实验室,有幸随着戴文渊学长做机器学习,当时的我觉得“机器学习”这个名字十分高大上然后选择了这个方向,但是做了一年之后依然摸不着头脑,心中十分向往可以做科研,独立写论文的生活,却总是不知道如何下手。文渊在我进实验室的一年后去了百度。当时还没有得到学长真传的我,开始了科研的第一阶段,从大四到硕士的第二年,期间一直自己摸索,不断地问自己“科研是什么”。

**和课程作业不同,学术研究没有具体的问题,具体的方法,具体的答案。**文渊的离开让我一下子不知道该怎么做,但是我的想法很简单,快点寻找一个具体的方向,完成一篇论文。因为ACM班的机会暑假在MSRA的短暂实习,虽然学会了很多东西,但并没有给我答案。MSRA回来后,在实验室薛老师的建议下,我选择了一个现在看来正确而又错误的方向——深度学习。**没有导师的指导,没有工具,当时我靠着实验室的两块显卡和自己写的CUDA代码开始了死磕深度学习的两年半。**实验室的学长问我,你准备要干啥,我说,“我要用卷积RBM去提升ImageNet的分类效率。”这一个回答开启了图书馆和实验室的无数个日日夜夜,为了给实验室的老机器多带一块高功率的显卡,我们打开了一台机器的机箱,在外面多塞了一个外接电源。我的生活就持续在调参的循环中:可视化权重的图片,看上去那么有点像人脸,但是精度却总是提不上来,再来一遍。从一开始hack显卡代码的兴奋,到一年之后的焦虑,再到时不时在树下踱步想如何加旋转不变的模型的尝试,在这个方向上,我花费了本科四年级到硕士一年半的所有时间,直到最后还是一无所获。现在看来,当时的我犯了一个非常明显的错误——常见的科学研究要么是问题驱动,比如“如何解决ImageNet分类问题”;要么是方法驱动,如“RBM可以用来干什么”。当时的我同时锁死了要解决的问题和用来解决问题的方案,成功的可能性自然不高。如果我在多看一看当时整个领域的各种思路,比如Lecun在很早的时候就已经做end to end,或许结局会不那么一样吧。

当然没有如果,赌上了两年半的时间的我留下的只是何时能够发表论文的紧张心情。焦虑的我开始打算换一个方向,因为RBM当时有一个比较经典的文章应用在了推荐系统上,我开始接触推荐系统和KDDCUP。**比较幸运的是,这一次我并没有把RBM作为唯一的一个方法,而是更加广泛地去看了推荐系统中的矩阵分解类的算法,并在实验室搭建了一个比较泛用的矩阵分解系统。推荐系统方向的耕耘逐渐有了收获,我们在两年KDDCUP11中获得了不错的成绩。**KDD12在北京,放弃了一个过年的时间,我完成了第一篇关于基于特征的分布式矩阵分解论文,并且非常兴奋地投到了KDD。四月底的时候,我们收到了KDD的提前拒稿通知——论文连第一轮评审都没有过。收到拒稿通知时候的我的心情无比沮丧,因为这是第一篇自己大部分独立推动完成的文章。转折在五月,KDDCUP12封榜,我们拿到了第一个track的冠军,我依然还记得拿到KDDCUP12冠军的那一个瞬间,我在状态里面中二地打了excalibur,仿佛硕士期间的所有阴霾一扫而尽。那时候的我依然还不完全知道科研是什么,但是隐隐之中觉得似乎可以继续试试。

第零年:可以做什么

我对于科研看法的第一个转折,在于我硕士临近毕业的时候。李航老师来到我们实验室给了关于机器学习和信息检索的报告,并且和我们座谈。在报告的过程中,我异常兴奋,甚至时不时地想要跳起来,因为发现我似乎已经知道如何可以解决这么多有趣问题的方法,但是之前却从来没有想过自己可以做这些问题。联系了李航老师之后,在同一年的夏天,我有幸到香港跟随李航和杨强老师实习。实验室的不少学长们曾经去香港和杨强老师工作,他们回来之后都仿佛开了光似的在科研上面突飞猛进。去香港之后,我开始明白其中的原因——研究视野。经过几年的磨炼,那时候的我或许已经知道如何去解决一个已有的问题,但是却缺乏其他一些必要的技能——如何选择一个新颖的研究问题如何在结果不尽人意的时候转变方向寻找新的突破点如何知道整个领域的问题之间的关系等等。“你香港回来以后升级了嘛。”——来自某大侠的评论。这也许是对于我三个月香港实习的最好的概括吧。香港实习结束的时候我收获了第一篇正式的一作会议论文(在当年的ICML)。因为KDDCUP的缘故,我认识了我现在的博士导师Carlos的postdoc Danny,Danny把我推荐给了Carlos(UW)和Alex(CMU)。我在申请的时候幸运地拿到了UW和CMU的offer。在CMU visit的时候我见到了传说中的大神学长李沐,他和我感叹,现在正是大数据大火的时候,但是等到我们毕业的时候,不知道时代会是如何,不过又反过来说总可以去做更重要的东西。现在想起这段对话依然唏嘘不已。我最后选择了UW开始

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • SP: leopold (v1.2)
  • 《通义千问AI落地—下》:WebSocket详解
  • 学习记录:js算法(十六):四数之和
  • 渗透课程第二阶段--Part8--XXE渗透与防御
  • 激活函数的创新之旅:在PyTorch中自定义激活函数
  • 常用PHP JS MySQL 常用方法记录
  • TCP三次握手过程详解
  • Shell编程规范与变量:详解环境变量、位置变量与预定义变量
  • Java 入门指南:Java IO流 —— 序列化与反序列化
  • centos7 xtrabackup mysql(8)压缩 全量备份 还原(4)
  • 加速网络体验,Squid缓存代理:让浏览如飞,畅享无限网络速度!
  • 计算机专业的真正的就业情况
  • C语言 | Leetcode C语言题解之第375题猜数字大小II
  • 02-03:原理图与PCB交互以及快速模块化
  • E - Red Polyomino 关于回溯 和爆搜
  • ES6指北【2】—— 箭头函数
  • 《剑指offer》分解让复杂问题更简单
  • angular2 简述
  • Docker 笔记(1):介绍、镜像、容器及其基本操作
  • Github访问慢解决办法
  • JWT究竟是什么呢?
  • LeetCode算法系列_0891_子序列宽度之和
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • 排序(1):冒泡排序
  • 悄悄地说一个bug
  • 区块链共识机制优缺点对比都是什么
  • 一个项目push到多个远程Git仓库
  • 应用生命周期终极 DevOps 工具包
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • ​ubuntu下安装kvm虚拟机
  • # 深度解析 Socket 与 WebSocket:原理、区别与应用
  • ## 临床数据 两两比较 加显著性boxplot加显著性
  • ###51单片机学习(2)-----如何通过C语言运用延时函数设计LED流水灯
  • #DBA杂记1
  • (145)光线追踪距离场柔和阴影
  • (M)unity2D敌人的创建、人物属性设置,遇敌掉血
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (八)Flink Join 连接
  • (第30天)二叉树阶段总结
  • (第二周)效能测试
  • (二)丶RabbitMQ的六大核心
  • (利用IDEA+Maven)定制属于自己的jar包
  • (论文阅读31/100)Stacked hourglass networks for human pose estimation
  • (论文阅读笔记)Network planning with deep reinforcement learning
  • (七)Knockout 创建自定义绑定
  • (三)终结任务
  • (一)Dubbo快速入门、介绍、使用
  • (转)Oracle 9i 数据库设计指引全集(1)
  • (转载)虚函数剖析
  • .FileZilla的使用和主动模式被动模式介绍
  • .net core 控制台应用程序读取配置文件app.config
  • .net core控制台应用程序初识
  • .net 打包工具_pyinstaller打包的exe太大?你需要站在巨人的肩膀上-VC++才是王道
  • .Net6使用WebSocket与前端进行通信
  • .net操作Excel出错解决