当前位置: 模型材料 >> 模型材料市场 >> 顶级AI学者邢波机器学习缺乏清晰理论框架
机器之心原创
采访:闻菲
年1月,全球计算机科学和人工智能领域顶级学者邢波教授(EricP.Xing)正式出任全球首个人工智能大学MBZUAI的创始校长。日前他接受了机器之心的专访。在超过4个小时的访谈中,邢波教授分享了他的治学和治校之道。考虑到篇幅,我们将采访整理分为上下两篇发布。
上篇也即下文是他对机器学习和人工智能领域现状及学科发展的看法;下篇则是作为MBZUAI正式创始校长,邢波教授对学术管理及领导力,对研究品味,以及对探索创造新的、更加符合当前时代的AI科研和教育环境的思考。
近年来人工智能高速发展,却不想领域内重商主义气息愈加浓厚,随着企业和高校在设备、人才乃至研究话语权之间展开竞争,AI的科研和教学越发受市场和资本所左右。
成为一名「教授」所能获得的回报和荣誉感,以及自由探索的空间,都大不如前。研究人员面临着一种困惑,是索性顺应这个时代的潮流去当学术网红,还是靠灌水、刷榜成为所谓的高产学者,因为在越来越多的情况下,囿于资源、制度等因素,静下心来钻研真正有价值的问题,似乎已经成为一种奢侈。
「在如今学校的科研环境里,很多学者都有一些挫折感,学生也比较迷茫,我想这一点大家是很清楚的。」年3月,卡内基梅隆大学(CMU)计算机科学学院教授,刚出任MBZUAI正式校长不久的邢波教授(EricP.Xing)在接受机器之心专访时说。
MBZUAI全称默罕默德·本·扎耶德人工智能大学(MohammadBinZayedUniversityofArtificialIntelligence),年底在阿联酋阿布扎比成立,是全球第一所专注于人工智能的大学,仅提供研究生课程,强调研究型机构特征,最初由图像分析领域先驱、年在牛津大学创立机器人研究小组(现今OxfordRoboticsInstitute前身)的J.MichaelBrady爵士任临时校长。
被任命为MBZUAI正式校长时,邢波教授表示MBZUAI致力于在人工智能的教育和研究中追求卓越,他希望在这个新的平台上培养出具有基本AI素养的新一代领导力人才,能够通过学术研究和产业应用充分发挥人工智能的潜力,同时让MBZUAI成为阿联酋经济和社会发展的一股积极影响力。
作为全球计算机科学和人工智能领域的顶级学者,同时也是深谙AI实际应用的杰出商业领袖,邢波教授非常了解自己面临的考验。出任MBZUAI的正式创始校长,是他给自己定下的一个目标,希望通过这个从零开始的机会,探索创造一种新的、更加适应当代要求的科研教育和技术转化环境,并通过这个环境,对AI发展做出应有的贡献。
根据计算机科学领域的权威排名CSRankings,从年到年,在包括人工智能、机器学习、系统、理论、交叉领域等全方位计算机科学研究中,CMU是全球范围内产出高质量研究最多的机构,而邢波教授是CMU里产出高质量研究最多的学者。来源:csrankings.org
年,邢波教授从清华大学物理系毕业,随后进入罗格斯大学攻读分子生物学和生物化学博士学位。年博士毕业后,他进入加州大学伯克利分校,继续攻读计算机科学博士学位,师从图灵奖得主RichardKarp,以及更为如今AI界所熟悉的MichaelI.Jordan和StuartRussell。
年,拥有双博士学位的邢波教授加入CMU的计算机科学学院,在这一世界领先的计算机科学研究和教学环境中潜研至今,从助理教授开始,到年取得终身教职,再到年获得教授头衔。年起,他开始肩任较为重要的学术管理职责,包括出任CMU与匹兹堡大学医学中心联合成立的「机器学习与健康中心」(CenterforMachineLearningandHealth)的创始主任,并从年7月起升任CMU计算机科学学院机器学习系的研究部副主任。
同样在年,邢波教授还创办了Petuum,这是一家致力于提供人工智能和机器学习基础工程框架的公司,基于他以前在参数服务器方面的开创性成果,公司的愿景是希望AI和机器学习解决方案像乐高积木一样,是模块化、可拆解、能够自由组合搭配使用的。Petuum于同年和次年连续两年入选CBInsights全球AI创企百强榜单「AI」,年入选达沃斯经济论坛「技术先锋」。
像所有崇尚数理美感、追寻「万物皆数」的科学家那样,邢波教授认为人工智能也应该是需要去理解的,正如这个物理世界的规律可以用数学的语言去表达。从年开始,他便带领团队从损失函数的角度入手,尝试发现不同机器学习算法和模型间的共性,试图构建一个从形式化角度统一理解机器学习的理论框架,为今后人工智能的可工程化铺垫。
邢波教授团队从损失、优化求解器和模型架构等方面入手,为基于经验和任务的机器学习方法提供了一个统一的数学公式(standardequation)。他们发现,监督学习和无监督学习可以在数学上有着类似或相同的表达。来源:EricXingZhitingHu,ABlueprintofStandardizedandComposableMachineLearning,PetuumCarnegieMellon,.
与传统将「科学」和「工程」置于天平的两端去比较不同,邢波教授认为工程是承继科学之后的一个发展阶段。他指出调参或试错不是「工程」,AI领域里真正工程化的工作还没有展开。
在下文的采访整理中,邢波教授分享了更多他对机器学习和人工智能领域现状及学科发展的思考。
一、看机器学习领域现状:缺乏理论和工程上清晰的框架
机器之心:我看了您近期的一些视频演讲,您提出了一个standardequation,想要统一所有的机器学习范式或模型,并且让它们像乐高积木那样可组合。这源自您对机器学习发展怎样的理解?提出这样的统一的表达公式之后可以为领域带来怎样的启发?
邢波教授:这的确是一个非常关键的问题,也是一个很难的问题。我们在做这项工作的时候,并不是为了统一而统一,实际上是很自然地演变进入到了这么一个阶段。机器学习和人工智能过去这十几年的飞速发展,产生了很多大大小小的结果,但是它们基本上都是停留在一个学术探索、试错、积累的状态,还没有形成一个完备的体系;甚至还没有归纳出严格的形式规范、理论基础和评估方法;没有涌现像物理、数学里面类似哥廷根学派、哥本哈根学派那种立足于某种核心理论,方法论,思考逻辑,甚至科研风格的schoolofthoughts。所以目前的多数成果对于工程落地和实现愿景并不是非常明确。但是人工智能又被公众和社会赋予了极大的期待,希望能够尽快地落地。
这就形成了目前这样纷乱的拓展局面,包括各种结果之间是否兼容,是不是能够组合,是否有重复,是否有冗余。这些问题都没有来得及回答。
在以前的研究里,我个人的兴趣会期待有一种比较清晰、简洁、实用,理论上具备严格逻辑且完整叙事的解决方式。
因此我对目前整个领域的这种比较混乱的发展局面是有一些关切,或者说甚至是有一些保留的。所以我觉得需要有一个工作去把它们整理一下,看看到底是怎么回事。
然后在工程上对此也有客观的需要。很多人尤其是科学家圈子,对于工程的理解其实有一些偏颇之处。诸多研究生、教授对于工程这方面的工作实际上是持鄙夷或者是轻视、藐视的态度。自认为我是科学家,那是工程问题。他们把编程、调参、系统优化、hack或者是试错的方法,甚至标准化、模块化的工作都认为是工程,所以他们会有一些居高临下、不屑一顾,以致鄙弃的看法。
但是我对工程的理解实际上是不太一样的。我认为如果要把一个学科升级到「可工程化」阶段的话,实际上代表了这个学科的成熟——工程是高于科学的。只有把科学原理搞清晰,解决了重复性、标准化这些问题之后,我们才能开始真正的工程。我觉得公众对于工程化、落地化的需求,人工智能科学尚未满足,科学方面还需要再走一步,来做标准化和统一的工作。
比如说土木工程、化学工程,或者生物工程,你会发现它们实际上是出现在力学、化学或者生物学之后的,而不是先有了这些工程,再有这些科学。
而在人工智能里面,我觉得大家没有理解这个顺序,把工程鄙视成调参或者试错,而把科学升得过高了,以至于所谓「科学」走得太快,没有停下来做一些整理或者吸收。所以我觉得AI领域里,工程化工作其实还没有真正的展开。
这次胡志挺博士和我做的有关standardequation(标准方程)的工作,是希望把已有的AI工作进行整理,为以后可能的工程化来铺路。工程化就体现了刚才我们讲的可组合、乐高式的拼接。你会发现这个是目的,但是达到这个目的手段就已经涵盖了对于标准化、安全性,对于可解释性和数学简洁性的要求。
综上所述,我们这个工作不是为了统一而统一,是到了一个很自然的节点,有这样实质性的需要,况且目前也积累了这么多素材,我们就恰好处在这么一个很好的时机来做这项工作。
概括来说,标准方程就是用一个普适通用的公式来表达各种机器学习范式,比如传统的最大似然监督学习和无监督学习,贝叶斯学习,还有增强学习(ReinforcementLearning),主动学习(ActiveLearning),对抗生成学习等等。它们目前都有自己的狭义甚至专有的数学形式和计算方法,在每个局域里每年又都有大量的成果发表出来,形成了一个极其庞大的算法「野生公园」,每年新增的「新算法」不下上千。通常我们定义或者开发一个学习范式,需要从三个方面给出方案:目标方程、模型架构、算法。通常目标方程为主,定义了范式的基本数学本质;其他为从属,给出了具体的特征化手段和计算手段。目前大量的成果集中在比如模型架构,包括各种深度模型结构,概率图模型,核函数等等;以及各种算法,包括各种梯度的衍生物,蒙特卡罗,优化加随机的朗之万方法,等等。
我们提出的机器学习标准方程包含三个项:experiencefunction(经验函数),divergencefunction(距离函数),uncertaintyfunction(不确定性函数)。我们发现,对每一项的函数选取特别的实例化(instantiation),可以还原几乎所有已知机器学习范式。给定standardequation实例,则任意模型架构,算法,可以自由调用。
我们在机器学习标准方程上的工作,现在还仅限于对目标方程来做统一的处理。今后不排除提出通用的算法(所谓的masteralgorithm,万能钥匙算法),以及通用模型(比如像BERT这样的所谓all-purposemodel,全能模型)。
目标方程是指在训练一个机器学习模型的时候,需要对模型好与坏做出判断,而且能够对于方程进行有目的的优化。另外,对于我们训练模型所使用的各种信息原材料,需要一个赛道来引入。这就是我们所说的从「所有经验」中学习:learningfromallexperiences。
简单举例:通常我们在训练一个人的时候,一种方式是用范例,给他看0张图片,或者把英语各种词给他说几百遍,或者是让他见到无数多的样本,这是一种方法。但是,在人的学习里还可以通过很多其他的experiences,比如我可以直接告诉你规则:与其告诉你1+1=2,2+2=4,…,我可以告诉你x+x=2x。这就是一个规则。
我们还可以直接总结或者提取规则:比如看高斯在做加法的时候,大家都说高斯很天才,他9岁的时候就发明了等差数列求和方法,计算从1到这个整数之和,他是把1+,2+99得到,然后再乘以50。这就是一种规律,而不是说把数字全加起来。这是一种学习方式,着眼于规则,而不是基本数据(rawdata)。
还有让人去做实验或体验,比如游泳,学习手脚怎样姿势,但是靠看教科书上的理论是无法学会的,必须要跳到水里去亲自游,体验这个姿势能不能让身体浮起来,能不能游动。这又是一种方式,思路上接近于增强学习(ReinforcementLearning),强调系统和环境的互动、探索、反馈。
还有模仿学习(ImitationLearning)。比如学钢琴,也许有人可以告诉你按键要用50克的力道,然后照着某一个音符来弹,这是一种最极端的规则式教法。也可以设想有老师会把同一音符或者乐曲用各种速度、音色、力量弹几百遍给学生作为训练数据集,实现所谓「监督学习」。甚至可以设想老师只提供你乐谱,或者没有乐谱而只放一遍音乐,然后放手让学生自己模仿甚至发挥,实现所谓「无监督学习」。听起来都很不可思议,不太靠谱?还有一种大师班里的教法,大师说你在边上观摩,我给你弹一段,他就直接弹奏一段,然后说你跟着学。在学的时候这就是imitation,让你去模仿,但并不是用可监督或无监督的学习,实际上是一种新的模式。
还有一种类似现在的对抗生成式,一种挑战性的博弈式的训练学习,让你来生成一个例子,然后来看看你的例子能不能把我给「欺骗」住。这些都是学习的方式。
在目前的机器学习里面,对每一种方式都采用了自有的一套paradigm,有时也被泛称作「算法」,但实际上包括了建模、定目标方程、最后的优化算法,这些都是不一样的。所以可以想象,方法论繁杂众多。每一个不同的经验、每一种不同的数据、每一个不同的训练信息来源,都是使用不同方法来获取的。
我们在做标准方程的时候,试图把这些不同的方法都统一到一个赛道里面,或者是用一套方程来写。这样至少首先让大家搞清楚我在做什么,也许我做的两个东西,把它写成方程以后,就是同样东西,它们也许没那么不同。
所以说了解整个训练过程本身,就已经相当有实际意义。
比如说maximumlikelihoodlearning(最大似然法),或者Bayesianlearning(贝叶斯训练),或者是reinforcementlearning(增强学习),它们实际上有类似或者完全统一的数学形式,甚至可以共享很多过去专用的高效优化算法,例如policygradient和它的更强的衍生算法。
原来为了某一个训练的平台发明的算法,实际上可以用到另一个地方,它可以使优化算法的使用性拓宽,能够通用,这也是另外一个好处,能够提供这种组合的便利。因为有时候你可以把不同的经验合并在一起,而不用重新发明一个新的数据平台来做这样的统一。
就像人是用同一个大脑来学所有东西的。不是像在大学里一定要分科,有些人非要学文,有些人非要学理,然后学不同的方法还要细分。同一个人,既可以文也可以理,也可以学不同的东西。这实际上是我们希望在机器学习里能够带来的结果。
总之,在一个实用性的目标之下,把已有的成果和经验做一个梳理,最后用精确扼要的表达来涵盖我们目前的结果,有效简化以后的学习和实现,同时便于进行更通用的理论分析。这是对我们的机器学习标准方程工作的一个基本概括。
我在我的讲演里面用了一个例子,讲到了19世纪时物理学的状况。那时候电学、磁学、光学、力学都是分开的,大家认为它们是不同的领域,有很多看上去很不相关的工作被做出来了,形成了很庞大的一套结果。这对于学生来说,学会这几门学科已经要花很多时间,要看出规律、进一步往前推进就更难了。其实这是灾难性的。
但麦克斯韦把电磁统一了以后,就导致了对于这两种看似不同的自然现象的互为因果对称转化的理解和应用(比如通过磁转子来发电),甚至后来的对于光的波粒二象性的物理本质的理解,以及对于量子力学和电磁学的统一框架提供了思想上的启发,然后就发现物理衡量,比如光的常数——光速、普朗克常数、……,这些东西通过一套统一的理论话语,会看到里面缺什么,就会认识得更清楚了。它实际上更能够推动创新。
电磁统一过后,后来经过了杨振宁和米尔斯的规范场,现在物理里面从电到磁到弱力到强力,这四个都已经统一了,剩下只有引力没有统一。
这种统一一方面包含了自然哲学之美,另一方面也使很多东西有了应用和通用的可能。比如在电磁学统一了以后,人们对电磁的交互就产生了更深刻的理解,以至于后来制造出发电机、电力时代的产生,当时科学上的前瞻是起了很大作用的。
我们也希望在AI里面形成这样一个理论上更清晰的框架,能够使以后的创新站在更好的基础上,也使落地工作有一个更好的工程框架,让新的工作能够有更好的方向性。
机器之心:我可以这么理解吗,您认为AI或者说至少机器学习领域是存在这样一个统一框架的?
邢波教授:这个我觉得还不太好说。首先本质上什么叫做「统一」这个问题就有待讨论,这个词本身有模糊性。我倒不觉得统一就一定意味着用一个公式把所有的成果全都包含。我只是认为有必要把本来应该是同样原则的东西(但其表象不一样)溯本求源地发现出来,解释清楚。
不是为了统一而统一,而是把这些原本的统一或者原本的一致性的东西讲清楚。比如说引力和电磁力到底是不是相同其实还不太清楚。也许它们是不同的,也许它们是相同的,需要给出个回答。所以我没法预期它的最终形态,但是我觉得这个工作本身是有必要的。
机器之心:基于您现在的标准方程,您认为很多机器学习方式本质上是一样的,不管它是呈现出增强学习或者深度学习、对抗生成学习等形式,可以这么说吗?
邢波教授:这个问题难以用是与不是来简单回答。因为我不能保证断定它们是一样的。
机器之心:您刚才提到,很多东西看起来是很多不同的结果,实际上是一样的,我们现在就来提炼出本质。
邢波教授:这个问题比较复杂,所谓「一样」是有不同的定义的。一种是形式(symbolic)上的一样,另一种是物理(physical)上的一样,另一种是工程实现(realization/implementation)上的一样。这几个一样实际上是在不同层面上的。
现在standardequation只是提供了形式上的一样,但它是不是在物理上是一回事,我们还没有试图回答这个问题。比如,在标准方程第一项——经验函数(experiencefunction)中,我们既可以嵌入数据经验(dataexperience),也可以嵌入来自和环境交互的回报经验(rewardexperience)。前者等同于最大似然学习,后者等同于增强学习。但是,这两种学习在标准公式中形式上的一致,并不代表它们学习的是同一种东西。前者是静态的模型下的隐变量和模型参数;后者是一种叫做策略(policy)的东西,是系统态(state,一种隐变量)和动作(action,通常是可测变量)之间的映射方程(mappingfunction)。所以这两种对于standardequation的实例化(instantiate),对应了物理内容上两种不同的学习。可以说它们的公式看上去是一样的,就像自然语言的算法和计算机视觉的算法,它们的数学公式可以一样,但它们显然是不同的。
这就表示两件事在形式上有一致性,但它们实质上的物理内容是不一样的。所以还是得看使用场景和具体的问题。但这种形式的一致性,可以给予研究者更大的想象空间和操作空间:比如可以把「数据经验」和「回报经验」相加,甚至加入更多的经验(比如对抗经验),那最终训练出来的系统是什么呢?它的理论特征为何?不同经验之间相对影响怎样?能否非线性组合?用什么算法来训练?……这些都是我们希望标准方程能引发的新的研究课题,非常有趣。
还有一个更大的空间,我还没有深入地研究:通常机器学习里包括目标方程、优化算法(就是用数学工具来做优化),还有一个是模型本身。模型在数学里面用p代替,或者用f代替,但这里面包罗万象。整个深度学习革命的工作一大部分都是建立在模型里面做创新,比如把它从一层变成层,然后把里边的结构做不同的细化。
像现在的co-attentionmodel、transformer、LSTM这几个大型的深度学习模型,其实都是在模型空间里面做创新。而生成对抗模型(GANmodel)是另一个层面,是在目标方程里面做创新。
我讲课的时候会把这些东西梳理一下,让大家知道创新点在何处。但是现在在我们大众或者甚至是在某一个层面社区内对这个意义,都是混在一起。
所以我现在的工作目标之一就是把这些梳理清楚,让大家知道创新的方向在何处,或者我们现在的结果该如何评估、处置。
算法里面当然有各种各样的创新,刚才我们讲到的梯度就是最大的一个算法。Backpropagation实际上就是梯度里的一个特例而已,EM也是梯度里的一个特例。
除了梯度以外,还有另外的算法。比如遗传算法就不是梯度算法,蒙特卡罗也不是。我们有时候会说zeroorder(零阶)或者firstorder(一阶)、secondorder(二阶),其实已经把算法层面上的大致方向做了一个概括。但是这个空间里面也有很多工作可以做。比如我们最近的一项工作叫做black-boxoptimization,黑箱优化,用来支持LearningtoLearn,属于元学习(Meta-Learning)中的一项任务。因为优化的对象本身就是一个机器学习算法或者模型结构,而不是具体的形式化好的方程里的参数,无法求导,而只能采用试运行(Query),每一次都很昂贵(试想每一次都相当于在特定超参数设置下训练一遍BERT),如何用最少的试运行找到最好的超参数获得最快训练速度和最佳训练结果?这些都是很有趣的问题。在标准模型框架下,这样的研究会有更好的理论和应用潜力。
在标准模型下,所有以上工作都会直接获得通用性,兼容性,真正做到举一反三:为增强学习设计的算法可以直接用到普通的最大似然学习,达到数据强化(dataaugmentation)的效果;为序列数据(sequentialdata)设计的深度模型可以用来表达policy;对于监督学习所做的边界鲁棒性分析也许可以覆盖其他学习范式。
我觉得现在很多创新缺乏精准的定位。任何一个具体工作都是多维的,如上所述的目标方程、模型、算法;目标方程里包括经验函数、距离函数、不确定性函数;其中经验函数里可以包括数据、规则、回报等等,而距离函数可以包含KL-divergence,JS-divergence,cross-entropy,等等。通常在做创新的时候,或者是在定义创新、评估创新或结果的时候,是需要把那些不变维设成常数,然后拿创新维做变量,再评估结果,然后再轮换。但是如果一口气把目标方程换了,把模型也换了,把算法也换了,最后得到新结果,其实是很难让自己或者别人复制或解释到底是哪方面的创新达成了你的最佳结果。
这也是为什么升级工程产品的时候,比如说造一架飞机,通常如果要测试引擎的力道,会把其他的东西都固定,比如飞机的载重或者是造型、流体动力学都是固定的。然后通过引擎的调整或者升级,能够看结果是多少。
但要考虑更新机翼的话,如果其他方面不能使用常量,一口气把飞机从形状到动力到材料全换了,最后总结这架飞机更好。但到底是哪里好?为什么好?这是搞不清楚的。我希望能够进一步提倡这种比较严密的研究思路。虽然可能会减缓创新的速度,但是成果可能更容易积累或者更容易被消化。
二、看机器学习评估方法及目标:Leaderboard缺陷在哪?
机器之心:您认为衡量机器学习算法或者模型的优劣,就是应该准确地定位创新点具体在哪里,可以这么理解吗?您曾经提到过,业界现在被非实际性能还有排行榜迷花了眼,大家都比较专注于那样的提高。您也在尝试一种新的方法来评估机器学习模型,您能不能就此展开一下:除了您刚才说的具体知道哪方面有所创新,还有如果我们不看性能,不看精确度,不看这些,当然也会考虑到计算消耗的能量,那我们看什么呢?
邢波教授:这个问题问得挺好的。刚才我讲的所谓「固定两点来看第三点的影响」实际上是评估方法,不是评估的目标。这个目标需要设定,你刚才的问题实际上是问到了我们根据什么目标来评估。
先讲评估方法。无论对哪一个目标,都应该每次把其他的不动维定下来,然后把变动的那一维明确好,这样一维一维地来精准评估创新的价值或者效果。
当然也可以同时两维,但是你全部改动了以后,是会confounding,产生混淆,或者这些维度之间的关联或其他未知因素互相影响造成错误的判断。
现在假设我们的评估方法是对的,那么去评估哪个目标呢?这个问题其实在业界也有争议,或者说值得去深入思考。
目前业界在机器学习里面,基本上有两种评估目标。一种就是所谓的数学自定义目标,比如说模型方程里对于训练数据的边缘概率(marginallikelihood)或全概率(
转载请注明:http://www.aideyishus.com/lkjg/1533.html