模型材料

深度学习的可解释性研究一让模型说人

发布时间:2023/12/14 12:12:33   
雷锋网AI科技评论按:本文为BIGSCity的知乎专栏内容,作者王小贱。北航智慧城市兴趣组BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。AI科技评论获得BIGSCity授权转载,敬请期待更多后续内容。非常开心本文成为BIGSCity兴趣组的第一篇投稿,《深度学习的可解释性研究》系列预计包含3-4篇内容,用尽可能浅显的语言带领大家了解可解释性的概念与方法以及关于深度学习可解释性工作的研究成果,不定期更新内容(欢迎催更)。可解释性是什么?广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的「宇宙的目的是什么」这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。而具体到机器学习领域来说,以最用户友好的决策树模型为例,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据:比如男性未婚博士秃头的条件对应「不感兴趣」这个决策,而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。所以在一定程度上,我们认为决策树模型是一个具有比较好的可解释性的模型,在以后的介绍中我们也会讲到,以决策树为代表的规则模型在可解释性研究方面起到了非常关键的作用。再以用户最不友好的多层神经网络模型为例,模型产生决策的依据是什么呢?大概是以比如1/(e^-(2*1/(e^(-(2*x+y))+1)+3*1/(e^(-(8*x+5*y))+1))+1)是否大于0.5为标准(这已经是最简单的模型结构了),这一连串的非线性函数的叠加公式让人难以直接理解神经网络的「脑回路」,所以深度神经网络习惯性被大家认为是黑箱模型。17年ICML的Tutorial中给出的一个关于可解释性的定义是:InterpretationistheprocessofgivingexplanationstoHuman.总结一下就是「说人话」,「说人话」,「说人话」,不以人类可以理解的方式给出的解释都叫耍流氓,记住这三个字,你就差不多把握了可解释性的精髓所在。我们为什么需要可解释性?广义上来说我们对可解释性的需求主要来源于对问题和任务了解得还不够充分。具体到深度学习/机器学习领域,就像我们上文提到的多层神经网络存在的问题,尽管高度的非线性赋予了多层神经网络极高的模型表示能力,配合一些堪称现代炼丹术的调参技术可以在很多问题上达到非常喜人的表现,大家如果经常

转载请注明:http://www.aideyishus.com/lkgx/5962.html
------分隔线----------------------------