技术标签: 机器学习 机器学习算法理论与实战 模型可解释 Machine Learning
无论数据科学解决方案的最终目标如何,最终用户总是更喜欢可解释且易于理解的解决方案。此外,作为数据科学家,您将始终受益于模型的可解释性,以验证和改进您的工作。在这篇博客文章中,我试图解释机器学习中可解释性的重要性,并讨论一些您可以自己试验的简单操作和框架。
关于机器学习的xkcd
在传统统计中,我们通过调查整个数据来构建和验证假设。我们构建模型来构建规则,我们可以将这些规则合并到流程的心理模型中。例如,营销公司可以构建一个模型,该模型将营销活动数据与财务数据相关联,以确定什么构成有效的营销活动。
这是一种自上而下的数据科学方法,可解释性是关键,因为它是所定义的规则和流程的基石。由于相关性通常不等于因果关系,因此在制定决策和解释时需要一个可靠的模型理解。
在自下而上的数据科学方法中,我们将业务流程的各个部分委托给机器学习模型。此外,通过机器学习实现了全新的商业创意。自下而上的数据科学通常对应于手动和繁重任务的自动化。制造公司可以例如将传感器放在他们的机器上并执行预测性维护。因此,维护工程师可以更高效地工作,而无需执行昂贵的定期检查。模型可解释性是必要的,以验证模型正在做什么符合您的期望,并允许与用户建立信任并简化从手动过程到自动过程的过渡。
在自上而下的过程中,您可以迭代地构造和验证一组假设。在自下而上的方法中,您尝试通过自下而上解决问题来自动化流程。
作为数据科学家,您经常关注微调模型以获得最佳性能。数据科学通常被定义为:'给定带有标签y的数据X,找到具有最小误差的模型'。虽然培训高性能模型的能力对于数据科学家来说是一项关键技能,但重要的是能够从更大的角度看待。数据和机器学习模型的可解释性是数据科学管道实际“有用”中关键的一个方面,它确保模型与您要解决的问题保持一致。虽然在构建模型时尝试使用最先进的技术很容易迷失自己,但能够正确解释您的发现是数据科学过程的重要组成部分。
需要解释模型来验证模型预测的有用性。
作为数据科学家,有几个理由关注模型可解释性。虽然这些之间存在重叠,但它们捕获了可解释性的不同动机:
识别并减轻偏见。
偏差可能存在于任何数据集中,由数据科学家来识别并尝试修复它。数据集的大小可能有限,并且可能无法代表整个数据集,或者数据捕获过程可能没有考虑潜在的偏差。在彻底的数据分析之后或当模型预测与模型输入之间的关系被分析时,偏差通常才会变得明显。如果您想了解更多有关不同类型偏见的信息,我强烈推荐以下视频。请注意,解决偏见没有单一的解决方案,但是在解释性方面意识到潜在偏见的关键步骤。
例如,word2vec向量包含性别偏见,因为他们已经训练过的语料库中存在固有的偏见。当您使用这些单词嵌入来训练模型时,搜索“技术配置文件”的招聘人员会将女性简历留在堆的底部。
例如,当您在小型手动创建的数据集上训练对象检测模型时,通常情况下图像的宽度太有限。需要在不同环境,不同闪电条件和不同角度的物体的各种图像,以避免仅适合数据中的噪声和不重要元素的模型。
考虑问题的背景。
在大多数问题中,您正在使用的数据集只是您要解决的问题的粗略表示,而机器学习模型通常无法捕获现实任务的完整复杂性。可解释的模型可帮助您理解和解释模型中包含的(未)因素,并在根据模型预测执行操作时考虑问题的上下文。
改善泛化和绩效。
高可解释性通常会导致模型更好地推广。可解释性不是要理解所有数据点的模型的每个细节。固体数据,模型和问题理解的结合对于拥有更好的解决方案是必要的。
道德和法律原因。
在金融和医疗保健等行业中,审核决策流程并确保其不歧视或违反任何法律至关重要。随着GDPR等数据和隐私保护法规的兴起,可解释性变得更加重要。此外,在医疗应用或自动驾驶汽车中,单个不正确的预测可能会产生重大影响,并且能够“验证”模型是至关重要的。因此,系统应该能够解释它是如何达到给定的建议的。
关于模型可解释性的一个共同点是,随着模型复杂性的增加,模型可解释性至少下降得如此之快。特征重要性是解释模型的基本(通常是免费)方法。即使对于诸如深度学习的黑盒模型,也存在提高可解释性的技术。最后,将讨论LIME框架,作为模型分析的工具箱。
广义线性模型(GLM)都基于以下原则:
如果您将特征x与模型权重w进行线性组合,并通过壁球函数f提供结果,则可以使用它来预测各种各样的响应变量。GLM的最常见应用是回归(线性回归),分类(逻辑回归)或建模泊松过程(泊松回归)。训练后获得的权重是特征重要性的直接代表,它们为模型内部提供了非常具体的解释。
例如,在构建文本分类器时,您可以绘制最重要的特征并验证模型是否过度拟合噪声。如果最重要的单词与您的直觉(例如名称或停用词)不对应,则可能意味着该模型适合数据集中的噪声,并且在新数据上表现不佳。
TidyTextMining中用于文本可解释性的整洁可视化示例。
甚至诸如基于树的模型(例如,随机森林)之类的非线性模型也允许获得关于特征重要性的信息。在随机森林中,在训练模型时,特征重要性是免费的,因此它是验证初始假设并确定模型正在学习什么的好方法。基于内核的方法(如SVM)中的权重通常不是特征重要性的非常好的代表。内核方法的优点是,您可以通过将特征投影到内核空间来捕获变量之间的非线性关系。另一方面,仅仅将权重视为特征重要性并不能完成特征交互。
通过查看特征重要性,您可以确定模型正在学习什么。由于这个模型中的许多重要性都被放到了一天中,因此可能值得加入其他基于时间的功能。(Kaggle)
由于参数的剪切数量和提取和组合特征的复杂方法,深度学习模型因其不可解释性而臭名昭着。由于这类模型能够在许多任务上获得最先进的性能,因此许多研究都集中在将模型预测与输入联系起来。
可解释机器学习的研究数量正在快速增长(麻省理工学院)。
特别是当转向处理文本和图像数据的更复杂系统时,很难解释模型实际学习的内容。研究的主要焦点目前主要是将输出或预测与输入数据联系起来并将其关联起来。虽然这在线性模型的背景下相当容易,但对于深度学习网络来说仍然是一个未解决的问题。两种主要方法是基于梯度或基于注意力。
- 在基于梯度的方法中,在向后传递中计算的目标概念的梯度用于产生突出显示输入中用于预测目标概念的重要区域的地图。这通常应用于计算机视觉环境中。
Grad-CAM是一种基于梯度的方法,用于生成视觉字幕。基于输出标题,该方法确定输入图像中的哪些区域是重要的。
- 基于注意的方法通常与顺序数据(例如文本数据)一起使用。除了网络的正常权重之外,还训练注意力量作为“输入门”。这些注意力量决定了最终网络输出中每个不同元素的数量。除了可解释性之外,在例如基于文本的问答的背景下的关注也导致更好的结果,因为网络能够“集中”其注意力。
在回答问题时,可以指出文本中哪些词最重要,以确定问题的答案。
Lime是一个更通用的框架,旨在使“任何”机器学习模型的预测更易于理解。
为了保持与模型无关,LIME通过在本地修改模型的输入来工作。因此,不是试图同时理解整个模型,而是修改特定的输入实例,并监控对预测的影响。在文本分类的上下文中,这意味着例如替换了一些单词,以确定输入的哪些元素影响预测。
原文:https://towardsdatascience.com/interpretability-in-machine-learning-70c30694a05f
文章浏览阅读1.1k次。一、选择题1. 串行接口是指( )。A. 接口与系统总线之间串行传送,接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送,接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送,接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送,接口与I/0设备之间并行传送【答案】C2. 最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型
文章浏览阅读9.7k次,点赞5次,收藏15次。连接xshell失败,报错如下图,怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了,服务器没有安装,则需要安装ssh服务器,命令:apt-get install openssh-server3、安装成功之后,启动ssh服务,命令:/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.
文章浏览阅读209次。00000000_杰理 空白芯片 烧入key文件
文章浏览阅读475次。2023年初,“ChatGPT”一词在社交媒体上引起了热议,人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士,我们当然不能忽视这一热点。本文将全面解析ChatGPT,打开“技术黑箱”,探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述
文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计
文章浏览阅读64次。最近在做一个android系统移植的项目,所使用的开发板com1是调试串口,就是说会有uboot和kernel的调试信息打印在com1上(ttySAC0)。因为后期要使用ttySAC0作为上层应用通信串口,所以要把所有的调试信息都给去掉。参考网上的几篇文章,自己做了如下修改,终于把调试信息重定向到ttySAC1上了,在这做下记录。参考文章有:http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console
文章浏览阅读1.2k次,点赞4次,收藏12次。1,先去iconfont登录,然后选择图标加入购物车 2,点击又上角车车添加进入项目我的项目中就会出现选择的图标 3,点击下载至本地,然后解压文件夹,然后切换到uniapp打开终端运行注:要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools(mac用户失败的话在前面加个sudo,password就是自己的开机密码吧)4,终端切换到上面解压的文件夹里面,运行iconfont-tools 这些可以默认也可以自己命名(我是自己命名的_uniapp symbol图标
文章浏览阅读1.2w次,点赞25次,收藏192次。char*和char[]都是指针,指向第一个字符所在的地址,但char*是常量的指针,char[]是指针的常量_c++ char*
文章浏览阅读930次。代码编辑器或者文本编辑器,对于程序员来说,就像剑与战士一样,谁都想拥有一把可以随心驾驭且锋利无比的宝剑,而每一位程序员,同样会去追求最适合自己的强大、灵活的编辑器,相信你和我一样,都不会例外。我用过的编辑器不少,真不少~ 但却没有哪款让我特别心仪的,直到我遇到了 Sublime Text 2 !如果说“神器”是我能给予一款软件最高的评价,那么我很乐意为它封上这么一个称号。它小巧绿色且速度非
文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法,是两个相邻的进行对比。_对十个数进行大小排序java
文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程,但是由于自己用的4G模块自身的限制,使得阿里云连接总是无法建立,已经联系客服返厂检修了,于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档(3.1.1版本)2.网络调试助手(可使用域名与服务器建立连接)PS:与阿里云建立连解释,最好使用域名来完成连接过程,而不是使用IP号。这里我跟阿里云的售后工程师咨询过,表示对应_网络调试助手连接阿里云连不上
文章浏览阅读544次,点赞5次,收藏6次。运算符与表达式任何高级程序设计语言中,表达式都是最基本的组成部分,可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成