当前位置: 模型材料 >> 模型材料发展 >> 3DEXCITE在Amazon的支持下强
虽然计算机视觉在工业维护、制造、物流和消费应用中起着重要作用,但它的应用受到了手动创建的训练数据集的限制。在工业环境下创建标签图片主要是通过手动方式完成的,这使得识别功能不能缩放,给业务价值的实现造成了人工成本和迟延。这种状况与产品设计、产品工程和产品配置中通过快速迭代提供业务敏捷性的做法相悖。
这个流程也不能放大用于汽车、飞机或现代建筑等复杂产品,因为在这些场景下每一个标签项目都具有唯一性(与独特的产品有关)。因此,如果不进行充分的数据准备工作(有时会限制用例交付),计算机视觉技术就不能很容易地应用在具有独特性的大规模项目上。在本帖文中,我们将介绍一种新颖方法,借助设计文件和CAD文件创建高度专用的计算机视觉系统。我们先创建视觉上正确的数字孪生并生成人工标签图像。接着我们将这些图像推送到AmazonRekognition自定义标签,训练自定义对象检测模型。通过将现有的知识产权与软件结合使用,我们使计算机视觉具有可负担性,并与多种工业环境相关。
定制视觉系统有利于提升业务成效借助数字孪生生成的专用计算机视觉系统拥有确凿的优势,主要体现在下列用例中:可追溯独特产品–空客、波音和其他飞机制造商给他们生产的每架飞机分配唯一的制造商序列号(MSN)。对该序列号的管理贯穿整个生产流程,以生成适航文件并获得准飞许可。根据每个MSN的配置衍生出数字孪生(表达实物产品的虚拟D模型),同时生成分布式计算机视觉系统,方便在所有工业设施上跟踪这个MSN的进展。定制的识别功能自动向航空公司提供透明度,并取代了航空公司手动执行的大多数检查点。独特产品的自动化质量保证可以应用于飞机、汽车、建筑物,甚至是工艺产品。
情景化增强现实–专业级计算机视觉系统能专注于有限的视野,提供更强的分辨能力。例如在工业维护中,发现图片中的螺丝刀是没有用的;还需要分辨螺丝刀的型号甚至是它的序列号。在这样的有限场景下,定制识别系统的性能优于通用识别系统,因为他们能提供相关性更强的识别结果。定制识别系统可通过人机界面或移动设备中提供的专用增强现实来实现精确的反馈环路。
端到端质量控制–依托系统工程,可以为部分构造创建数字孪生,生成适应制造生产流程各个阶段的计算机视觉系统。视觉控制可以与制造工位交织在一起,实现端到端检验,尽早发现缺陷。端到端检验使用的定制识别功能能够有效防止缺陷波及装配生产线。终极目标是降低废品率,同时最大化生产产能。
柔性质检–现代质检必须适应设计变化和柔性制造。设计变化来自关于产品用途和产品维护的反馈环路。柔性制造是按订单制造战略的一项关键功能,它符合成本优化的精益制造原则。通过在数字孪生中集成设计变化与设计配置选项,定制识别功能就能让计算机视觉系统动态地适应生产计划和设计变化。
DEXCITE在AmazonRekognition的支持下强化计算机视觉
达索系统多年来深耕数字孪生领域,是欧洲第二大软件开发商,其DEXCITE团队正在另辟蹊径。正如KarlHerkt解释道,“如果用人工图像训练的神经模型能够识别实物产品,情况会怎样?”DEXCITE将自己的技术与AWS基础设施相结合,解决了这个问题,进而证明了这种别致方法的可行性。这也被称为跨域对象检测。检测模型从源域(人工图像)提取的标签图像中学习,并对未标记的目标域(物理组件)做出预测。
达索系统DEXCITE团队和AWS原型制作团队携手合作,共同开发出能够识别工业齿轮箱部件的演示系统。这个原型的制作耗时个星期,训练后的模型98%得到F1评分。识别模型完全采用软件流水线训练。这个流水线不提供任何真实部件的图像。依据工业齿轮箱的设计文件和CAD文件,DEXCITE团队已经创建出视觉正确的数字孪生。此外,DEXCITE团队还通过数字孪生生成了数千幅人工标签图像。接着,他们使用Rekognition自定义标签对采用上述图像创建的高度专用神经模型进行训练,并提供相关的识别API。他们设立了一个网站,方便从任何网络摄像头识别齿轮箱的某个真实部件。
AmazonRekognition是一项AI服务。它运用深度学习技术赋予用户从图像和视频中提取有意义的元数据的能力,包括识别物体、人物、文本、场景、活动以及潜在的不适当内容,且不需要具备机器学习(ML)专业知识。此外,AmazonRekognition还提供十分准确的人脸分析与人脸搜索功能,供用户检测、分析和比较人脸,适用于多种类型的用户认证、人员点数和安全用例。最后,使用Rekognition自定义标签,用户能够使用自己的数据构建对象检测和图像分类模型。
达索系统人工标签图像生成技术与面向计算机视觉的Rekognition自定义标签的强强联合,为识别系统提供了一种可扩展的工作流。易用性在这里是一个关键的有益因素,因为向整个软件流水线添加Rekognition自定义标签难度不大,就相当于向工作流中集成API一样简单。无需成为机器学习科学家,只需将捕获的帧发送给AWS,就能获得可录入数据库或在网络浏览器中显示的结果。
这进一步强调了与手动创建的训练数据集相比的显著改进。用户能以更快速度、更高准确性获得更优质的结果,且无需投入成本高且不必要的工时。依托如此丰富的潜在用例,将达索系统技术与Rekognition自定义标签相结合,有望向今天的企业提供显著且立竿见影的投资回报。解决方案概述
该解决方案的第一步是渲染用于创建训练数据集的图像。这一步在DEXCITE平台上完成。可以使用脚本,用编程方式生成标签数据。AmazonSageMakerGroundTruth提供的注释工具可以方便地为分类任务和对象检测任务标记图像和视频。要在AmazonRekognition中训练模型,标签文件需要符合GroundTruth格式。这些标签采用JSON格式,内含图像大小、边界框坐标和类别ID等信息。接着将标签图像和清单文件上传到Amazon简单存储服务(AmazonS)。在这里可以将Rekognition自定义标签当作训练数据集的组件导入。为了让Rekognition自定义标签按照一组真实的组件图像测试模型,我们提供了一系列用摄像头拍摄的真实发动机部件的图像,并上传到AmazonS用作测试数据集。最后,通过使用人工训练数据集和真实物体图像构成的测试数据集,Rekognition自定义标签训练出最佳的对象检测模型,然后用这个模型创建在我们的应用中运行对象识别的终端。下图是我们解决方案工作流的图示:创建人工图像生成人工图像采用了同为达索系统产品的DEXPERIENCE平台。该平台允许用户基于对象的计算机辅助设计(CAD)文件创建和渲染逼真的图像。在这个平台上改变图像转换配置,可以在几个小时内生成数千种变体。在这个原型中,我们选择了下面五种视觉迥异的齿轮箱部件,用于对象检测。它们分别是齿轮箱体、齿数比、轴承盖、法兰和蜗轮。下列数据增强方法用来增加图像多样性,使人工数据更加逼真。这有助于降低模型的一般化误差。
放大/缩小–这种方法对图像中的物体进行随机缩放。旋转–这种方法对图像中的对象进行旋转,看上去如同虚拟摄像头从60度对物体进行随机拍摄。提升材料观感–我们发现,对于某些齿轮部件,材料的外观在首次渲染后逼真度下降。为改进人工图像,我们添加了金属效果。使用不同的光照设置–在这个原型中,我们仿真了两种光照条件:仓库–逼真的光线分布。可以显示阴影和反射。工作室–在物体周围包裹单色光。这种做法不够逼真,但不产生阴影或反射。使用实时观察物体时的实际位置–在真实条件下,法兰和轴承盖等物体一般放置在一个表面上。这个模型根据上下小面检测对象。因此,我们删除了显示部件较薄边缘的训练图像(也称为边缘位置),增加了物体平面位置的图像。在一副图像中添加多个物体–在现实场景中,多个齿轮部件可能同时出现在一个视图中,因此我们准备了含有多个齿轮部件的图像。在DEXPERIENCE平台上,我们可以对图像应用不同背景,这能够帮助我们进一步提高图像的多样性。因为时间限制,我们没有把这个方法用在这个原型中。导入人工训练数据集
在机器学习中,标签数据意味着训练数据经过注释以提示目标,也就是要求机器学习模型预测的答案。可供Rekognition自定义标签使用的标签数据应符合GroundTruth清单文件要求。清单文件由一行或多行JSON代码行构成。每行包含单幅图像的信息。对于人工训练数据,可以在我们上文提及的CAD文件和图像转换配置的基础上,用编程方式生成标记信息,从而大幅节省手动标记工作的工作量。在准备好清单文件后,我们将它上传到S存储桶,然后选择“采用AmazonSageMakerGroundTruth标记导入图像”选项,在Rekognition自定义标签中创建训练数据集。在导入清单文件后,我们可以很直观地在AmazonRekognition控制台上看到标记信息。这有助于我们确认清单文件是否已成功生成和导入。更具体地说,边界框应与图像内的物体对齐。对象的类别ID也应正确地对应。
创建测试数据集测试图像是在现实生活中用手机或摄像头从不同的角度在不同的光照条件下拍摄而成,因为我们想验证我们用人工数据训练的模型相对于现实场景的准确性。用户可以将这些测试图像上传到S存储桶,然后在Rekognition自定义标签中将它们当作数据集导入。或者也可以直接将它们上传到来自您本地计算机的数据集。Rekognition自定义标签提供内置的图像注释功能,其体验与GroundTruth近似。在导入测试数据后,用户就可以开始标记工作。对于对象检测用例,边界框应严格围绕目标物体创建。这有利于模型准确地获取属于目标对象的区域和像素。此外,用户应标记所有图像中目标对象的每个实例(即使物体一部分在视野外或被其他物体遮挡),否则模型会做出更多错误的“假”预测。创建跨域对象检测模型
Rekognition自定义标签是一项完全有管理的服务。用户只需要提供训练数据集和测试数据集。它训练出一组模型,并根据提供的数据选择性能最佳的一个模型。在这个原型中,我们通过实验我们前文提到的图像增强方法的不同组合,迭代地准备人工训练数据集。在Rekognition自定义标签中为每个训练数据集创建一个模型,这方便我们比较和寻找针对这个具体用例表现最优秀的训练数据集。每个模型都拥有最起码数量的训练图像,具备良好的图像多样性并提供最佳模型准确性。经过15次迭代,我们使用约10,幅人工训练图像(相当于平均每个对象2,幅图像)实现98%的F1评分。模型推断结果
下列图像是在实时推断应用中使用AmazonRekognition模型的结果。所有组件都被正确检测,且置信度高。结论
在本帖文中,我们演示了如何用纯人工图像训练计算机视觉模型,以及这个模型如何持续可靠地识别现实世界的对象。这样可以大幅节省采集和标记培训数据的手动工作。通过这次探索,达索系统正在提升设计人员和工程师创建的D产品模型的业务价值,因为现在用户可以在现实中的图像识别系统中使用CAD数据、CAE数据和PLM数据。
这是StormReply首席技术官BernardPaques和DassaultSystèmesDExcite高级策略师KarlHerkt共同撰写的一篇文章。