为什么数据准备在人工智能工作流程中至关重要

文章作者:Majeed Ahmad

由于数据在整个AI工作流中流动,初始数据准备步骤至关重要,因为它确保了模型中最有用的数据。

对于设计工程师来说,人工智能(AI)工作流包括四个步骤:数据准备、建模、仿真和测试,以及部署。虽然所有步骤都很重要,但许多工程师经常过分强调建模阶段,认为它在产生准确的洞察力方面发挥着最大的作用。

然而,由于数据在整个AI工作流中流动,初始数据准备步骤是至关重要的。它确保将最有用的数据输入到模型中。

图1数据是AI工作流发展的驱动力。来源:MathWorks

那么,什么是数据准备?这是构建人工智能系统的第一步,它让设计师了解如何解决工程问题。MathWorks深度学习产品经理大卫•威林厄姆(David Willingham)表示:“如果你一开始就理解了数据,那么最终你就会理解它。”

Willingham补充道:“数据是人工智能模型成功的驱动力,所以先研究数据,其他的就会随之而来。”在分享一些客户轶事时,他强调,工程师需要做的是确定给定的数据是否有助于解决问题。威林厄姆举例说,一位工程师试图提前预测制造工厂的运营效率,并利用人工智能进行帮助。当被问及现有数据时,他说:“我有每月的历史数据。”

数据准备是正确的,这就是为什么工程师必须花更多时间理解输入数据,这将不可避免地有利于AI工作流程中的输出。“不要把所有的时间都花在调整模型上,”Willingham建议道。“如果你理解了输入的数据,在很多情况下进行基本分析将会把数据转换成有意义的东西。”

多少数据

你需要多少数据?什么是最佳点?多少数据才算多数据?例如,当你在制造工厂工作时,传感器无处不在。由于传感器现在很便宜,所以数据数量激增。在这种情况下,数据可能是压倒性的。

在这里,工程师不应该思考,这是否足够或者我是否需要更多的数据,而应该思考,“这是正确的数据吗?”此外,可以使用工具和技术来自动化或半自动化地搜索大量数据中的有用补丁,而不是手动地在数据行中进行渗透。换句话说,为了将数据细化到更小的数据集,工程师必须在大数据集中找到有用数据的补丁。

图2基于应用程序的工作流构建的工具允许工程师探索数据,从自动数据中提取甚至排序功能。来源:MathWorks

另一种方法是不完全自动化特性工程过程。有时,工程师需要注入洞察力和半自动化的功能工程过程。当你有很多数据时,这是一个很好的技术。

另一方面,当你没有足够的数据时会发生什么?这是另一个常见的挑战。这里值得一提的是,工程师需要了解如何在数据价值的基础上构建业务案例。走到野外获取数据或使用更多传感器生成数据的成本更高。因此,当工程师需要更多数据时,他们必须将其与投资回报率(ROI)联系起来。

物理数据与合成数据

除了获取更多的物理数据和构建业务案例之外,工具和软件如何提供帮助?一种方法是生成与物理数据紧密匹配的合成数据。这是工程师试图补充真实数据以建立有用的人工智能模型的常见方法。

生成合成数据有不同的方法。其中之一是有一个现实的数字双胞胎,以获得数据,以建立一个人工智能模型。

在MathWorks提供的工具中,通常使用基于模型的设计(mbd)创建数字双胞胎,在mbd中您获取物理系统的所有组件。万博投注网址例如,在一辆自动驾驶汽车中,你可以从引擎、变速器、自动巡航控制等方面获取数据。接下来,通过采用基于模型的设计和创建数字双胞胎,工程师可以输入人工合成的模拟数据,看看是否可以由此构建一个人工智能模型。

图3像Atlas Copco这样的公司使用数字双胞胎来获取预测性维护模型的数据。来源:MathWorks

基于模型的设计或MBD也有助于测试的后一部分;工程师们可以从合成数据中获得一个经过训练的模型,将它放回最初设计的系统中,并对其进行测试。以…为例阿特拉斯•科普柯该公司为世界各地的制造工厂生产压缩机。

该公司使用数字孪生技术获取预测性维护模型的数据,然后为其泵设备建立仿真模型,以创建代表所有现场场景的必要数据。但奥斯丁是另一个案例研究;它利用数据预处理功能将大脑信号自动转换为图像,可用于深度学习模型。

上述设计案例研究表明,最佳实践和工具可以支持工程师在将数据放入人工智能模型之前准备数据。最终,人工智能模型中的数据集塑造了模型实际学习、分析和做出决定的方式。

这篇文章最初发表于经济日报

马吉德艾哈迈德他是EDN和Planet Analog的主编,已经报道电子设计行业超过20年。

相关内容

留下你的评论