是时候进行 AI/ML 现实检查了
已发表: 2020-06-29Rohan Chandran 是 Infogroup 的首席产品官。
数据科学正在成为人们关注的焦点,这一重要学科为新的人工智能 (AI) 和机器学习 (ML) 的日常发展奠定了基础。 作为人类和商业领袖,我们对最新和最伟大的事物的胃口总是很强烈,在这种情况下也不例外。 目前,每个人都在寻求加强他们的数据科学实践,并指出在他们的产品和服务中使用人工智能和机器学习。
我们做得过火了。 我们过度设计解决方案。 我们正在为那些结果不如宣传的工作招聘人员,然后在一年后解散团队,或者想知道他们为什么不参与并自然减员。 在这样做的过程中,我们也在推动一个生态系统,鼓励人们弄虚作假,寻找他们并不真正胜任的数据科学工作,让真正的雇主更难雇佣合适的人才。 虚假经济无法维持。
不过让我明确一点:数据科学是现代商业领域中一个重要的甚至是革命性的领域。 正在开发的用于理解和操作数据的新技术,越来越多地以自动化方式进行,具有变革性。 我们的运作方式正在发生变化,而且必须继续这样做。 也就是说,在我们绝对希望成为 AI 和 ML 故事的一部分的过程中,我们正淹没在低效率中。 请允许我解释一下。
简单的问题通常会从简单的解决方案中受益
YouTube 上充斥着复杂的 Rube Goldberg 机器的视频。 (如果您还没有看过它们,我强烈建议您在原地避难时享受数小时的乐趣!)尽管这些设备非常出色,但根据定义,它们是一个简单问题的不必要的复杂解决方案。 当我们从技术选择开始(“让我们确保我们的产品使用人工智能!”)而不是从业务问题开始时,这种方法会变得很危险。
举个例子,想想我 14 岁的丰田汽车。 我的口袋里有一个钥匙扣。 即使我每只手都拿着一个包,我也可以走到车前打开车门。 不需要额外的努力。
然后出现了内置近场通信 (NFC) 的手机。突然间,汽车制造商争先恐后地展示如何使用支持 NFC 的手机打开车门。 为此,您只需将手机从口袋里拿出来,举到窗户上的 NFC 标签上,然后拉开门。
此示例检查了负责使用最新技术的汽车制造商的所有选项。 它允许一位高管上台讨论如何使用手机解锁汽车。 但是现在,我必须在车前停下,放下购物袋,拿出手机,拿起手机,放回口袋,拿起袋子,然后上车。 我优雅而无缝的体验充满了痛点。
不幸的是,太多人在尝试开发复杂模型或构建 AI 解决方案以执行具有简单解决方案的任务时正在这样做。 仅仅为了它而这样做是对资源的浪费和长期的经济损失。 最精明的组织表现出克制,并认识到最佳解决方案通常出现在与解决客户和业务价值相一致的稀缺资源和激励措施的背景下,而不是技术复选框。
机会成本:如果它没有损坏,就不要修复它。
钥匙扣的例子也说明了不把精力集中在已解决的问题上的老生常谈。 如果您想有效地经营一家企业,那么您需要密切关注您提供的独特附加值。 在其他人解决了问题的地方——让我们面对现实吧,我们的大多数问题并不像我们想象的那么独特——利用他们的工作。 站在巨人的肩膀上。
与其建立一个数据科学家团队来解决内部所有问题,不如先探索其他地方的开源或可许可解决方案的可用性。 随着人工智能和机器学习作为学科的成熟,我们发现该领域的许多最大参与者——包括亚马逊、谷歌和其他公司——已经投入巨资创建强大的算法和工具,这些算法和工具可以很容易地用于解决任何问题。数据挑战的数量。 雇用您自己的 50 名数据科学家团队来解决可以通过现成的解决方案轻松解决的问题,没有任何收获。 (对于有技术头脑的读者,Thomas Nield 有一篇有趣的文章介绍了调度系统的一个具体示例,其中有几种现有的算法可以真正有效地解决,无需投资于重新发明。)
数据质量是基础。 先把它弄好。
最重要的是,当您考虑投资数据科学,尤其是 ML 和/或 AI 时,您必须认识到任何潜在成功结果的基础是您的团队可用的数据质量,以及它的模型或工具。 垃圾进,垃圾出,俗话说。
一个博士团队很可能会为你开发一个机器学习图像识别系统,它甚至超过了今天的大手笔。 但是,如果你用七张标为猫的狗的照片来训练它,它唯一会做的就是失败。
当然,质量比这更深入,任何称职的数据科学家或数据工程师都会要求你首先关注这里。 当您这样做时,准确性、精确度、召回率、及时性和出处都是重要的考虑因素,但通常只是口头上付出的代价是在您的特定环境中定义什么构成质量。 就像公司喜欢炫耀的虚荣指标(想想“3000 万人下载了我的应用程序”,它并没有告诉你有多少人实际使用它),如果你没有正确考虑什么是质量,你就赢了达不到。
考虑一个关于家庭中是否有儿童及其年龄的数据集。 如果您将婴儿连体衣卖给有新生儿的父母,那么及时性和准确性至关重要。 你的目标市场很紧,如果你晚了几个星期,你就错过了目标。 但是,如果您正在销售家庭棋盘游戏,那么如果您的准确性很好,那么您是否会离开几年可能并不重要。 这是相同的数据,但质量评估不同。
AI 和 ML 将成为我们未来的基本组成部分。 我并不是说今天的企业不应该雇佣一流的数据科学家。 我只是说,公司领导者需要确保他们根据明确定义的战略和需求进行招聘,并确保他们拥有干净、良好(且合乎道德)来源的数据,这些数据足以保证在其上进行重要的建模。 通过以这种方式专注,您可以确保组织的资源以及数据科学家的时间和才能得到充分利用。