(图片来源网络,侵删)
对于多数有兴趣使用人工智能(AI)的企业来说,不存在可以效法的明确模式亚马逊和谷歌等大型互联网企业使用的构建AI的方法实在无法转化——多数企业都没有可以用来培育模式的大量数据因此,制造业、农业和医疗卫生等行业需要采取不同的方法:使用数据而不是代码进行编程这些行业的企业拥有的数据集通常相对较小,定制系统成本高昂,而且会被试点与生产之间长久的时间间隔吓退然而,考虑到AI技术的进步,这些企业应该将重点从构建正确的模式——专注于软件的方法——转移到获取有用的数据上(这些数据可以说明我们需要AI学习的概念),以及使用新的机器学习操作工具尤其是,这些用来帮助生成高质量数据集的工具对于解决数据集小、定制成本高以及AI项目应用于生产的时间长等上述挑战至关重要企业应该专注于收集高质量数据,将其工程团队的注意力从以模式为中心的方法转移,并让部署过程以及支持它所需的MLOP工具成为任何AI项目规划方案的核心部分 尽管AI的潜力巨大,但它尚未在大多数行业立足当然,它已经改变了谷歌、百度和亚马逊等消费类互联网企业——所有这些公司规模都很庞大,拥有数亿用户的大量数据不过,要实现AI每年创造13万亿美元价值这一预测,制造业、农业和医疗卫生等行业仍然需要找到办法让这项技术为它们服务问题在于:这些消费类互联网企业用来构建其AI系统的行动手册——一个一体万用的AI系统可以为大量用户服务——对其他这些行业不起作用 相反,这些传统产业将需要大量定制的解决方案,以适应其众多不同的用例然而,这并不意味着AI不适于这些行业而只意味着他们需要采取不同的方法 为了弥合这一差距并释放AI的全部潜力,所有行业的高管都应该采用新的、以数据为中心的方法来构建AI具体来说,他们在致力于构建AI系统目标时应该小心注意确保数据清楚地传达他们需要让AI学习的内容这就需要专注于囊括重要案例、并进行了连贯标记的数据,以便AI能够从这些数据中学习它应该要做的事情换言之,创建这些有价值的AI系统的关键是我们需要能够使用数据编程而不是代码编程的团队 为何在科技企业之外采用AI如此之难 为何AI没有在消费类互联网企业之外得到广泛使用?其他行业采用AI面临的最大挑战包括:1.数据集规模小在一家拥有大量用户的消费类互联网公司中,工程师拥有数百万个数据点,他们的AI可以从中学习但在其他行业,数据集的规模要小得多比如,你是否能够建立一个AI系统,在只看了50个例子之后就学会检测有缺陷的汽车部件?或者仅仅学习了100例病例诊断之后就能发现一种罕见疾病?当你只有50个数据点时,构建5000万个数据点的技术不起作用2.定制成本消费类互联网公司会雇用数十或数百名技术熟练的工程师来构建和维护能够创造巨大价值的庞大AI系统——比如,每年产生超过10亿美元收入的在线广告系统但在其他行业,有许多100万-500万美元的项目,每个项目都需要一个定制的AI系统比如,每一家制造不同类型产品的工厂可能需要定制的检查系统,每一家医院因有自己的病历编码方式可能需要自己的AI来处理患者数据这些数以十万计的项目总价值十分巨大;但是单个项目的经济规模可能无法支持聘用一个大型、专门的AI团队来构建和维护它这一问题因AI人才的持续短缺而加剧,从而进一步推高了这些成本3.概念验证和用于生产之间的时间差即使AI系统在实验室奏效,要在生产中部署它也还需要大量的工程团队庆祝概念验证成功,却发现在系统部署和维护之前,他们还有12-24个月的工作,这是很正常的 为了让AI充分发挥潜力,我们需要一种系统性的方法来解决各行各业的这些问题这种以数据为中心应对AI的方法在旨在用来构建、部署和维护AI应用程序的工具——机器学习操作(MLOps)平台的支持下,将有可能让这变成现实更快采用这一方法的企业将获得比竞争对手更大的优势以数据为中心的AI开发 AI系统由软件——包括某种AI模型的计算机程序——和数据(用于培育模型的信息)组成比如,为了构建一个用于制造业自动化检查的AI系统,AI工程师可能会创建可以执行深度学习算法的软件,然后向其显示一个包含优质零件和有缺陷零件图片的数据集,这样它可以学会区分这些零件在过去的十年中,许多AI研究都是由以软件为中心的开发(也称为以模型为中心的开发)所推动的,数据在这种开发中是固定的团队试图优化或发明新的程序,以便好好地从现有数据中学习许多科技企业拥有源自数百万消费者的大型数据集,他们利用这些数据来推动AI的大量创新然而,在AI目前的发展水平上,许多应用程序的瓶颈在于获得正确的数据提供给软件我们已经听说了大数据的好处,但我们现在知道,对于许多应用程序而言,专注于确保我们拥有优质的数据会更富有成效——这些数据清楚地说明了我们需要让AI学习的概念这意味着数据在对重要案例的覆盖面上应该适当全面并进行连贯标记数据是AI的食粮,现代AI系统不仅需要卡路里,还需要高质量的营养将重点从软件转变到数据提供了一个重大好处:它依赖的是你的现有员工在AI人才严重短缺的时代,以数据为中心的方法允许许多在各自行业拥有渊博知识的主题专家为AI系统的开发尽力比如,多数工厂的工人都非常擅长定义和识别什么才算缺陷(0.2mm的划痕是否是缺陷?还是说它小得无关紧要?)如果我们期望每家工厂要求其工人发明新的AI软件,以此让工厂获得其所需的定制解决方案,那么进展会十分迟缓但是,如果我们转而构建并提供工具,使这些领域专家能够设计数据——通过向AI提供数据、使他们能够表达自己在制造业方面的知识——他们成功的几率会高得多让构建和使用AI变得系统化且可重复 向以数据为中心的AI开发的转变是由新兴的MLOps领域实现的,该领域提供了比以往任何时候都更容易构建、部署和维护AI系统的工具要特别指出的是,用来帮助生成高质量数据集的工具对于解决数据集小、定制成本高以及AI项目应用于生产的时间长等挑战至关重要到底怎样才能做到?首先,确保数据高质量意味着AI系统能够从多数行业可用的较小数据集中学习其次,通过让企业的领域专家而非AI专家能够设计数据,所有行业都可以更容易地使用AI第三,MLOps平台提供了将AI系统应用于生产所需的许多脚手架软件,因此团队不必再开发这种软件这使得团队能够部署AI系统——并将概念验证与用于生产之间的时间差缩短至数周或数月,而不是几年绝大多数有价值的AI项目尚待构想即使是各团队已经在进行的项目,逐渐在生产中部署的时间差仍有待缩短——事实上,埃森哲估计,80%到85%的企业的AI项目处于概念验证阶段 以下是企业现在可以做的一些事情:1.不要只关注所收集数据的数量,也要关注质量,确保它清楚地说明了我们需要让AI学习的概念2.确保团队考虑采用以数据为中心的方法,而不是以软件为中心的方法许多AI工程师,包括许多具有强大学术或研究背景的工程师,接受过的是以软件为中心的方法培训;要敦促他们也采用以数据为中心的技术3.对于打算应用于生产的任何AI项目,请确保对部署过程进行规划并提供MLOps工具予以支持比如,即使在构建概念验证系统时,也要敦促团队开始制定长期计划进行数据管理、部署以及AI系统的监控和维护AI有可能成为数据丰富的消费类互联网企业之外的一项蓬勃发展的资产,但尚未在其他行业取得进展但正因为如此,AI尚未开发的最大机会可能在于将其带到其他行业就像电力改变了每个行业一样,AI也走在同样的道路上但这条道路上的下几个步骤将要求我们在行动手册中改变构建和部署AI系统的方式具体而言,新的以数据为中心的思维方式,加上允许行业领域专家参与AI系统创建、部署和维护的MLOps工具,将确保所有行业都能收获AI所能提供的回报吴恩达(Andrew Ng) | 文吴恩达是Landing AI的创始人兼CEO、百度前副总裁兼首席科学家、CurSera的联合董事长兼共同创始人、Google Brain的前创始负责人,以及斯坦福大学的兼职教授刘隽 | 编辑 i哈评小程序每日上新长按扫码即刻体验 投稿及内容合作 | zhenminma@hbrchina.org广告及商务合作 | luojiajin@hbrchina.org
0 评论