人工智能真的已经到达技术瓶颈了吗?
人工智能真的已经到达技术瓶颈了吗?
-
目前,AI发展的瓶颈主要有以下三点:
1.对数据的极度贪婪和依赖;
2.运行机制和模型的不透明;
3.脆弱性,错误不可控。
这三点缺陷导致了想象中的AI与真实落地的AI之间形成了几重落差。
Gap 1:(想象的)大数据VS(现实的)小数据、脏数据、假数据、违规数据、孤岛数据
在数据行业摸爬滚打多年、最近转行到AI创业公司的数据分析师“小J”颇有感悟:“这些年,媒体和各行各业言必称大数据,客户看到自己数据库存了多少TB甚至PB了,就以为自己有大数据;问客户某某数据有没有,客户满口说有。等实际入场后才发现,数据根本不可用,有些字段错得离谱,有些字段又太稀疏,等你做完清理后,剩下的数据可能跑个逻辑回归都够呛,根本没法上深度学习。
有些数据需要手工生成,质量也不可靠。有一次做浙江某轮胎厂的故障检测项目,故障样本是工厂每月被客户退回来的问题轮胎,几百上千个在露天的空场上堆成小山,落满了灰,只好雇人爬上去把灰擦一擦看清楚型号批次,再把信息和故障记下来。大热天的,又脏又累,后来就有人学会了偷懒,假造数据。
还有数据孤岛,比如A、B企业的数据维度都比较单一,但可以互补,需要放到一起才有价值,而A和B出于监管考虑又不能交换数据。一些大企业内部也有数据孤岛,实质是部门竞争、不愿配合,非要闹到大老板那儿去。即使老板拍板下来要打通,也有各种手段让你的效果大打折扣,脱敏、二次加工、延时等等。
数据来源有时打打擦边球也是公开的秘密了。在一些信息安全措施不那么严格的行业,找内部人员用硬盘拷数据是最经济有效的。几乎所有公司都在用爬虫,前不久有公司刚被抓,爬简历上的个人隐私牟利,算是行业反面教材了。”
Gap 2:AI训练测试数据VS实际运行环境数据
如果把训练好的模型作为软件模块来集成,模块的输出受输入数据分布变化的影响,不能按模块之间的合约(contract)“办事”,造成其他模块无法正常工作。
更难受的是,何时、何种情况下会“违约”,无法预先界定。所以当系统给AI软件模块一个任务时,它能不能完成,能完成到什么程度,没准。
这就好比一个公司告诉你,在我司测试环境下,行人检测模型准确率为99.99999%;但在您的实际驾驶环境中,预计准确率在97%~99%之间,且我司既不确保准确率有多少,也无法判断何时准确率会异常。这车您还敢开吗?
如果把训练算法作为软件模块来集成呢?也有新问题。
训练算法的输出依赖训练数据,而生产环境中的数据受太多因素干扰:隐藏的信息反馈循环、未声明的调用模块,都会让数据相互影响,不可控、不好追查。此外,在给真实客户做AI项目时,不同项目、项目不同阶段,都会带来不同的数据,从而影响算法网络结构设计和模型参数设定。
有多年工程及算法经验、待过互联网大厂也做过to B项目的“老P”说:“做AI项目,客户第一次会给一小撮数据样本让你理解业务数据,等你入场做PoC(Proof of Concept,可行性验证)时会拿到批量的真实历史数据,等项目上生产环境你会碰到更实时的数据,等运行一段时间后又必然会遇到各种新情况,例如客户的用户定位调整了、政策有变导致业务环境变了等等。
这四个不同阶段,你所认知的客户数据的特点和分布都会变,而变化就意味着可能要重调超参数,重设网络结构,甚至重新取舍算法……折腾啊,但没办法,这就是做AI项目的命。”
更要命的是,这是长期的“折腾”;是时间、地点、人物不定的折腾;得去客户现场折腾,而不能远程云折腾;得派很贵的、掌握炼金经验和调参玄学的算法工程师去折腾,而不能让普通软件工程师去折腾。
这就引出了AI落地时的第三个落差,也是最现实的挑战:
Gap 3:AI to B项目对高级算法人才长期驻场的强需求VS此类人才的驻场成本和意愿
为什么to B项目通常都要驻场? 现阶段,大中型企业才有足够的数据、业务场景和钱做AI,而大公司对数据又有超强保护意识,数据不出门、不落地。要碰数据可以,请到客户现场来,有时还要求用客户提供的电脑干活。
为什么要长期驻场?
典型的AI to B项目有以下几个流程:
1.初步理解客户业务场景和需求;
2.初步调研客户数据情况;
3.可行性判断和初步方案设计;
4.深度理解客户业务,细化或调整AI算法目标和达到目标的路径;
5.深度理解客户数据构成、语义、质量和分布等细节,细化或调整算法方案和模型结构;
6.数据清洗和特征工程;
7.部署测试环境,训练并调参模型(效果不好的话要回到步骤4、5、6进行优化);
8.生产环境部署上线,调试生产bug(如数据泄露);
9.持续监控生产环境输入输出数据变化,并随时回到步骤4、5、6。
这里的4、5、6、7、8、9必须在客户现场完成,1、2可远程完成但也需要与客户交互,只有步骤3完全不涉及客户环境。
先说步骤4、5、6、7、8,短则两三月,长则大半年,跟客户配合程度有关,跟数据质量有关,跟问题复杂度、成熟度有关。更重要的,跟炼金运气有关。
最头疼的是9,前面的步骤即使周期再长,也有结束的一天,但步骤9(生产环境监控优化)却永无宁日,因为业务环境和数据变化是不可避免的,而算法模型不一定能自动适应到最佳状态。
为什么要高级算法人才长期驻场?
正如Rahimi所说,深度学习的理论不完备,算法模型的运行机制不可知,因此,各种调试优化能不能成功,靠的是经验加运气,能力难以快速复制。
这就像学中医一样,初级医师要成长为高级人才,需要做过很多项目,遇过很多情况,成功、失败经验都丰富的老中医手把手带,靠项目和悟性不断积累“望闻问切”的经验。
然而,行业的另一面现实却是,想让高级算法工程师长期驻场,太难了。
首先,驻场意味着人员很难复用,没法一人同时干N个项目,薪资成本是个问题。
其次,搞技术的通常不喜欢驻场,尤其是有经验的高级人才,一般岁数不小、有家有娃,长期出差有困难。
最后,公司里许多高级算法人才可能是在基础研究或底层架构部门,项目工程团队未必请得动。
BAT某云行业销售负责人“阿K”,一度对AI项目满怀憧憬,但后来宁可去卖CDN:“我们今年中了一个千万级的标,其中的AI模块很关键。中标之后项目组都很兴奋,但是要干活时,麻烦了。
客户很看重数据信息安全,对外部驻场人员管得很严,每天上班要指纹打卡,封闭会议室办公,桌面必须保持清洁,否则罚款甚至通报批评。
客户给的IT支持比较少,我们工程师都说,驻场的SDE(Software Develope Engineer)其实是Someone Do Everything,跟在自家公司时比,驻场干的事太杂了,还没有延续性,不利于他们的技术发展。
现场跟客户沟通遇到些技术分歧时,人家好歹是甲方,我不提醒吧,有些工程师能让客户下不来台;我说他两句吧,人就说驻场要看客户脸色,不想干了。
结果这项目还没做到一半,比较资深的两个AI工程师就回去了,只好换了几个毕业没多久的顶着,项目进展很慢,客户很不爽。别给我搞烂尾了,哎。”
BAT另一朵云的行业售前总监、最近绞尽脑汁往自己行业里集成AI元素的“老W”说:“有一次客户让我们做AI项目PoC,要比较高级的人驻场。我好说歹说,找AI研究部门借了几个人,出差去客户那儿干了一个半月,结果项目没成。以后再找,他们就再也不搭理了。
人家本来就不爱参与客户项目,又发不了paper,这么贵的人工成本花出去,又不一定能成为年终绩效上的业绩。”
驻场需求强烈,且得不到高效满足,是AI公司无法做到真正产品化(从业务运营角度的产品化)的重要原因。困于客户项目的PoC、交付和维护,脱身无门,也就无法大规模扩张。
吴恩达曾说:“如果普通人能在不到一秒的时间内完成某项脑力工作,那么我们很可能可以在现在或不远的将来用AI将其自动化。”
或许更符合事实的情况是这样:如果普通人能在不到一秒的时间内完成某项脑力工作,那么我们很可能可以在现在或不远的将来用AI将其自动化,如果不行,至少可以找到一个符合条件的客户,把我们最贵的算法科学家砸进去,做一个demo出来。
2020-04-14 14:53:34 -
人工智能的范畴很广,只能说目前在深度学习这块,遇到了一些瓶颈。
现在最好的图像识别算法,计算量可能是Alexnet算法的1000倍,但只能把效果提升一点点,没有达到等价收益,所以大家会觉得深度学习是不是又到了天花板,这个问题确实存在。
但并不代表人工智能进入天花板。人工智能正在进入另外一个领域,不再靠单一算法打天下,解决问题,而进入一个新的阶段,依靠工程化、功能和平台化来解决实际的问题。即便是深度学习的应用,也越来越组件化了,只是平台的一个工具,整个应用流程的一个环节。通过综合许多算法,最终取得一个相对较好的效果,这是更现实的情况
2020-04-14 16:08:01 -
先说结论,我认为并没有达到技术瓶颈期。想反,应该是技术爆发期,最近一年的技术进步比前三年的进步还要多。
目前人工智能的问题在于落地困难,人们预期过高,觉得自己什么都不用做,AI都应该搞定,但其实AI更需要培养,需要深度了解行业,才能真的用起来。好在目前大家都越来越重视落地,预期人工智能迈过落地这个门槛后更加大有可为。
2020-04-14 14:36:48 -
不但没有达到,应该定性为是刚刚开始。
现在仅仅是4个环节简单的自能处理:环境及危险程度的自动监测识别+系统及局部逻辑的中心处理+执行机构的机械运动或位移等+系统反馈及修正在处理。
下一步的发展空间:除了中心大系统智能处理以外,会有个各级的独立的小智能系统,就像天体运动一样,每个载体都有自己独立运行轨道,自己的运行规则,在系统统一管理下有自己的开始及结束,无穷的细分下去,正所谓大到天体小到细菌,那才是智能的未来。
还需要人类继续努力,经过不断发现发展,一代一代人的不断探索才会接近目标的,也许几十年,也许上百年,也许更多年……。就像人类文明一样,会一直伴随人类走下去的。
2020-04-14 15:57:01 -
才刚开始,其实人类制造代替脑力的工具,已经很久了,从电脑雏形开始的,未来会更加强大,为了更好替人类分担脑力劳动。
2020-04-14 15:02:51 -
人工智能不会有瓶颈,人工智能已经取代人的时候,智慧生物大爆发,可能是人工智能发展停步期。
2018-12-31 12:33:05 -
科技发展就是突破一个又一个瓶颈,但是人工智能目前是刚迈过上一个瓶颈期,正在快速发展应用期,还没有到达下一个瓶颈期。
2018-12-31 20:44:26 -
不但没有达到,应该定性为是刚刚开始。
现在仅仅是4个环节简单的自能处理:环境及危险程度的自动监测识别+系统及局部逻辑的中心处理+执行机构的机械运动或位移等+系统反馈及修正在处理。
下一步的发展空间:除了中心大系统智能处理以外,会有个各级的独立的小智能系统,就像天体运动一样,每个载体都有自己独立运行轨道,自己的运行规则,在系统统一管理下有自己的开始及结束,无穷的细分下去,正所谓大到天体小到细菌,那才是智能的未来。
还需要人类继续努力,经过不断发现发展,一代一代人的不断探索才会接近目标的,也许几十年,也许上百年,也许更多年……。就像人类文明一样,会一直伴随人类走下去的。
2020-04-14 15:57:01 -
才刚开始,其实人类制造代替脑力的工具,已经很久了,从电脑雏形开始的,未来会更加强大,为了更好替人类分担脑力劳动。
2020-04-14 15:02:51