飞行照

注册

 

发新话题 回复该主题

嘉宾观点张峥勘正AI的误读从飞鸟到飞行还 [复制链接]

1#

编saying:

自AlphaGo战胜世界诸多围棋大师之后,人工智能再次成为人们热议的焦点话题。但对人工智能而言,受到舆论的追捧与受到理性的认识之间仍有不小的差距。在众说纷纭的AI领域,偏见和误读并没有完全消解。今分享上海纽约大学终身教授、国家千人计划特聘专家张峥(文汇讲堂第00期嘉宾)所撰《勘误与科普:如何在飞鸟的背后,捕捉到飞行》一文,与各位读者共同探析人工智能领域的历史、现状、问题和发展。

上海纽约大学计算机系终身教授张峥(文汇讲堂第00期嘉宾)

AI研究“无用”的有用:鸟飞行和飞机的关系?

未来论坛在上海纽约大学举办的一次讲座之后,嘉宾互动环节有这么一个问题:“人工智能最大的应用场景在哪?”我半开玩笑地回答:“在饭局上”。

人工智能是IT公司蜂拥争抢的标签,也是媒体和大众的热点议题。这不是坏事,但并不是说不需勘误。

比如这样的说法:

“人类的发明史上,从来都是应用需求领先,从来都不是技术领先。比如,人们想要飞,才有了飞机并不断改善;人们希望计算更快,才有了CPU。好像,人们并没有迫切需要AI。”

以上句子,摘自曾刷爆朋友圈一篇文章——“现在说自己在做AI的都是忽悠!”

这让我想起几周前参加上海科技馆一个面向中学生的科普活动时,给同学们留下的一句寄语:“以好奇之心,求无用之学。”因为在我看来,学界的AI研究动力,有一大半是(暂时的)无用之求。

科学和技术的原生力之一,是打造和使用工具。一部短短的文明史,也是人类不停发明和使用工具的历史。但是,革命性的工具不但落地时刻模糊,还要受到已有工具的阻击。上述文章里提到的集成电路芯片(IC)就是如此。电子管被晶体管替代,晶体管被IC替代,是从图灵开始之后硬件上的两大革命,但后者遇到了还在传统工艺里打滚的巨头们的顽强抵抗,直到美国航天局用IC实现阿波罗登月舱里的电脑配设。我个人认为,这是电脑史上最昂贵也最值得的原型展示(Demo):没有登月这种“无用之举”,连硅谷都不会存在。

关于“无用之有用”,从浙江大学王立铭教授那里,我还偷来三个精彩的反诘案例:“新生的婴儿有什么用?”(法拉第语);“这个研究不会有益于国防,但是会让这个国家更值得保卫”(费米实验室主任威尔荪语,于国会听证会);“(找希格斯)没用,但是我们就是想知道答案;而且我还知道你们其实也想知道答案,只不过你们自己没有意识到”(强子加速器科学家语,于国会听证会)。

康德说最大的谜团,除了星空,就是我们自己的心智。要了解人自己,还有比再造一个“人”更直接的办法吗?在人工智能上走得远的研究者,不但应该广泛涉猎贴近人心的几个旁支,如心理学、行为学、神经科学,而在某种意义上更应是披着科学家外衣的哲学家。

就像莱特兄弟向鸟学习、引领人类飞行史一样,对人脑这个“老师”,人工智能也逐渐从“形似”过渡到“神似”,只不过万里长征才刚刚开始。人脑和AI的关系,是展开本文的一条线索。

莱特兄弟于年2月7日首次完成飞行实验

既然已提及芯片,那我们就从硬件开始谈起。

AI完成硬件上对大脑模拟的“神似”后还缺啥?

既然人脑是由海量的神经元链接而成,那么智能芯片采用同样的结构似乎天经地义,这是IBMTrueNorth芯片的出发点。而且,实现一个由大量简单计算加存储单元组合而成的芯片要远比英特尔的任何一个芯片容易得多,这让苦于摩尔定律迟早撞墙的芯片制造商看到了弯道超车的希望。另外,因为神经元互相之间发放连续的脉冲信号,TrueNorth在计算单元之间运用异步的小数据包来模拟。在对大脑的硬件“形似”上,TrueNorth作为一个代表,可以说走得相当远。

IBMTrueNorth,受脑启发的芯片

然而,这个思路有两大问题。第一,手握一大堆原子而不明白上层的大结构,不要说复原一个世界,连造个板凳都困难。机翼加上速度取得升力之后,必须要有“迎风而变”的可控性,而这正是莱特兄弟基于对鸟类飞行的大批观察、在自行车作坊和沙滩上大量实践之后成功的关键。其二,长程的电力运输中交流电比直流电有效率,这是守旧的爱迪生在芝加哥博览会的竞标中败给西屋公司的原因。大脑的内环境相当“恶劣”,因为脑容所限,长长短短的链接要在“汤汤水水”中绕来绕去,脉冲信号是合理的选择。可在芯片上也这么做,不见得必要。

如果说中科院的寒武纪芯片还有些TrueNorth的影子,那么谷歌、微软的AI芯片的架构不但更激进,而且更简单。

深度学习的模型依赖几个基本的计算模块(卷积网络、长短程循环网络等),但其背后更基本的精神,是高维矩阵的非线性变换,和由这些变换链接起来的数据流图。因此,把这个计算框架做好,同时衔接上层的软件开发环境,是开发AI芯片的两大重点,而拘泥于大脑的硬件架构只会自缚手脚。谷歌的TPU,存在对TensorFlow(谷歌开发的机器学习软件工具)过度依赖的问题,却是AlphaGo乌镇围棋一战中非常亮眼的明星,勘称广告史上的经典。TPU不是处理器,没有指令集,就是一坨高度优化的矩阵运算电路,其核心技术还是上世纪七十年代末的脉动阵列(Systolicarray)。

年,中国乌镇围棋峰会AlphagoVS柯洁

换句话说,人工智能在硬件上对大脑的神似,至少从最底层的计算单元来说,已经完成。在此之上,有些基本的、被广泛应用的计算模块(比如卷积网络和长短程循环网络)的设计也受大脑启发。

相比人脑,人工智能在模块种类上的积累还缺很多。但更多的困难来自(至少)两方面:缺乏更好更强大的数学工具,缺乏对脑科学的了解,或者部分了解了也不知道怎样“接入”最好。接下来我们就从一些貌似流行的看法说开去,不如先从很远的一个愿景——量子计算开始。

人工智能需要量子计算?

训练再复杂的模型,数学上都能归结为一个非线性的优化过程。这决定了深度网络和其错误回传、梯度下降的训练方法不过是其中的一个不错的、但绝不唯一的一个可能性。因此,不管白猫黑猫,能够优化就是好猫,任何数学工具都能用,都应该尝试,包括量子计算。

模型的学习过程的本质是非线性优化,对这一点,学界没有异议,但对其计算过程要和大脑有多“形似”却一直争论不休。

反向传递方法的发明人之一GeoffreyHinton教授有个多年的心病,就是在对大脑的研究中尚未发现类似机制,应和者中不乏其他大佬,包括蒙特利尔的YoshuaBengio,麻省理工的TomasoPoggio等。但业界其他人,包括人工智能研究的“三驾马车”(GeoffreyHinton,YoshuaBengio以及YannLeCun)中的第三位——纽约大学的YannLeCun就觉得,反向传递更优美,是数学神器给我们的礼物。他对优化过程是否和大脑“形似”不太关心。

反向传递方法的发明人之一GeoffreyHinton教授很是怀疑当前干着粗重活的人工智能

我持拿来主义的态度:优化就是优化,优化就是神似,过程形似没有必要。不过我认为,整个模型采用深度网络是必要的,使得模型和脑科学的实验比照存在可能性。从长远看,这么做会给脑科学提供另一种实验手段,反过来也会进一步促进人工智能的“神似”之旅。

对脑科学的了解,也能让我们判断这样的理由是不成立的:有一派人认为,大脑的工作机理就是量子计算,所以要量子计算。

我觉得,人类在一个基本符合牛顿定律的物理世界中竞争而生,需要量子计算这么高端、复杂的计算模式作为基石不太可能,也没有任何证据。支持者认为,神秘的“第六感”源自量子纠缠,但很多心理学上的实验表明,所谓“第六感”,不过是因为大脑在下意识中捕捉到很多细微、难以查觉因此无法言说的信号而已。

再让我们看看眼前的一些人工智能实例。

一直以来,这几个应用有非常高的出镜率。目前,这些模型背后的工作原理,是从海量数据里总结统计规律,完成一个自底向上的深度非线性的映射函数,把标签Y拍到信号X上。但是,如果我们老老实实叫它们的实名——“统计学习”——那是多么的不酷啊!

这些模型最底层的单元计算,采用卷积网络或者长短程循环网络,除此之外,整个大的计算过程和人脑相差很远,连神似的皮毛都不沾,可这几个应用的热炒直接导致了不少的问题和误解。

人工智能极度依赖大数据?

“大数据”是个十分混乱的概念。首先,什么是打造人工智能需要的大数据?其次,多大才算大?比如,掀起深度网络大热潮的ImageNet数据集,有一百二十万张带标注的图片。图片中有哪类物体,在哪,通过互联网众筹的人力标定,再喂给模型来学习。一百二十万张是个什么概念?相当于一个人每秒一张,一天八个小时,看一整年的图片量。

这其实并不算多。人活一年,睁眼看世界,摄入的视觉信息远比这个要多得多,更不提人活一辈子会看多少。但如果每张都要让人记住是狗还是猫、是花还是草,不要说一年,我猜任何人连十分钟都挺不住。

人体骨骼关键点训练集中,4个关键点的分布情况

换句话说,人脑消耗的数据量要大得多,但其中刻意去学的又少得多。

除了大脑强大的记忆和泛化能力,至少还有两个重要的手段,把大部分工作在下意识中自动处理掉了,这才使得昂贵的学习只成为了浮出水面的冰山一角。

第一个手段是,大脑对来自底层感官下一时刻的信号随时预测,预测准确则过滤掉,只有错了才进一步处理。不如此,淹没在各种各样的噪声之中的大脑就会“过劳死”。这也是一个人挠自己痒痒不会发笑的原因。我们的日常生活空间尺度足够大,符合牛顿物理定律,也因此充满结构,这使得大脑能对周遭世界建立模型,有了模型就能进一步建立预测机制。具有预测功能的大脑也更稳健,能容错通讯中因为噪音而丢失的信息。

第二个手段是让来自不同感官的多路信号互相监督。比如孩童把玩一个玩具,手上拿着的、眼睛看到的、耳朵听到的,是不同模态的信号,分别在不同的大脑皮层被处理。来自同一个物体这个事实,已经是个很强的监督信号,并不需要额外标注。相反,如果信号之间不自洽,比如看上去很轻的却拿不动,才会被注意到,并得到进一步处理。

带自顶向下预测、多模态协同的无监督学习方法,是现在的人工智能模型所缺失的。

强标注的样本在整个样本群中比例越小越好。我的好朋友江铸久九段说,人类棋手下过的好棋谱大概三万左右,那么在学习完这些对局之后,AlphaGo自己下了几盘呢?保守一点估计,AlphaGo自己对弈大概一秒一盘,每天八万多盘。按脸谱公司田渊栋博士的推测,谷歌动用了上万台机器,而AlphaGo项目至今已经两年多了。所以,AlphaGo发展到今天的围棋智力,其中有标注的数据只占总数据量的千万分之一或更少。

年5月,张峥曾在文汇讲堂第00期晚间演讲《AlphaGo:The

分享 转发
TOP
发新话题 回复该主题