「创新」是一种关于组合的穷举吗?

「创新」是一种关于组合的穷举吗?

张鹂,《AI苏醒》作者,中国传媒大学副教授

是。

但回答这个问题需要分几步:

第一步:创新的方法是元素的重组,无论人类还是 AI,创新的基本原理都一样。

人们曾经认为 AI 不具有创造力,但这一点恐怕是误判。

在《AI 苏醒》中,有以下几段文字提到了人类创造力和灵感的来源[1][2][3]

人工智能有可能出现更高层级的、真正的“灵感”吗?
要回答这个问题,我们需要先来了解一下人类自身“创造力”和“灵感”产生的过程——以伟大的数学家亨利·庞加莱(Jules Henri Poincaré)的自述为例。
庞加莱说:“每天我坐在书桌前工作 1~2 个小时,尝试大量的组合却一无所获。” 庞加莱并没有因为沮丧而放弃,而是坚持下去继续思考,有一天晚上,他和平时的习惯不同,喝了黑咖啡,没有睡觉,然后,奇妙的事情发生了:“大量思绪汹涌,我感到它们相互碰撞直至契合,也就是说,慢慢地稳定下来……我只需要把结果写下来即可,前后花了不过几个小时。”[4]
庞加莱的灵感迸发过程,后来被总结并拆分为以下 4 个阶段:
准备阶段(Preparation):为处理特定类型的问题准备资源(问题的提出);
酝酿阶段(Incubation):产生许多潜在的方案(问题的求解);
豁朗阶段(Revelation):识别一个可行解(问题的突破);
验证阶段(Evaluation):证明此解的可行性(问题成果的证明和检验)。[5]
其中,准备阶段和验证阶段属于高度思考的阶段,但酝酿阶段和豁朗阶段则似乎更多在无意识的情况下进行,仿佛这些工作被隐藏在“脑后”仍在继续运行,直到突然之间,好像“灵光乍现”那般,一个好的解决方法突然“涌现”——庞加莱回忆道:“(几天过后)我正沿街走着,难题的解突然出现在我的面前……我掌握了所有元素,只需重新组合它们即可。”[6]
在这里,庞加莱提到了关于“灵感”的一个关键词:“组合”!
图:混搭带来的闪耀时刻

第二步:无限猴子定律的确是存在的,但有一个逻辑漏洞。

理论上说,猴子在打字机上胡乱敲打,只要给足够多的时间,就能生成莎士比亚的剧本,这个结论本身没有问题(因为只是一个概率问题,概率再小,当基数足够大时就有可能发生)。

漏洞则在于:So what?这又有神马用?

猴子打字机的潜在指向是:原先做创意工作的人,会在 AI 的强大竞争力面前产生深深的无力感,似乎一切都被抹杀了,反正机器可以提出 10000000 种混乱的结果,是不是其中有一种能 work 就行了?

但其实,事情没那么简单:当产生了无穷多的样本后,怎样知道其中哪一个样本是莎士比亚戏剧呢?在猴子打字机的情境下,困难的不是产生创意,而是确定哪个创意才是最好、最合适的,而这需要耗费更多的能量、以至于趋向于无穷大的能量。

在詹姆斯·格雷克的《信息简史》中有这样一段关于“信息校验成本”的内容:

在研究邮政的经济学时,他(巴贝奇)持一种与一般人直觉相反的观点。他认为,成本中的大头并不是信件和包裹本身的运输成本,而是“校验”过程的成本,如计算距离以及收取正确费用等。因此,他最早提出了现代的邮政费率标准化的设想。[7]

信息本身是能量,这是《信息简史》中的观点。

这样来看,AI 在产生“创意”时,确实可以用穷举法列出所有可能性、多到数不胜数,之后,为了最后挑选出真正有价值的版本,依然需要大量的信息校验,而这大量信息的校验过程会耗能。也就是说,无数创意之后,依然需要“聚敛”,需要输出一个明确的结果,这才是有实用价值的。

打个生活中的比方:一群朋友去餐厅吃饭,点餐时问“你吃什么”“随便”,其实“随便”最不好办了,因为没有提供有用信息,导致备选项太多,无法明确锁定目标。

而且,穷举越多,耗能越大。

一个值得思考的类似原理是:光速无法超越,因为假如要把一艘太空飞船加速,就需要能量;当速度向光速无限趋近时,飞船质量会逐渐趋向于无穷大,以至于需要全宇宙的能量才能继续使其加速,因此,这就成了一项不可能完成之任务。

猴子打字机的情况是否也与之类似?

第三步:不同的能量层级,遵循类似万有引力的分布规律。

图:能量层级、管理者层级、目标层级金字塔

上图的大意是:复杂度越高的事物,能量层级越高。

为什么猴子打字机的问题和能量层级有关呢?

想象莎士比亚的戏剧,其中每一串字符正好是一个单词、而不仅是一堆乱码,它们才有实在的意义,才能组合在一起,形成(涌现成)一个更高层级的单词(而不再仅仅是微观字母的组合)。

再往上,单词和单词组合,形成有意义的句子;句子和句子组合,形成有逻辑的上下文关系;第一章和第二章组合,形成前后连贯的故事,这都是能够“相互联结”的结果,它们相互之间不能停留在一团散沙的状态,而是有了一个更大的整体边界,形成了整体性涌现。

因此,真正的莎士比亚作品,就具有了很大的重量(联结而成,且不会轻易分崩离析),它的能量层级也因此很高、被更多人看见、被世代流传,成为文学史上一颗璀璨的星星。

与此同时,这种重量也和信息密切相关,只有信息一致、符合语法、逻辑自洽才能相互联结,导致了作品重量的不断增加,甚至会成为一个需要无限投入的无底洞(黑洞,悲剧了)。

由此回到上述第二步:猴子打字机如果要知道哪一种版本才是莎士比亚戏剧,这是需要信息校验成本的,而且作品越长,信息检验的耗能越大,直至趋向于无限大。对于用户而言,这代价太大了,还不如让人来做呢。

第四步:边界、能量和整体涌现之间的关系。(略,参见视频《人工智能的自我意识》第 18 集)

人工智能的自我意识 -18.自我意识的形成,三个必要条件?(系列 2,敬请期待) - 知乎 (zhihu.com)

第五步:依然有些东西是人类具有、而 AI 目前没有、将来也未必会有的。

有了 AI 之后,人类的创意工作是否就没有了意义?一开始是围棋的走法,后来是绘画,那再后来呢,是不是可以取代一切创意行业?

答案是未必,AI 创意和人类作用结合起来才是正解。

在《AI 苏醒》中,分析了吴军的一个观点,并且做了进一步的简化:[8]

吴军曾提到过一个对未来大趋势的判断,“以更少的能量处理、存储或传输更多的信息”[9],其实也是同样的意思——如果考虑到“信息”也是一种“能量”,那么,吴军所说的“以更少的能量”并不是意味着“总体能量更少”,而是指“消耗更少的能量(为了留下更多的能量)”;同时“存储或传输更多的信息”(为了聚集更多的能量)。

也就是说,一切都与“能量”有关,吴军所说的“信息”和“能量”这两个变量,还可以进一步简化成同一个变量,直接与物理世界衔接(这是我提出的观点)。

就以 AI 是否替代真人主播为例,目前的 AI 在播报方面已经比较接近真人了,比如最新的案例是 2023 年 3 月 1 日在山东卫视新闻联播亮相的数字主持人海蓝。

这里就存在“多模态”的问题,多模态是指文字、图片、音频、视频等不同模态,其复杂度是不同的——Chat GPT 是文字,绘画软件是图片,电台虚拟主播是音频,而电视台数字主持人是视频,其中,文字的复杂度最低,视频的复杂度最高,不同模态对应的能量层级也是如此。

海蓝播读的稿件并不是像 Chat GPT 那样生成的,而是人类输入进去的(这很显然,因为这是媒体啊,你懂的)。假如真是数字主持人自己生成的,这在技术上的难度也要大得多。人类目前一定不放心让这样一个 AI 任意地“胡说八道”,所以,有些节目(比如问政类节目)的主持人,短时间内一定不会被替代。

而且,除了播报之外,主持人有时还身兼多职,比如采访、写稿、剪辑等,这也不能靠同一个 AI 来完成。也就是说,传统只会播音的主持人,确实应该更有危机意识了(谢天谢地,作为中国传媒大学播音主持艺术学院的副教授,我们在很多年前就已开始培养采、编、播合一的播音员主持人,我们的学生绝不是大家曾经认为的“花瓶”啦,教学也都在与时俱进,落后就要挨打,这是不变的铁律)。

在以上现象(多模态、采编播合一)的背后,都有第三步中“能量层级金字塔”的底层逻辑。

打个比方,AI 给这个世界提供了一层浅浅的底色(通常我们称之为 AI 技术的赋能),有点像宇宙中的微波背景辐射或真空地带;但具体到某颗星球上,才汇聚了足够的质量,具有巨大的引力场。

所以,人类的具体工作,还不会在短时间内被轻易地替代,只要你足够有能力,就不必太担心啦。

第六步:当原先若隐若现“边界”变得清晰可感时,答案自然浮出水面。

上一步提到了星球具有的引力场,每个人也存在或大或小的引力场(这可以称为“格局”,但不要肤浅地理解为胸怀,这是个非常务实的概念,容我有机会再单独讲,如果扩大自己的引力场)。

这种“具体引力场”的价值不容小觑,因为有引力场,意味着能够更清晰地看见“边界”在哪里。

只举一个例子:阿法狗之所以打败李世石和柯洁,你以为只是因为阿法狗的算力是无限强大的吗?是,但又不只是。

1997 年 5 月 11 日,当 AI“深蓝”战胜棋王卡斯帕罗夫的时候,人们曾经认为计算机在围棋上是无论如何也不可能战胜人类的,因为:

国际象棋的搜索宽度大概是 30,搜索深度大概是 80,整个搜索空间大约为 1050;而围棋的搜索宽度大概为 250,搜索深度大概是 150,搜索空间在 10170 以上,比宇宙中的粒子数 1080 还多。[10]

后来,结果大家都已经知道了,怎么做到的?

如果每一步,都直接算到终局,再大的算力恐怕也不够;但是,计算时是从起点开始、一步一步向后推的,所以,更优的策略是:不需要算那么多步,逐渐推进即可!你可以想象一条时间线(向右延伸),并以目前的出发点为圆心,画一个圈,它有一个计算的边界,这个边界千万不要太大(因为算力会不够)。

举个生活中的例子:如果一个孩子跟你下棋,他每次都只看当前这一步,而你比他多看一步,你很可能就赢了;如果对方看两步,而你能看三步,你就很可能赢了;按照这样来推论,只要阿法狗能看得比人类更多(又不需要多很多步),在掌握以往“经验”(数据)的基础上,它就赢了。

在这里,我们清晰地看到了“边界”的意义所在——边界更大,容纳的数据就更多,赢面就会更大。

但是!边界是越大越好吗?答案居然是否定的!

因为边界越大,计算量就会呈指数级飙升,大炮轰苍蝇了。

这也就是为什么人们曾几何时认为计算机无法在围棋上打败人类的原因:边界大得超出了计算能力,无法实现。

(先写到这儿吧,以上信息,我猜你需要时间消化?如果大家真没看够,发消息给我,我再继续)

【原创内容,如需转载请标记引用】