计算机是人类发展速度最快的学科之一,在跨越式的技术进步之后,其底层思维有时会显得落后。在平常的研究工作中我们习惯于实证和量化的表达,而本文尝试借用科学哲学的视角梳理计算架构的演进逻辑。文中的批判性探讨并非旨在贬低前人在旧有范式下的成就,而是希望通过底层观念的碰撞,为读者理解通用计算的未来提供一个理性的新维度。

人类对科学的探索,始终无法脱离其所处时代的客观历史条件。正是这些条件,决定了我们认识世界的初始视角,并深刻塑造了不同学科的底层认识论。

物理学是一门关于既有实在的学科。在人类有能力砸碎原子之前,日月星辰已经运行了百亿年。所以,人类对物理学的认识路径,必然是从宏观渐入微观。早期的物理模型始于开普勒的行星运动定律,随后才被牛顿力学所解释,而对微观基本粒子的认识则要等到数百年后的近代。历史条件让人类只有在宏观模型臻于完善之后,才能逐步建立微观模型。

因此,在物理学中,任何在认识论上贪婪激进的还原主义思想,都会直接挑战当时人们的既有认知,从而容易得到充分的批判。这种思想认为:既然已经发现了万有引力,便不再需要开普勒的定律;既然确立了相对论时空观,牛顿的绝对时空观便是一种谬误;既然所有相互作用都可以还原为几种基本力、所有物质都可以还原为基本粒子,那么始于苹果落地的探索便只算作通向标准模型的多余过渡品。由于更基本的规律诞生了,便可以否定更高认识层级上宏观科学规律的价值。

然而在计算机科学,人类的认识路径是从微观进入宏观。计算机科学是一门关于人造物的学科,受限于历史时期的工程能力,计算机科学家没有如物理学家那样的历史条件去预先建立宏观认识防线,容易先入为主地接受还原主义观点的教育。这导致在物理学中已被充分批判过的认识论上的还原主义思想,在计算机科学中却被长期采纳为主流。

图灵是一个伟大的数学家,是计算机和人工智能的先驱。作为数理逻辑的分支,他的理论奠定了计算的本体论,但同时在认识论上存在着未曾被批判过的巨大局限。他的理论认为:用基本算术和逻辑可以计算一切可计算问题——如果平移到物理语境中,这句话就如同“用夸克和电子的运动可以解释第二次世界大战的结局”。一方面,这种观点在逻辑上是严谨的,展示了理论的普遍与优雅;另一方面,这种观点也否定了其他认识层级存在的意义,并巧妙地将它们的价值导向自身。

图灵认为通用逻辑计算机通过编程可以实现人类的智能;乔姆斯基认为人类的心智可以还原为一组明确的“转换-生成语法”规则;费根鲍姆认为专家系统可以通过形式逻辑与知识库的堆砌构成。在这种还原主义信念驱使下,一代又一代科学家如飞蛾扑火般扑进了一个永远研究不完的问题中:穷尽短暂一生写下有限的规则,尝试去拟合极度复杂的智能功能。然而,封闭计算系统的柯尔莫果洛夫复杂度不会自发地升高,这意味着有限的代码与逻辑规则,永远无法凭空内生出超越其自身结构的信息量与复杂性。无限的理论可能最终还需要通过有限的人力来实现,因此物理学家绝不会尝试通过摆弄夸克来复现斯大林格勒;但计算机科学家在本体论上的成功长期掩盖了其在认识论上的原始,他们失败的结局是注定的。

最终,这些信念随着日本五代机的最后努力一同破灭,但也留下了一些改变世界的副产物:图灵的理论是今天信息社会的基石,通用数字逻辑计算机是今天人类再也无法离开的工具;乔姆斯基的理论虽然解释不了人类心智,却形成了“形式语言与自动机”这门分支,成为了现代编译器的基础;费根鲍姆因在早期人工智能系统中的贡献于1994年获图灵奖。

在体系结构领域,计算还原主义思想长期驱动着一股反动力量,压制着新架构的诞生。在这种思想下,专门针对基本数学运算与逻辑跳转而设计的CPU是实现通用计算机的最佳实践。由于CPU已具有完备的功能——由图灵所保证,同时发展其他架构便没有意义。直到21世纪初,CPU几乎是这门学科所研究的唯一对象。

这种思想对新兴架构的压制是毁灭性的。因一切计算都预先在思想上被还原了,任何有别于CPU的架构的价值已被先决地否定,最多只能作为“仆从设备(Slave)”存在。你可以设计一个专门的视频编码器,然后以二等公民的身份挂载在CPU外围,补充CPU的性能。在量化研究方法下,它的价值体现在464.h264ref这一单项测试的评分提升上。因为只影响无穷多程序中的一项,这会被视为无关紧要;因程序会演变,这会被视为临时方案。

CPU独特的通用性被认为是长久适应程序变化的唯一万全之策。新架构或许会调和地转而证明自己也具有图灵完备性,希望借此获得同等严肃的对待。但它们会落入一个专门用来审判这种调和思想的概念中:“图灵坑(Turing tar-pit)”——这个概念由首届图灵奖得主阿兰·佩利命名,指仅具理论可能而不具有实际意义的通用性。

在还原主义观点下,深度学习也被长期异化为广泛程序中的平凡一例,被视为052.alvinn——与464.h264ref没有本质区别。因此,专门研制针对052号程序的处理器芯片被视为缺乏远见的行为,因为人们认为无法预测明天智能算法会不会从深度神经网络发展成支持向量机,导致芯片在诞生前就失去价值。在快速崛起的深度学习面前,还原主义对通用性的坚守带领整个产业进入一个悖论:深度学习发展势头越盛、研究深度学习处理器就越无意义。这样僵持到2011年,竟然出现了谷歌使用数万个CPU训练识别猫的奇景。

然而历史的演进已经证明,深度学习处理器最终跨越了附属地位,发展为一项影响深远的产业。这是因为深度学习并非对既有计算程序的简单堆砌,而是代表着人类认识计算的另一层级。它具有同样深厚的理论根基,构成了另一种截然不同的通用计算范式:

  • 第一类通用性(数学逻辑):以通用图灵机(希尔伯特判定问题)为理论基础,基于离散状态、离散计算、符号表示,旨在判定数学中能够递归定义的所有逻辑命题。它通过被动地接受编程来实现通用,擅长处理各种能够由规则清晰描述的繁重重复逻辑。

  • 第二类通用性(深度学习):以通用近似定理(希尔伯特第十三问题)为理论基础,基于实数状态、实数计算、数据分布概率,具有逼近任何定义在欧式空间上的连续函数的能力。它通过反向传播训练来实现通用,能够解决人类无法显式描述规则、但可以通过数据学习的智能任务。

近来,一种颇权威的说法将深度学习处理器描述为“领域专用架构(DSA)”并广泛流传。依我来看,”领域专用架构“这个概念是一种旧观念下的异化与新观念带来的现实之间妥协的产物。一方面,它承认了过去将深度学习异化为“一种平凡程序”的错误,给深度学习处理器的发展让出了空间;另一方面,它只愿意修正至“一种平凡领域”,以便仍尊(第一类通用架构)CPU为主不变。深度学习处理器诞生已十余年,多种“领域专用架构”百花齐放的新黄金时代是否如约来临了?哪种观点更好地解释了现实,每位读者都可以有自己客观的判断。

谷歌训练识别猫的任务,交给一颗CPU几乎永远无法完成,交给一颗深度学习处理器则轻而易举。但是,形而上学的计算还原主义者坚称只有前者才是通用的——他们认为CPU甚至能够支持至百年后的人工智能。这种观点中的荒谬之处,就如同认为物理学家能诊疗疾病。以智能计算的视角观之,CPU也只是一个“图灵坑”罢了。

前段时间,我受陈云霁老师的委托,协助他总结回顾这段科学发展史。我惊奇地发现历史是一个轮回——我曾认为自己走在孤独的路径上,却处处都是前辈留下的脚印。

在我的观点中,今天的深度学习大语言模型已经初步实现了通用人工智能,只是尚未形成广泛认同。因此,我预测以大语言模型为基础,即将诞生第三类通用计算范式,即基于自然语言的认知智能。它基于自然语言、上下文理解实现通用,擅长处理宏观规划、常识、逻辑思考与交互。这是目前已知唯一能实现高级认知功能的计算途径,已经非常接近人类智能的表现。

通过研究高效、低成本的硬连线方案,直接工作在自然语言词元上的语言处理器,相比深度学习处理器(包括GPU)可以再次实现千倍以上的效率提升。千倍效率提升已不再只是量变,而是开启了新的计算层级,实现了具有高级认知能力、能够实时响应的硅基大脑。这种级别的计算效率过去被广泛认为需要切换到模拟电路、光计算、新材料等不同技术路线,而我们的方案基于标准CMOS工艺实现,具有快速落地应用的潜力。

技术上,我们已经基本找到了一条可行路径并持续推进,但真正的困难在于扭转过去长期形成的既有观念。正如深度学习处理器需要面对被异化的历史,在当下业界注意力全部聚焦于以天量投资大建“星际之门”的时候,这种新型语言处理器也需要首先克服误解。由于缺乏对可能形成的“第三类通用计算范式”的广泛认识,大部分系统研究者习惯性举起的是旧观念下的标尺。

  • 误解1:语言处理器只实现一个模型,因而无关紧要。

如同过去曾有人认为深度学习只是SPEC中的一号程序,今天也会有人认为单个大语言模型只是Mlperf中的一个平凡模型——例如Llama3.1 8b之类。但是,语言能力本身便是通用智能的重要形式,其解决一般问题的能力与价值已无需赘述。通过具体哪个模型来实现这样的语言能力,已经是一项类似“选用哪家厂商供应的CPU”一样次要的技术问题。

  • 误解2:无法预测明天模型结构会不会从Transformer发展成Mamba,导致芯片在诞生前就失去价值。

在两个时期均有反对者声称,当下的算法正处于剧烈动荡期,押注一个特定算法是危险的。然而,深度学习处理器通过总结运算的基本规律,能够实现针对深度学习算法的广泛支持,并没有因模型结构由AlexNet到ResNet到ViT的变化而消亡,将支持向量机运行在深度学习处理器上也本就不是一件难事。语言处理器并不是简单对模型进行无序的固化,而是提取了其中的重要计算规律进行针对性设计,为最主要的前馈网络与投影部分提供通用于矩阵-向量运算的硬连线模板,辅以可控制的其余辅助单元共同完成计算。一块神经元海基板完全可以做到同时支持多种Transformer或其他神经网络模型,支持Mamba也并无技术困难。

  • 误解3:因模型会快速更新,语言处理器会快速过时。

当前产业界最难以打破的偏见。面对大语言模型日新月异的发展,人们本能地退回到一种具有绝对灵活性的架构中寻找安全感。在过去,这个避风港是CPU;在今天,这个避风港变成了GPU,也即形成了新的“大语言模型发展势头越盛、研究语言处理器就越无意义”的悖论。

GPU为了适应快速发展,打造了一整套厚重的软件栈(驱动-运行时-编程语言-算子库-框架-推理系统),维护整套软件生态持续运作的巨额成本是GPU当前最强的垄断壁垒。到了大语言模型的时代,整套昂贵的软件生态最终却仅服务于GPT、Gemini、DeepSeek等少数几个模型的集中部署,资源配置效率非常低。

而在语言处理器中,硬件直接工作在词元层面上,消解了软件生态成本。在当前技术方案下硬件开模成本也可以得到良好控制,随模型更新重置一套硬件的成本可以做到显著低于新模型本身训练的成本。“通过更换硬件实现模型更新”在历史上从未作为现实方案出现过,因此要让人们广泛接受还需要更多的时间来发展。

另一方面,假设摩尔定律加速发展,集成电路的性能每隔几个月就会翻倍,导致一颗CPU在上市前其工艺就已不再是最先进的。在这种情况下,我们会不会将CPU的制造也停下来?请注意,语言处理器的更新不会改变其自然语言界面,而只会改善其在部分任务上的性能。能够通过性能淘汰一颗语言处理器的,只有另一颗语言处理器。

图灵终其一生都在为人造机器终将实现人类智能的信念而辩论,他孜孜不倦地撰文逐一反驳神学、有灵论、“草莓加奶油”、心灵感应等在今天看来已极其荒诞的观点。他乐观地写道:“我相信在世纪之交,词语的使用与普遍的学术观点将已经发生巨大的改变;到那时,人们将可以谈论机器思考而不会引起什么异议。”

图灵本人曾坚信通用性已经意味着逻辑计算机可以达到人类的智能,但晚期的他也意识到了将人类智能简单归结为在计算机上编写程序的困难。他曾这样写道:“通用逻辑计算机只是一种极端纪律化的形式;要让机器产生人类智能,应当制造一种无组织机器,然后通过奖惩系统对其进行教育。”这种新机器的形式与今天深度学习有着惊人的相似,然而由于对于体系结构所研究的CPU量化指标竞赛没有直接帮助,他的观点只被今天计算机科学的教育系统选择性地吸收了前半部分。由此可见,在计算机这样一门年轻的学科中,我们过去被教育过的知识并不见得总是全部的真理。创新意味着必须不断地重新敲打每一项既成共识。

虽然图灵没能直接实现人工智能,但假若没有过去作为工具的通用逻辑计算机辉煌发展,便没有深度学习的诞生和复兴,更没有今天我们有幸见证的通用人工智能雏形。计算机科学在经历了近百年的底层微观堆砌后,终于借助大语言模型真正触及宏观的“认知”层面。自语言处理器之后,我们的造物不再只是计算数字,而是开始通过语言的形式深度思考。这是整个学科从计算机的“工程学”向“认知科学”演进的重要转折点。

历史将这个重要的转折点交给了我们这一代架构师。语言处理器架构在既有观念下是那么不可理喻;可切换了观念视角后重新审视,它又是那么直观。希望十年之后,当人们回顾这个架构的时候,都能够觉得这不过只是当然。