第一个用物理做计算原语的大规模生成模型Un-0来了,或将AI能耗降低1000倍?

在人工智能领域,GPU驱动的数字计算已主导了十多年,通过增加集群规模、提升带宽、升级GPU和优化数据中心来推动AI发展。然而,随着模型参数量逼近万亿级别,AI的“能源账单”已成为一个日益严峻的问题,甚至可能成为制约行业发展的结构性瓶颈。

为应对这一挑战,前Databricks AI负责人、创业者Naveen Rao创立了Unconventional AI公司,并发布了其首个模型Un-0。Un-0是一个基于“模拟耦合振子系统”的图像生成模型,代表了一种新型的物理计算基础。该模型在ImageNet 64×64数据集上实现了6.74的FID分数,其生成质量已接近早期主流传统图像生成方法的水平。Naveen Rao将其描述为“首个将物理学作为计算原语构建的大规模生成模型”,并预言这种基于物理的模型有望将AI推理能耗降低至现有水平的千分之一。

Unconventional AI的目标是构建一种新型计算机,利用物理规律进行计算,从而大幅提升能效。他们提出的核心问题是:能否训练一个物理动力系统来完成大规模图像生成任务?尽管当前最强大的AI模型多基于Transformer等传统深度网络,但长期以来,研究人员一直在探索利用物理系统的动态行为来提高能效,例如模拟电路中的噪声、电压和电流等。这类方法不依赖传统数字计算,而是利用物理系统自身的演化过程。Un-0正是在这些非传统计算路径上的新尝试,其关键在于如何有效地将AI任务映射到物理系统的动态过程中,并验证其是否能比现有硬件更高效地处理AI工作负载。

Un-0的工作原理可以类比于多个节拍器。每个节拍器(振子)都有一个“相位”,代表其摆动周期的位置。当多个节拍器放置在一起时,它们会通过桌面(耦合)相互影响,并可能逐渐同步。Un-0的核心计算引擎就是一个大规模的振子群,振子间的耦合强度是模型可学习的主要参数。这些振子遵循一个简单的规则:一方面按自身频率旋转,另一方面受到其他振子的牵引而改变相位。这种演化过程可以用常微分方程(ODE)来描述。Un-0需要学习的参数是耦合矩阵K和自然频率ω,它们共同定义了物理系统。选择振子模型的原因有二:一是受大脑中节律活动和同步现象的启发,这些现象被认为可能参与了计算过程;二是振子可以被物理电路实现,直接在硬件上进行动力学演化计算。

Un-0生成图像的流程大致分为五个步骤:首先,随机初始化所有振荡器的相位;然后,通过一组“条件振荡器”输入类别标签,引导主体振荡器集群向特定方向演化;接着,让系统在物理动力学作用下自由演化并稳定;之后,在特定时间T捕捉所有振荡器的相位,形成一个潜在空间数字网格;最后,通过一个参数量较小的传统解码器将相位网格转化为像素图像。训练过程中,模型主要学习振子间的耦合强度(K)、每个振子的自然频率(ω)以及解码器的权重。与扩散模型等方法不同,Un-0不显式指导动力系统的演化,而是通过损失函数反向优化整个动力系统,这需要一种更复杂的损失函数,主要来自生成样本本身。

Unconventional AI在CIFAR-10和ImageNet 64×64数据集上进行了模型训练。结果显示,随着振子数量的增加,模型的FID分数持续改善。最大的ImageNet 64×64模型使用了16384个振子,参数量约3.22亿,FID达到6.74。训练采用了新提出的“漂移损失”(Drifting Loss)函数,并结合DINOv2特征提取器和AdamW优化器。算力方面,CIFAR-10模型在1张B200 GPU上训练,ImageNet 64×64模型在8张B200 GPU上训练。训练瓶颈主要在于“漂移损失”函数的计算。

在图像生成领域,Un-0的性能已可与一些早期的传统生成模型相媲美,但仍落后于最新的高性能传统模型。它被视为一个新路线的起点,证明了利用物理动力学系统进行大规模图像生成的可能性。尽管在软件模拟下的性能尚未达到顶峰,但它为实现高能效的“非传统AI硬件”开辟了新路径。Naveen Rao强调,计算并非人类独有,物理世界中的各种过程都包含计算的本质,Un-0正是在利用这种被忽视的时间维度。与现有计算架构相比,动力系统将计算和记忆融合,且能容忍噪声,有望大幅节省通信能耗。Un-0标志着计算范式向动力系统转变的重要一步,将智能与动力学联系起来,绕过了传统AI中的某些抽象环节。

网友们对Un-0的出现表示期待,认为其性能效率的提升可能使许多本地应用成为可能,并称赞这是一项“极其先进的脑科技”。

海量资讯

爱游戏,点亮您的游戏人生。

2 条评论
海量资讯

一手掌握最新游戏动态。

海量资讯

与全球玩家深度交流。

发表您的看法