这项由研究者Prashant C. Raju进行的研究发表于2026年4月5日,论文编号为arXiv:2604.04155v1 [cs.LG]。有兴趣深入了解的读者可以通过该编号查询完整论文内容。
在我们日常生活中,世界是连续的。水流是流畅的,温度变化是渐进的,音乐的音调是平滑过渡的。然而,当科学家们试图让人工智能理解生物学和物理学时,却遇到了一个根本性问题:他们必须把这个连续的世界切割成一个个离散的小块,就像用积木搭建一个光滑的斜坡一样。
![]()
研究者发现了一个被称为"几何对齐税"的隐形代价。这个概念就像是给连续性征收的一种特殊税收。当AI模型试图理解DNA序列、蛋白质结构或物理现象时,它们必须先把这些本质上连续的自然现象转换成离散的符号代码,然后再进行处理。这个转换过程就像用方块积木搭建圆形,无论积木多么小,最终的结果都不可能真正平滑。
这项研究的核心发现令人震惊:在生物学和物理学的AI模型中,离散代码化是导致几何不稳定的主要原因,而不是模型架构本身的问题。研究团队通过精心设计的对比实验证明,同样的模型架构,当使用连续数值输出时,几何稳定性比使用离散代码输出时要好8.5倍。
这个发现的重要性在于,目前评估科学AI模型的标准都集中在预测准确性上,比如困惑度、准确率等指标,但这些指标完全忽略了模型内部表示是否保持了它们所建模系统的连续几何特性。这就像评判一个画家只看他用了多少种颜色,而不看画作是否真实反映了现实世界的连续性和和谐性。
一、积木搭斜坡的困境
为了让普通读者理解这个问题的本质,我们可以用一个简单的比喻。假设你要用长方形积木搭建一个光滑的斜坡供弹珠滚下。直觉上,你可能会认为使用更小的积木就能让斜坡更加平滑。确实,从远处看,用小积木搭建的斜坡确实比用大积木搭建的看起来更光滑。
但当弹珠真的滚下来时,真相就显露了。每一个微小的积木边缘都会给弹珠造成一个细小的方向扰动。虽然单个扰动很小,但这些微小的角度误差会累积。最关键的是,当积木变小时,弹珠滚到底部时的累计角度误差并不会消失,而是以极其缓慢的速度减小,以至于在实际应用中,我们永远无法达到真正的平滑。
这个斜坡实际上不是平滑的,它只是一个高分辨率的粗糙表面近似。目前的科学AI模型就面临着完全相同的结构性分歧。它们将连续数据量化成离散词汇表,然后进行处理。增加参数数量和上下文窗口确实会缩小词汇表箱子之间的步长,最小化宏观错误,创造几何保真度的错觉。但底层的流形仍然是破碎的,这种破碎受到缩放定律的支配,使得收敛变得极其缓慢。
研究团队设计了一系列巧妙的对比实验来证明这一点。他们使用了三种不同的AI架构:Transformer(类似于ChatGPT使用的注意力机制)、状态空间模型SSM(一种新兴的连续时间架构)和混合型架构。当这些架构在具有已知连续几何特性的合成动力系统上进行训练时,使用连续目标函数的三种架构在几何稳定性方面只相差1.3倍。
然而,当同样的架构被迫使用离散代码化时,情况发生了戏剧性变化。在一个生物突变行走实验中,三种架构的表现相差高达3000倍。这种巨大的差异不是来自架构设计的不同,而是来自代码化方法的差异。同样的编码器,同样的训练数据,同样的扰动协议,唯一的变量就是输出离散化边界。
二、学习型代码本的双重困境
一些读者可能会想,既然简单的均匀分箱会造成问题,那么使用更智能的学习型代码本(Vector Quantization,VQ)是否能解决这个问题呢?研究团队预见了这个质疑,专门设计了实验来测试这种想法。
他们使用了VQ k-means代码本,测试了六种不同大小的代码本(从32个代码到1024个代码)。结果揭示了一个令人困扰的双重困境。一方面,重建质量随着代码本大小的增加而单调改善:从32个代码时的重建误差0.098,改善到1024个代码时的0.00014,证明代码本确实学会了如何更好地表示数据。
但另一方面,几何稳定性却呈现出一个奇怪的非单调模式。在64个代码时存在一个浅层最优点(失真度0.073),略好于256箱均匀基线(0.096),但随着代码本变大,失真度反而增加:512个代码时为0.100,1024个代码时为0.105,两者都比均匀基线更差。
这种现象的机制很直观:更精细的Voronoi单元格使得固定幅度的扰动更有可能跨越单元格边界。因此,在重建意义上更好的代码化反而使几何变得更差。实证几何失真遵循1/log K的缩放规律,这远比人们天真预期的添加代码本条目时的1/K缩放要慢得多。这种缓慢的衰减反映了扰动下边界跨越的几何特性,而非重建质量,这意味着需要指数级更多的代码才能接近连续性能。
三、规模化的陷阱
研究团队还发现了一个令人担忧的现象:随着AI模型变得越来越大,几何稳定性问题不但没有改善,反而变得更加严重。他们以ESM-2蛋白质Transformer套件为例进行了详细分析,该套件包含从800万到150亿参数的六个不同规模的模型。
结果显示,从800万参数到30亿参数,复合稳定性呈单调下降趋势:从0.463下降到0.391。这种渐进式的税收横跨了近四个数量级的参数。然后,150亿参数的检查点似乎"恢复"到了0.445,表现出一个V形曲线。
但这种"恢复"是误导性的。研究团队通过一种叫做Procrustes缩减的技术量化了全局漂移。他们发现,150亿参数模型在1%替换下实现了约5%的缩减率,在序列反转下上升到约20%。这表明流形作为一个连贯块全局漂移,同时保持内部相对结构,这是"无系泊凝胶"的标志。
这种现象就像一个完整的果冻块在盘子里滑动。从外部看,果冻内部的相对位置关系保持不变,所以某些测量指标会显示"稳定"。但实际上,整个果冻块已经偏离了它应该在的位置,这种全局漂移对实际应用来说是破坏性的。
四、DNA反向互补的虚假成功
研究中最引人注目的发现之一涉及DNA序列的反向互补特性。由于双螺旋的结构生物化学特性,每条DNA链都具有数学上完美的连续对称性:反向互补。因为一条序列及其反向互补编码完全相同的生物学信息,一个在几何上有根据的模型必须将两者映射到相同或完全对称的表示流形。
为了确定原因,研究团队设计了一个巧妙的四条件对照实验,称为"纹理假设测试"。他们测试了四种不同类型的DNA序列:真实人类chr22序列、纯随机序列、纹理匹配的马尔科夫序列(只保留群体水平的双核苷酸频率),以及双核苷酸洗牌的真实DNA(保留每个序列的精确k-mer计数,但破坏所有位置结构)。
结果令人震惊:双核苷酸洗牌的真实DNA恢复了真实随机差距的97%,而纹理匹配的马尔科夫序列只恢复了3%。这个结果明确揭示了机制:Evo 2的嵌入功能就像高维的每序列k-mer直方图。反向互补保留精确的k-mer计数,所以正向和反向互补产生对称的直方图,模型的权重等价地聚合它们。
通过双核苷酸洗牌破坏位置结构仍保持这种对应关系,因为每序列直方图保持不变。通过马尔科夫生成只匹配群体水平统计失败,是因为个体序列失去了它们独特的组成指纹,崩溃了RDM测量的每序列配对结构。这是一个受控的因果结果:Evo 2不理解双链DNA对称性,它只是在计算短子序列。
五、信息论揭示的三大失效模式
研究团队通过率失真理论和互信息神经估计(MINE)技术,识别出了现代生物学基础模型中三种不同的失效模式。这些失效模式就像三种不同类型的"疾病",每种都有其独特的症状和表现。
第一种失效模式被称为"局部-全局解耦"。在这种模式下,模型通过固定嵌入到短程组成来最小化局部失真,但牺牲了维持长程结构所需的全局互信息。几何在局部得到保持,生物学连贯性在全局丢失。从几何角度看,这表现为研究中识别的"无系泊凝胶"特征:高Procrustes缩减表明连贯的全局漂移。大规模ESM-2(≥30亿参数)和Evo 2都表现出这种模式。
第二种失效模式是"表示压缩"。模型通过集中任务相关信息来最大化互信息,但付出完全的失真代价:流形在压缩下扭曲,产生类似于"脆性玻璃"特征的几何断裂。这里的驱动因素是有意的信息集中而不是容量耗尽。OpenFold的Evoformer是这种模式的典型例子。
第三种失效模式最为矛盾,被称为"几何空虚"。模型通过不编码任何东西来平凡地实现低失真。几何之所以平滑,是因为流形在信息上是空的:互信息落在随机噪声底线之下。既不适用脆性玻璃也不适用无系泊凝胶的几何特征,因为没有信息可以断裂或漂移。ProtMamba就是这种模式的典型代表。
通过对14个不同的生物学基础模型进行MINE分析,研究团队发现没有任何一个离散代码模型能够同时实现低失真、高互信息和全局连贯性。每个模型都在不同的"货币"中支付税收,但税收总是要支付的。
六、实验验证:从合成数据到真实应用
研究团队的实验设计可以比作一场精心策划的科学侦探工作。他们首先在完全受控的合成环境中进行了因果证明,使用具有已知连续几何特性的合成动力系统,包括叠加正弦波、阻尼谐振子和洛伦兹吸引子。
在基线离散交叉熵条件下,三种架构都保持了洛伦兹吸引子动力学:最大李雅普诺夫指数估计值分别为0.036、0.038和0.038,都在真实值0.037的3%范围内。蝴蝶测试证实了所有架构在所有5个种子下都保持了吸引子结构。架构间的几何稳定性差异是适中的。
但当研究团队将分类交叉熵输出头替换为在MSE损失下训练的线性投影时,情况发生了根本性变化。编码器主干(自注意层、位置嵌入、前馈块)保持不变。这个单一修改消除了所有架构的流形断裂。在1%噪声的洛伦兹数据集上,SmallBERT改善了2.8倍,SmallStripedHyena改善了8.5倍,成为整个研究中的最佳条件。
更令人印象深刻的是,连续条件下的架构间差异从离散交叉熵下的0.072-0.157崩溃到0.0085-0.034。任何单一架构内的离散到连续差距都超过了任一体制下的跨架构差距。这证明了问题的根源不在于注意力、递归或卷积机制,而在于将连续世界离散化的代价。
七、规模的诅咒
研究还揭示了一个反直觉的发现:更大的模型并不意味着更好的几何稳定性。事实上,恰恰相反。随着参数数量的增加,交叉熵训练产生更尖锐和更多的决策边界,每个都是嵌入流形中的不连续性。这是ESM-2中观察到的单调稳定性下降的源头:更多容量能够实现更精细的分割,从而创造更多的断裂表面。
这个现象可以这样理解:如果把AI模型的内部表示想象成一个复杂的地形图,那么每增加一层参数就像在这个地形图上增加更多的悬崖和峡谷。虽然这些额外的地形特征可能有助于模型区分不同的输入,但它们也使得整个地形变得更加崎岖不平,任何小的扰动都可能导致从一个悬崖跌落到另一个峡谷。
150亿参数处的表观稳定性恢复是虚幻的。全局漂移掩盖了局部断裂而不是解决它。这种"无系泊凝胶"模式表明,大型模型学会了以一种保持内部相对结构的方式整体移动其表示,但这种移动对实际应用是有害的,因为它破坏了表示与输入空间的绝对对应关系。
八、上下文长度的局限性
另一个重要发现涉及上下文长度扩展的效果。研究团队评估了Evo 2模型在三种不同上下文窗口检查点下的表现:8K、262K和1M代码。在合成DNA上,SNP稳定性增益是适中的:1% SNP RDM相似性从0.747(8K)上升到0.817(1M)。在真实chr22序列上,增益是边际的:从0.990到0.993。
更让人震惊的是,在上下文税测试中(从1千碱基对信号区域分类大肠杆菌与人类),冻结头准确性为0.988(8K)、0.980(262K)、0.993(1M):128倍更多的上下文几乎没有带来几何增益。这说明简单地增加模型能够"看到"的序列长度并不能解决根本的几何问题。
这个结果特别重要,因为它表明当前AI领域追求更长上下文窗口的趋势可能并不会自动解决几何对齐问题。就像给一个近视眼的人更大的望远镜,如果基础的光学系统有问题,增大镜头只会放大问题而不是解决问题。
九、后补对称性的失败尝试
既然识别出了问题,自然的想法是通过后补的对称性强制来解决它。研究团队测试了一种称为RCCR(反向互补一致性正则化)的方法,这种方法在微调过程中最小化前向和反向互补序列的平均池化表示之间的L2距离。
RCCR确实实现了完美的每序列反向互补一致性:余弦差距从0.041降到0.000。但群体水平的几何结构却恶化了:前向和反向互补嵌入矩阵之间的Procrustes差异增加了91%,反向互补RDM相似性变为负值(-0.036),SNP扰动敏感性崩溃了两个数量级。
这个结果说明,强制点对点对称合规会平坦化嵌入景观,而不是对齐其几何。这就像试图通过强制每个部分都对称来修复一幅画,结果却把整幅画变成了一张平淡无奇的对称图案,失去了原有的丰富细节和自然美感。几何对齐税不能简化为缺失的对称性;它是离散优化景观内在的特性。
十、三种失效体制的深度剖析
通过率失真理论框架,研究团队将观察到的失效模式形式化为三种不同的体制,每种都代表了在严格量化限制下最小化几何失真的不同策略。
局部-全局解耦体制通过将嵌入锚定到短程组成来最小化局部失真,但牺牲了整合长程结构所需的全局互信息。纹理假设测试确立了机制:Evo 2的嵌入功能作为每序列k-mer直方图。MINE证实了信息浅薄性。全局互信息(完整8192代码上下文,平均池化)超过局部互信息(128代码窗口)仅14%。64倍的上下文增加几乎买不到任何东西。
表示压缩体制最大化互信息,但付出完全的失真代价。以OpenFold的Evoformer为例,它在几何上扭曲表示的同时增加互信息。Evoformer在每个序列长度上都超过ESM-1b的互信息:增加了+2.3到+2.5 nats的结构上下文。但这是有几何代价的。ESM-1b和Evoformer输出表示之间的Procrustes差异为0.164(L=100)、0.162(L=200)和0.149(L=400),证实了实质性的流形扭曲。
几何空虚体制通过不编码任何东西来平凡地实现低失真。ProtMamba呈现负的过量互信息:嵌入携带的与生物学基础真相的互信息比匹配的随机基线还少。冻结头探测证实了诊断:线性逻辑回归和非线性MLP探测在所有序列长度和全局与局部池化策略下都达到机会水平准确性。
十一、实际影响和未来方向
这项研究的发现对当前AI在科学中的应用具有深远影响。目前的评估实践(困惑度、AUC、基准准确性)对几何对齐税是盲目的。一个模型可以在排行榜上占主导地位,而其全局几何完全没有根据,或者产生平滑、稳定的流形,通过几何一致性检查,同时不编码生物学信号。
随着基础模型越来越多地部署用于治疗设计、材料发现和物理模拟,该领域必须扩展其可靠性概念,超越预测准确性,包含研究团队称为"物理对齐"的要求:学习表示必须忠实保持它们建模系统的连续不变量。
对于生成应用如聊天机器人,几何对齐税可能是可以接受的,甚至是可取的。漂移的流形允许创造性,其中"幻觉"是一个特征,而不是缺陷。然而,对于科学基础模型,物理定律是不变的,结果可能具有生死攸关的后果,这种税收是不可承受的。
研究结果表明,我们不能简单地通过规模化来摆脱这个惩罚。通向科学AGI的道路不仅仅是训练更大的离散模型来追逐渐近极限,也不是应用平凡满足几何稳定性但抹去生物学信号的连续先验。它需要承认我们当前的架构手册对自然科学来说是根本性破坏的,需要回到第一原理。
前进的道路可能需要原生统一连续几何先验与高保真度离散编码的架构,而不是将一个嫁接到另一个上。几何稳定性审计、连续值基础模型和联合优化预测准确性与流形保持的混合目标是有希望的方向。
这项研究最终表明,当前主导的离散代码化范式在科学应用中存在根本性限制。虽然这些模型在传统基准测试中表现出色,但它们的内部表示系统性地无法保持所建模系统的连续几何特性。这不是一个可以通过更多参数、更长上下文或更好的正则化技术简单解决的工程问题,而是一个需要重新思考AI架构基础假设的根本性挑战。
就像死亡和税收是生活中唯一确定的事情一样,几何对齐税似乎是当前离散AI系统的一个不可避免的特征。但与生活中的税收不同,这个科学税收的代价可能太高,迫使我们寻找全新的解决方案,而不是简单地接受现状。
Q&A
Q1:什么是几何对齐税?
A:几何对齐税是指当AI模型试图处理连续的自然现象(如DNA序列、蛋白质结构)时,必须先将其转换为离散代码而产生的几何扭曲代价。就像用积木搭建光滑斜坡一样,无论积木多小,最终都无法实现真正的平滑,这种扭曲会累积并影响模型对真实世界的理解。
Q2:为什么更大的AI模型几何稳定性反而更差?
A:随着模型参数增加,模型会产生更多更尖锐的决策边界,每个边界都是几何表示中的断裂点。这就像在地形图上增加更多悬崖和峡谷,使得任何小扰动都可能导致表示从一个区域跳跃到另一个区域。研究发现从800万到30亿参数,模型稳定性持续下降。
Q3:如何解决科学AI模型的几何对齐税问题?
A:研究表明简单的解决方案(如增加模型规模、延长上下文窗口、后补对称性约束)都无法根本解决问题。真正的解决方案需要开发能够原生统一连续几何特性和离散编码的新型AI架构,而不是将两者简单拼接。这需要重新思考当前AI架构的基础假设。