开云世界杯官网(中国) 诺基亚贝尔实验室与巴黎理工学院联手破解AI"方式镣铐"

来源：未知作者：admin 发布时间：2026-06-04 05:32 浏览：154

这项由诺基亚贝尔实验室（Nokia Bell Labs）与法国巴黎理工学院旗下的巴黎电信学院（Télécom Paris， Institut Polytechnique de Paris）和谐开展的揣度，以预印内容式发布于2026年5月，论文编号为arXiv:2601.07525v2，有兴味深远谈判的读者可通过该编号检索齐全原文。

**当AI被"方式紧箍咒"不断了念念维**

你有莫得遭遇过这么的情况：憨厚要求你写一篇作文，必须严格按照"伊始-分论点一-分论点二-论断"的方式来，罢了你发现我方花了大量元气心灵揣度方式，反而把该说的事理没说泄漏？大说话模子（也即是咱们平时所说的AI对话系统，比如ChatGPT这类器具）正面对着十足一样的逆境。

这个逆境的根源在于，AI系统被要求同期完成两件事：一是好好念念考问题，二是把谜底装进法则的方式盒子里。方式盒子越严格，念念维空间就越受限。这项揣度的中枢问题恰是：能不成让AI先把念念维过程透顶放开，等想泄漏了再套上方式外套？

揣度团队给出的谜底是一个名为"In-Writing"的新框架。这个框架就像给AI瞎想了一套"先草稿后定稿"的责任经过，让它在念念考阶段十足解放阐扬，惟有在准备输出最终谜底时才启动方式拘谨机制。实验罢了标明，这种作念法在多项任务上的准确率最高可以比原有纪律提高27%。

**一、AI恢复问题为什么需要"方式"这件事？**

在默契这项揣度之前，需要先搞泄漏一个布景问题：AI为什么要在乎方式？

当咱们在责任或生计中使用AI器具时，许多期间并不是敷衍聊聊天，而是需要AI输出结构化的内容。比如，病院系统需要AI给出圭臬化的会诊代码，财务软件需要AI输出固定方式的数据，开采者器具需要AI生成合乎特定语法则范的代码。这些场景的共同特质是：输出必须"合规"，不成有少许倾斜，不然后续系统根底无法处理。

用一个更直不雅的比方来说，这就像餐厅的后厨系统和前台点单系统之间的对接。主顾可能用各式形状说"我要一份宫保鸡丁，少辣"，但后厨收到的指示必须是圭臬化的代码方式，比如"item_code: 0031， spice_level: 1"。如果AI输出的谜底像主顾点单一样减弱，后台系统根底不知谈该如那处理。

正因如斯，揣度东谈主员恒久奋力于于让AI输出愈加范例、可阐明的内容。当今主流的纪律随意分为三种道路，而这三种道路各自齐有显着的颓势，这也恰是本揣度的起点。

**二、三条老路各有各的坑**

第一条路叫作念"天然生成"（Natural Generation），顾名念念义，即是让AI像聊天一样减弱恢复，不施加任何方式罢了。这种形状的优点是AI的念念维十足解放，能充分伸开推理过程，推理质地经常绝顶可以。但污点也很显着：AI有期间会把谜底藏在一大段笔墨中间，需要稀疏瞎想圭表去"挖"出来，而况挖出来的罢了不一定准确。更进犯的是，输出方式无法保证，关于需要结构化输出的工业场景简直莫得实用价值。

第二条路叫作念"硬拘谨解码"（Constrained Decoding），这是揣度界为了处分方式问题而开采的期间。它的责任旨趣类似于给AI戴上一副特殊的"滤镜"——在AI每生成一个词之前，系统会检查这个词是否合乎事前设定的方式范例，如果不合乎就径直屏蔽掉，将就AI只可遴荐"正当"的词语。从方式保证的角度来说，这种纪律相等可靠，输出的内容百分之百合乎范例。但问题在于，这副"滤镜"同期也罢泄漏AI的念念维。揣度发现，这种纪律会让AI在推理阶段就受到拘谨，导致一些在普通情况下十足正确的推理旅途被强行割断，最终罢了反而变差了。用打比方的形状说，这就像你在解数学题时，憨厚法则你只可使用"加法"和"减法"，是以你不得不撤销更纵情的乘法解法，绕了一大圈才得到谜底，有期间以致绕不纪念。

第三条路叫作念"两阶段变调"（NL-to-Format），算是前两种纪律的折中。具体作念法是先让一个AI用天然说话给出齐全的推理和谜底，然后再用另一个（频繁更大、更贵的）AI把这个天然说话谜底变调成需要的方式。这种纪律在一定进度上兼顾了推理质地和方式范例，但代价是需要调用两次AI，老本翻倍，而况更自新程自己也可能出错，卓越是在需要输出复杂多字段方式时，变调质地很不结识。更要命的是，如果第二个AI解读第一个AI的输出时出了差错，最终谜底就会跑偏，而你以致不知谈问题出在哪一步。

还有一种叫作念CRANE的纪律，它试图在推理过程中往返切换"解放模式"和"拘谨模式"，用特殊的分隔绚丽来分裂哪些部分是AI在解放推理，哪些部分需要受到方式拘谨。天然这个念念路有一定创意，但履行起来绝顶复杂，而况切换的时机很难把控，履行成果也受到了揣度团队的质疑。

**三、"先打草稿，再誊正"的In-Writing框架**

面对这三条老路的各式颓势，揣度团队淡漠了In-Writing。其中枢计念可以用书道熟谙来默契：先在厕纸上减弱挥洒，把所有想法齐记载下来，比及念念路十足知道之后，再拿出安定的方式纸，工工致整地誊写最终谜底。

具体的期间结束形状是这么的：AI在恢复问题时，最初干预"解放推理阶段"，这个阶段十足莫得任何方式拘谨，AI可以用任何它以为合适的形状念念考和抒发。当AI认为我方也曾想泄漏了，它会输出一个特定的"触发词"（trigger token）。这个触发词就像是草稿纸上写下"定稿如下"四个字，标志着推理阶段的终端和方式化输出阶段的开动。从触发词出现的那一刻起，系统才会启动方式拘谨机制，确保接下来的最终谜底十足合乎预定例范。

揣度团队在原论文顶用了一个颇为逼真的类比：这种纪律类似于图像处理领域的"缔造画图"期间（inpainting），即是只对图像的特定区域进行处理，而不改革其他部分。In-Writing相似只对"最终谜底输出"这个特定区域施加方式拘谨，让推理过程保握齐全妥协放。

从数学角度来默契（别牵挂，这里仅仅匡助默契，不需要果然作念计较），传统的拘谨解码会让方式要求影响到整个推理过程，导致许多合理的推理旅途被提前排除。而In-Writing通过将推理阶段和方式化阶段透顶分离，使得推理过程十足不受方式条目的过问，惟有最终的谜底输出才需要知足方式要求。这种分离带来的平允是双重的：推理质地不会因为方式拘谨而下落，同期最终输出又能保证百分之百的方式合规性。

**四、触发词的遴荐大有安定——"早醒"的烦扰**

揣度团队在瞎想In-Writing时遭遇了一个辣手的问题，他们将其称为"过早触发"（premature triggering）。

回到书道的比方：如果你在草稿纸上写了一半，片刻以为我方也曾写好了，就急促切换到安定方式纸开动誊写，罢了发现还有许多内容没想泄漏，这期间再想且归补充草稿就费劲了。In-Writing面对的是类似的问题——如果触发词遴荐不当，AI可能在还没推理完的期间就误以为"该输出谜底了"，从而过早启动方式拘谨，把后续的推理过程也强行套进方式里，反而破裂了推理质地。

揣度团队测试了两种触发词政策。第一种叫作念"In-Writing-Base"，使用了两个触发词：一个是"句子终端符"（``，即AI认为一段话也曾说完的信号），另一个是大括号"{"（JSON方式的开动绚丽，因为揣度团队遴荐用JSON这种结构化方式来包装最终谜底）。问题在于，AI在推理过程中可能随时产生大括号这个绚丽，比如在态状一个集中或者例如时，这就会偶然触发方式拘谨，截断正在进行的推理。

第二种叫作念"In-Writing*"，只使用一个触发词，即是"句子终端符"``。这个遴荐的逻辑很简便：``惟有在AI果然认为整段输出也曾完成时才会出现，它不会在推理半途减弱出现。因此，用``看成独一触发词，可以确保AI在十足解放地推理完毕并天然终端之后，才开动方式化输出。实验罢了标明，这个简便的颐养简直十足摈斥了过早触发的问题，卓越是在需要复杂数学推理的任务上，In-Writing-Base可能因为过早触发而耗费跳跃30%的准确率，而In-Writing*则能结识保握最优性能。

**五、实验瞎想：公谈竞技场上的全面锻真金不怕火**

为了考证In-Writing的成果，揣度团队搭建了一个相等全面的测试体系，而况很是瞎想了一个对我方不利的条目，以此来证明纪律的鲁棒性。

在模子遴荐上，团队测试了18个来自五个不同系列的开源说话模子，参数范围从15亿到140亿不等，涵盖了Qwen（通义千问系列）、Llama、Gemma、DeepSeek以及SmolLM这些在业界世俗使用的模子家眷。所有测试齐在NVIDIA A40显卡上腹地运行，而非依赖买卖API做事。

在测试任务上，开云2026世界杯中国官网团队遴荐了两大类共七个数据集。推理类任务包括：需要多步数学推理的小学数学题库（GSM8K）、将数字替换为变量以测试代数泛化能力的绚丽变体（GSM-Symbolic）、将单词终末一个字母拼接起来的字母联络任务（Last Letter Concatenation），以及揣度物品在一系列交换操作后位置的打乱物品任务（Shuffled Objects）。分类类任务包括：49类医学会诊数据集（DDXPlus）、5类金融文分内类（MultiFin）、体育干系句子的真实性判断（Sports Understanding），以及对方式相等明锐的刻板印象多选题（NI-Task 280）。

卓越值得暖和的是，揣度团队在实验瞎想上有一个主动"蜕化"：他们沿用了之前其他揣度团队的教导词模板，而这些模板十足莫得为In-Writing的输出方式提供任何指引。换句话说，AI在推理完之后，十足靠方式拘谨机制自动输出结构化谜底，而不是因为教导词中也曾告诉它"请用JSON方式输出谜底"。这种瞎想使得测试条目对In-Writing相对不利，但罢了标明，即便在这种不利条目下，In-Writing依然阐扬优异。

**六、数字背后的故事：实验罢了证明了什么**

实验罢了揭示了几个相等有好奇的欢喜，每一个齐值得细细试吃。

第一个欢喜是"索求形状决定成败"。揣度团队发现，在使用交流教导词的情况下，天然生成（NL）、两阶段变调（NL-to-Format）和In-Writing*这三种纪律履行上产生了十足交流的推理过程，区别只在于终末一步怎样从推理罢了中索求谜底。也即是说，AI料到的内容是一样的，但不同的"索求器具"带来了判然不同的准确率。In-Writing*的结构化拘谨索求形状比用另一个大模子来解读的形状更准确，最高可以多索求出27%的正确谜底。这个发现相等进犯，因为它标明在很厚情况下，准确率的各异并不来自AI的推理能力，而来自终末的谜底索求本领。

第二个欢喜是"大模子解读也会出错"。两阶段变调纪律依赖一个更大的AI来解读第一个AI的输出，表面上应该很可靠。但实验中发现，解读模子有期间会犯很奇怪的症结。在DDXPlus医学会诊任务上，解读模子有期间会在正确谜底前边加上一大段解释性笔墨，比如"合乎给定灵验会诊列表的最终谜底是……"然后才给出会诊称呼，导致后续圭表无法正确匹配谜底。更令东谈主担忧的是，在字母联络任务中，解读模子有期间会"创新"第一个AI的输出——比如第一个AI在字母之间加了毋庸要的连字符，解读模子把这些连字符去掉了，有期间这么的"创新"反而把症结谜底变成了正确谜底。这意味着两阶段纪律有期间不是在"索求"谜底，而是在"修改"谜底，这本质上是一种不透明的操作，让东谈主无法信任最终罢了的开始。

第三个欢喜是"方式拘谨不是银弹"。揣度团队通过安定分析发现，In-Writing天然阐扬出色，但并非大醇小疵。在GSM8K数学题中，存在一些案例，AI在解放推理阶段得出的笔墨谜底是"52500好意思元"，但最终的方式化输出却只写了"52"。这证明方式拘谨机制在将推理罢了"翻译"成结构化输出时，有期间会截断或诬陷原始推理，这是异日需要不竭创新的看法。

在与CRANE纪律的对比上，数字各异愈加权臣。以Llama 3.1-8B模子为例，CRANE在GSM-Symbolic任务上的准确率是33%，而In-Writing*达到了59%，差距高达26个百分点。揣度团队还卓越指出，这种差距与另一项零丁揣度的发现高度吻合：从GSM8K到GSM-Symbolic，同等能力的模子频繁只会下落约10%的准确率。CRANE框架导致了远超这个平淡水平的性能下落，证明它的语法拘谨如实对推理过程酿成了实质性伤害，而In-Writing*的下落幅度则保管在平淡范围内。

**七、阐明能力与效劳：两个扯后腿忽视的维度**

除了准确率以外，揣度团队还从两个稀疏维度对比了各式纪律的阐扬：方式合规率（parsability）和词汇铺张效劳。

在方式合规率方面，In-Writing*在所有测试场景中齐达到了100%的方式合规率。比拟之下，天然生成纪律的方式合规率因模子大小和任务类型而各异悬殊，有些情况下以致不及40%。两阶段变调纪律天然提高了方式合规率，但仍然无法保证100%，而况解读阶段使用的教导词和模子对罢了影响极大，结识性较差。硬拘谨解码纪律也能达到较高的方式合规率，但会影响推理质地，这是一个两难逆境。

在词汇铺张效劳方面，罢了绝顶令东谈主懒散。In-Writing*比天然生成纪律多铺张的词汇量相等有限，频繁只多出5到20个词（这些稀疏词汇主如果JSON方式所需的括号、引号等结构性绚丽）。比拟之下，两阶段变调纪律天然在现时测试中只多铺张了2到5个词，但这仅仅因为测试中的解读任务相对简便；当需要索求的是复杂的多字段结构化输出时，第二个AI需要铺张的词汇量会急剧增多，而况这第二次推理自己即是一笔不小的计较支拨。

还有一个细节值得暖和：揣度团队在复核前东谈主数据时，发现了一些实验瞎想上的问题。比如，在打乱物品任务的教导词模板中，有两个变体明明列出了七个选项（A到G），却在指示中症结地写谈"请从以下四个选项中遴荐"。另外，少样本示例中有几个题目（比如"挪威男东谈主很没趣"的谜底果然是"种族"）和野心任务毫无干系，这些问题齐可能影响对比罢了的可靠性。这些发现提醒读者，在看待任何AI性能对比数据时，齐需要暖和实验瞎想自己的严谨性。

**八、肖似分析：谁能弥补谁的不及？**

揣度团队还作念了一项很有价值的"交叉分析"：在交流推理过程的基础上，In-Writing*和两阶段变调纪律分别在哪些题目上得手，哪些上失败，两者的得手与失败是否肖似？

以字母联络任务为例，SmolLM3-3B模子的分析罢了骄气：有53.5%的题目两种纪律齐作念对了，有34%的题目两种纪律齐作念错了，有0.7%的题目惟有两阶段变调作念对了，而In-Writing*作念错了，但有高达11.8%的题目惟有In-Writing*作念对了，而两阶段变调却失败了。这个散播证明，In-Writing*不详弥补两阶段变调大部分的失败案例，而两阶段变调能弥补的In-Writing*失败案例却很少。

这种不对称性的开始是两种纪律的根底各异：In-Writing*的方式拘谨机制除了索求谜底以外，还能对谜底进行隐性的"纠错"——如果AI在推理中输出了方式不对规的内容（比如在字母之间加了过剩的空格），方式拘谨会在输出最终谜底时自动过滤掉这些症结，将正确的内容以范例方式呈现出来。这是一种免费附赠的纠错功能，而两阶段变调纪律除非解读模子刚巧能识别并修正这类症结，不然无法取得这个上风。

**局限性不袒护：揣度团队的坦诚**

揣度团队在论文中明确承认了In-Writing现时版块的主要不及：整个揣度过程中，他们莫得对教导词进行任何专门针对In-Writing的优化。测试中使用的所有教导词齐是为天然生成或两阶段变调纪律瞎想的，内部频繁包含类似"请在终末用'answer is:'前缀给出谜底"这么的指引，这对In-Writing来说十足莫得用。更进一步，跟着少样本示例数目的增多，AI会越来越倾向于严格慑服"answer is:"这个方式，反而在某些情况下裁汰了In-Writing和两阶段变调纪律的索求准确率，因为AI给出的谜底方式越来越不像JSON结构，而是越来越像天然说话前缀。这标明，如果专门为In-Writing瞎想优化的教导词，其阐扬很可能还会进一步提高。

此外，方式拘谨机制偶尔会在将推理罢了变调为结构化输出时产生症结，比如截断数字或阻挡绚丽，这是期间层面仍需创新的问题。

归根结底，In-Writing提供了一个在推理质地和方式范例之间结束双赢的知道念念路：不是让AI在念念考时就戴上方式镣铐，而是让它先解放念念考，然后通过一个精确的"终末一公里"方式拘谨将谜底装进合适的容器里。这个念念路的老本极低（只多铺张5到20个词汇），带来的收益却绝顶可不雅——无论是准确率、方式合规率如故系统复杂度的裁汰，齐有显着改善。

关于那些需要在责任中使用AI器具处理结构化输出任务的东谈主来说，这项揣度意味着一种更可靠、更高效的AI部署念念路行将成为可能。毋庸再纠结于"要准确率如故要方式"，异日的AI系统十足可以在单次调用中同期作念好这两件事。有兴味进一步了解期间细节的读者，揣度团队已在GitHub（Nokia-Bell-Labs/InWriting）绽开了通盘代码，同期原论文arXiv:2601.07525也提供了齐全的表面推导和实验数据。

Q&A

Q1：In-Writing框架和普通的AI恢复形状有什么区别？

博亚体育app中国官方入口

A：普通形状要么让AI十足解放恢复（方式没保险），要么从一开动就给AI套上方式镣铐（推理受限）。In-Writing的区别在于它把这两个阶段分开：先让AI十足解放地把问题想泄漏，等AI认为我方推理完毕、产生一个特定的"终端信号"之后，才启动方式拘谨，把最终谜底规法则矩地输出成需要的方式，两个阶段互不过问。

Q2：过早触提问题是怎样产生的，如那处分？

A：过早触发是指AI在还没推理完的期间，就误触发了方式拘谨机制，导致后续推理被强行截断。这个问题的根源是触发词遴荐不当——如果用大括号"{"看成触发词，AI在推理中随时可能用到这个绚丽，就会偶然启动方式拘谨。处分决议是只用"句子终端符"看成独一触发词，因为这个信号惟有在AI果然认为整段输出也曾完成时才会出现，简直十足摈斥了过早触发的风险。

Q3：In-Writing多铺张的词汇量会不会权臣增多使用老本？

A：不会。实验数据骄气，In-Writing*比拟普通天然生成形状，只多铺张5到20个词汇，这些稀疏的词主如果JSON方式所需的括号和引号等结构性绚丽。比拟之下开云世界杯官网(中国)，两阶段变调纪律需要再调用一个大模子来阐明谜底，合座计较支拨远高于In-Writing，而况第二次调用还需要把第一次的齐全输出看成输入，输入词汇量自己就很大。是以In-Writing的稀疏支拨是绝顶渺小且固定的。

开云世界杯官网(中国) 诺基亚贝尔实验室与巴黎理工学院联手破解AI&quot;方式镣铐&quot;

开云世界杯官网(中国) 诺基亚贝尔实验室与巴黎理工学院联手破解AI"方式镣铐"