大语言模型正在成为现代 AI 系统的核心驱动力,但它们的生成方式至今依然深受主流的“自回归”机制的限制。这种逐词输出的线性逻辑虽然简单有效,却天然不适合解决结构复杂、逻辑多元的推理任务。模型的参数越来越大,对算力的要求也极具增加。是否能有什么方法提升模型的效率来应对这些问题?
最近,由卡耐基梅隆大学(CMU)Infini-Al-Lab 和NVIDIA研究者联合完成的最新工作发表了《Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation》文章,Bitdeer AI 提供了训练与推理阶段的 GPU 算力支持。其团队的这项研究提出了一个核心观点:并行逻辑并不缺席于语言模型,只是以往的监督微调技术并非有效利用其逻辑。他们提出了Multiverse, 一个能够实现原生并行生成的新型生成模型,其最终成果Multiverse-32B 在真实推理任务中性能媲美 AR-LLMs,并凭借并行生成在相同上下文下展现更优扩展性。其单 token 生成耗时可减少达 2 倍(视并行度而定)