本文聚焦于大语言模型(LLMs)集成方法的研究,介绍了现有集成方法面临的挑战,详细阐述了新提出的UniTE方法的具体实现,并通过实验验证了其在提升LLMs性能方面的有效性和高效性。
这项研究由香港城市大学携手华为诺亚方舟实验室、香港科技大学(广州)等机构共同完成。该研究成果已被ICLR 2025录用,并入选Spotlight(8886)。
论文背景
近年来,大型语言模型(LLMs)在众多领域都取得了显著的进步,展现出了卓越的性能。不过,由于LLMs的训练依赖于多种数据源、模型架构和训练方法,它们在不同任务中呈现出各自的优势与劣势。有些LLMs在理解和生成长文本方面表现出色,而另一些则在特定领域的知识获取上更为精准。
因此,仅仅从零开始训练一个LLM并不能满足所有需求。在这种情况下,创建一个LLM集成的方案成为了一种有效的替代方法。这种集成方法通过整合多个LLMs的优点,能够更充分地发挥各个模型的互补优势,进而提高整体的任务性能。
然而,现有的LLM集成方法面临着两个重大挑战。其一,这些方法仅仅关注集成技术,却忽略了对哪些类型的模型可以有效结合的重要探讨。这一疏忽十分关键,因为在架构、规模和分词器上存在显著差异的LLMs可能本质上并不兼容,从而导致潜在的不兼容性,削弱集成的优势。其二,这些方法倾向于在每个生成步骤中对整个词汇表的概率进行对齐,这种策略在推理过程中会引入大量的计算开销,进而影响性能和效率。
针对这些问题,研究团队通过深入分析影响LLM集成性能的关键因素,提出了UniTE方法,该方法显著提高了集成效率和性能,超越了现有的最先进方法。
▲ 表1:词表大小模型集成效果的影响
从表中可以看出,词汇表大小对模型集成的影响极小。而且,即使在性能和词汇大小上达成一致,响应中的推理过程存在重大差异也可能阻碍成功的集成。
UNITE的具体实现
给定一组基础模型(LLMs),每个模型都有独立的分词器和词汇表。对于输入的文本提示,每个模型会生成一个概率分布,表示下一个可能的词元及其概率。具体实现步骤如下:
- Top - k候选词元提取:提取每个模型概率分布中前k个最高概率的词元,并记录其概率。
- 联合集合构建与对齐:将所有模型的Top - k词元合并成一个联合集合,并根据以下规则更新概率分布:
- 如果词元同时在联合集合和某模型的Top - k中,则保留其原始概率。
- 如果词元在联合集合中但不在某模型的Top - k中且在该模型词汇表中,则添加并更新其概率。
- 如果词元不在某模型的词汇表中,则用该模型的分词器对其分词,并更新Top - k词元。
- 概率聚合与下一步预测:对更新后的Top - k词元进行归一化处理,计算所有模型的平均概率。然后,使用贪婪策略从联合集合中选择下一个词元,添加到输入文本中,重复此过程直到满足停止条件。
实验结果
实验使用了多种常用模型,包括LLaMA2和LLaMA3系列、Mistral、DeepSeek、Yi、OpenChat以及Qwen等。评价基准分为三类:综合理解、推理能力以及知识能力。实验结果如下:
- UNITE在基础模型性能相似时提升了表现:OpenChat的集成平均提高约1.2%。然而,GSM8K任务中DeepSeek与OpenChat的15%性能差距导致整体性能略降,验证了模型性能紧密对齐时集成效果最佳。
- UNITE展现出更强的鲁棒性:尽管LLM - BLENDER在GSM8K上表现提升,但在PIQA、ARC - C和MMLU中明显低于基线模型。相比之下,UNITE在大多数任务中实现了最高性能提升。
- 与性能相似LLM的合作不一定带来更好结果:尽管整合LLaMA3.1在GSM8K和ARC - C上有所提高,但在PIQA和MMLU上表现不佳,说明结合相似性能模型的提升并非必然。
此外,研究团队还进行了时延分析,发现UniTE的延迟为87.78毫秒/词元,显著低于其他方法的延迟,仅比单个模型的延迟长约10毫秒。
总结
这项研究强调了集成方法在提升LLMs性能方面的有效性。研究团队提出的UNITE方法,能够高效地聚合来自多个LLMs的词元,而无需计算开销。通过广泛的实验,UNITE持续超越最先进的集成方法,证明了其在利用不同LLMs优势方面的有效性。该研究不仅推动了对模型集成的理解,还提供了选择和整合LLMs以实现更优性能的实用框架。
本文围绕大语言模型集成方法展开,指出现有集成方法的不足,详细介绍了UniTE方法的实现步骤,并通过实验验证其在提升性能和效率方面的优势,为大语言模型的集成研究提供了新的思路和实用框架。
原创文章,作者:maureen,如若转载,请注明出处:https://www.kqbond.com/archives/6447.html