一360一 作品

第1362章 字节豆包UltraMem稀疏模型架构,推理成本最高可降低83%

在人工智能领域,随着模型规模的不断扩大,推理成本和访存效率已成为制约大模型广泛应用的关键瓶颈。传统方法如posed Query-key retrieval(tdQkr)。这一方法受启发于tucker decomposition,通过组合乘加行score和列score,提高了value检索的复杂度,从而优化了模型效果。

最后,在隐式扩展稀疏参数方面,ultramem提出了implicit value expansion(ive)方法。该方法通过引入virtual memory和physical memory的概念,隐式地扩展了稀疏参数的数量,从而提高了模型的性能。同时,由于ive方法中没有非线性操作,因此可以与physical memory table进行融合,生成全新的memory table,进一步降低了显存和部署成本。

ultramem的实验验证与性能评估

为了验证ultramem的有效性,研究团队在多个尺寸的激活参数上进行了广泛实验。实验结果表明,ultramem在680m和1.6B的激活参数上具有显著的效果优势。随着稀疏参数的增加,ultramem的效果和推理速度均表现出良好的扩展性。

此外,研究团队还进行了消融实验,以探究ultramem各项改进对模型性能的影响。实验结果表明,通过逐渐增加一些技巧和上文提出的结构改进,ultramem能够显著降低C4 validation loss,同时稀疏参数和计算量几乎不变。