标签：SwiftInfer

社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

第二段：讲述了StreamingLLM的优势和挑战，以及其通过观察注意力模块中Softmax的输出，解决了注意力 sink 的现象，提高了生成效果。第三段：介绍了Colossal-A...

AIGC动态

2年前 (2024)