“注意力机制”的搜索结果

图解Transformer多头注意力机制
本文是关于Transformer架构中多头注意力机制的深入解析。多头注意力是Transformer模型的核心组成部分,它使得模型能够从多个角度理解数...
任意论文一键变播客,谷歌正式发布Illuminate,它能重构研究者的学习方式吗?
谷歌推出了一款名为Illuminate的创新产品,旨在通过人工智能技术改变研究者的学习方式。Illuminate能够将学术论文转化为AI生成的音频讨...
3位牛津本科生学霸,4个月复现AlphaFold 3直接开源!
AlphaFold 3,由谷歌DeepMind在2022年5月发布,是一项在生物科学和计算机科学领域具有里程碑意义的成果,被认为具有诺贝尔奖潜力。该技...
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
在新智元的报道中,工程师Riley Goodside通过“Strawberry里有几个r”的问题测试了多个大型语言模型(LLM)的能力。他发现,尽管一些模型...
用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了
3Blue1Brown的最新视频深入探讨了大型语言模型(LLM)如何存储和处理信息。视频通过动画形式,生动地展示了LLM内部的工作原理,特别是多...
微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1
微软公司近期开源了Phi-3.5系列模型,该系列包含三种模型:mini指令微调、专家混合和视觉微调。Phi-3.5系列模型以其较小的参数量却展现...
蜘蛛侠妖娆起舞,下一代ControlNet来了!贾佳亚团队推出,即插即用,还能控制视频生成
ControlNeXt是由香港中文大学贾佳亚团队推出的开源图像/视频生成引导工具,旨在成为下一代的ControlNet。它通过引入轻量化的条件控制模...
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实...
比OpenAI的Whisper快50%,最新开源语音模型
生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型,该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-...
GenAI下沉到边缘侧,内存和性能如何平衡?
2022年底,ChatGPT的问世让自然语言处理聊天机器人(NLP)的能力受到广泛关注。科技公司开始探索将这一技术应用于产品和客户体验。然而...
1 2 3 9