标签:性能优化
LG开源韩语大模型Exaone 3.0,8万亿token训练数据
LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型,这是一款具有78亿参数的指令微调模型,经过8万亿token的高质量数据训练,支持韩语和英文两种语言,尤...
超9000颗星,优于GPT-4V!国内开源多模态大模型
国内开源社区OpenBMB推出了一款新型的多模态大模型——MiniCPM-V 2.6,该模型拥有80亿参数,在图像和视频理解方面表现出色,超越了包括GPT-4V在内的多个知名模...
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实现如FlashAttention虽...
阿里开源新语音模型,比OpenAI的Whisper更好!
阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio,该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调...
思特威正式发布子品牌飞凌微,首发产品定位智驾视觉处理
思特威(SmartSens,股票代码688213)近日宣布成立全资子公司飞凌微电子(Flyingchip™),并发布了飞凌微M1车载视觉处理芯片系列。该系列包括M1(Camera ISP...
两天内,Meta 和 Mistral 两款主流大模型打擂台!已经不仅卷性能了,谁更便宜就用谁?
法国AI初创公司Mistral发布了其旗舰级开源模型Mistral Large 2,拥有1230亿个参数,与Meta和OpenAI的最新模型在代码生成、数学和推理方面表现相当。Mistral L...
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层(Test-Time-Training layers,TTT)的全新架构,旨在...
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
Mamba-2架构在AI界再次引发关注,其在统一状态空间模型(SSM)和注意力机制(Attention)的基础上,成功将Transformer模型与SSM结合,形成了一种新的高效序列...
清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
YOLO(You Only Look Once)系列作为实时目标检测领域的主要范式,近日迎来了YOLOv10这一重大升级。该新版本由清华大学的研究团队推出,通过后处理和模型架构...
12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场
自2012年AlexNet在ImageNet竞赛中取得突破性成绩,标志着深度学习革命的开始,至今已过去12年。AI研究科学家Andrej Karpathy的一条帖子引发了AI界多位知名人...