标签:性能提升
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
Cerebras公司最近推出了全球最快的AI推理架构——Cerebras Inference,其推理速度远超当前最先进的GPU。在运行Llama3.1 8B模型时,Cerebras Inference能够以180...
全球最大芯片,进军推理:1800 token/秒,全球最快
Cerebras Systems,一家以挑战英伟达在AI芯片市场地位为目标的公司,于今年年初推出了WSE-3 AI芯片,专为训练大型AI模型而设计。这款基于5nm工艺、拥有4万亿...
Anthropic API新增提示缓存功能:成本降低90%,延迟降低85%
Anthropic公司为其大模型平台API引入了一项新功能——提示缓存(Prompt Caching),旨在帮助开发者优化API调用的效率和成本。这一功能特别适用于需要处理大量上...
英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍
全球人工智能领域的领军企业英伟达(Nvidia)近期开源了两款基于Meta公司Llama-3.1 8B模型的大模型:Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。这两...
这颗芯片,又又又又延期了
Tachyum公司宣布,其Prodigy FPGA仿真系统的最终版本已经完成,这是该公司通用192核Prodigy处理器开发过程中的一个重要里程碑。尽管生产计划从2024年推迟到20...
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
在AIGC领域,大语言模型(LLM)的发展和应用落地对训练数据的需求日益增长。然而,现有的数据处理流程依赖人工筛选,成本高昂且效率低下。谷歌Deepmind的研究...
Stability.ai开源3D模型,仅需0.5秒就能快速生成
开源大模型平台Stability.ai推出了一款名为Stable Fast 3D(SF3D)的3D生成模型,该模型能够以极快的速度从图片生成高质量的3D模型。用户仅需0.5秒即可完成生...
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
谷歌DeepMind发布了Gemma 2家族的三个新成员,包括Gemma 2 2B轻量级模型、ShieldGemma安全内容分类器和Gemma Scope可解释性工具。Gemma 2 2B虽然只有2.6B参数...
OpenAI掀桌子!免费提供GPT-4o mini微调,每天200万tokens
AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。OpenAI宣布在特定时间内为4级、5级用户提供GPT-4o min...
Redis鸟枪换炮了
Redis,一款备受青睐的内存数据结构存储系统,最近宣布对其查询引擎进行重大改进,引入了多线程技术,以提高查询吞吐量并保持低延迟。这一进步对于处理数亿文...