大模型
LLM,VLM,模型
相信数字的力量:被 AI 改写的视频生产与消费的故事
本文探讨了人工智能(AI)如何改变视频生产与消费的行业。筷子科技,一家SaaS创业公司,通过使用AI工具,实现了5人团队每天制作和分发3000-5000条高质量个性...
Karpathy又整活儿了!一天训练出GPT-2、成本还骤降100倍,网友:dream老黄把价格再打下来
OpenAI的创始成员和前研究科学家Andrej Karpathy最近成功地在单个八H100节点上重现了GPT-2(1.6B)模型,整个过程仅需24小时,成本为672美元。这一成就展示了...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
FlashAttention-3,一种用于大模型训练和推理的算法,经过一年的开发,已经推出了第三代。这一升级版本在训练速度上实现了1.5至2倍的提升,在FP16(16位浮点...
OpenAI难盈利!年收入34亿美金中55%来自ChatGPT+付费,API只占15%|钛媒体AGI
FutureSearch发布的报告揭示了OpenAI的财务状况,指出该公司年度经常性收入(ARR)达到34亿美元,其中55%的收入来自ChatGPT Plus的会员付费,即19亿美元。该...
五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
2019年2月,OpenAI发布了具有15亿参数的GPT-2模型,该模型在文本生成方面表现出色,充分利用了预训练的Transformer架构,被认为是大型预言模型的始祖。现在在...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...
港科广马书根:算力累积并非智能,机理才是关键丨具身智能十人谈
港科大(广州)教授马书根在机器人领域深耕三十余年,对人工智能威胁论持保守态度,认为算力再高也算不出创造力。他强调,社会资本应流向更需要的地方,而非...
如果 MaaS 是个伪命题,大模型时代的「云」应该怎么建?
2024年,大模型产业的发展呈现出冰火两重天的格局。一方面,算法从单模态扩展到多模态,全球对大模型的畅想愈发热烈;另一方面,一级市场逐渐走向熄火,投资...
博士招生|香港理工大学 PolyU 电子计算学系,数据挖掘/机器学习/人工智能,全奖 PhD/博士后/研究助理
香港理工大学电子计算学系主任李青教授和助理教授范文琦博士正在寻求招收多名全奖博士生,入学时间灵活,可于2025年春季、夏季或秋季入学。李青教授在机器学...
GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了
字节跳动大模型团队开发的Depth Anything V2模型已入选苹果公司Core ML模型库,该模型是一种单目深度估计模型,包含不同大小的版本,适用于多种领域。Depth A...