独家丨前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

独家丨前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

 

文章摘要


【关 键 词】 计算机视觉人工智能深度学习多模态模型技术创新

胡瀚,前微软亚洲研究院视觉计算组首席研究员,已加入腾讯,接替刘威负责多模态大模型研发。胡瀚清华大学本科及博士学位,师从周杰教授,博士论文获2016年中国人工智能学会优秀博士论文奖。曾于宾夕法尼亚大学GRASP实验室访问研究,后加入百度深度学习研究所,担任tech leader。2016年12月加入微软亚洲研究院视觉计算组,该组被誉为计算机视觉界的“黄埔军校”,培养出多位业界技术领军人物。

胡瀚是计算机视觉领域的重要研究者,核心参与了《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》论文创作,该论文提出Swin Transformer性能优于DeiT、ViT和EfficientNet等主干网络,替代CNN架构成为计算机视觉领域通用backbone。论文发表后在多项视觉任务中霸榜,获2021年ICCV最佳论文奖。Swin Transformer作者还包括刘泽、林宇桐、曹越等,涉及中国科学技术大学、西安交通大学、微软亚洲研究院等机构。

2021年末,胡瀚团队提出Swin Transformer v2.0版本,训练当时最大的稠密视觉模型,在多个主流视觉任务上刷新记录。

刘威,前腾讯混元大模型技术负责人之一,已离职。刘威哥伦比亚大学计算机科学与电子工程博士,曾任IBM沃森研究中心研究科学家,获多项荣誉。2016年加入腾讯AI Lab,与张潼、俞栋并称“AI Lab三剑客”。在腾讯主要负责CV基础大模型、多模态理解大模型等。

腾讯在多模态大模型研发上取得新进展,12月3日宣布混元大模型上线并开源文生视频能力,参数量130亿,支持中英文双语输入。此前已推出文生文、文生图、3D生成等能力,视频生成能力被认为是混元系列大模型的重要拼图。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1159字 | 5分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...