独家丨前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

1,918 0 0

文章摘要

胡瀚，前微软亚洲研究院视觉计算组首席研究员，已加入腾讯，接替刘威负责多模态大模型研发。胡瀚清华大学本科及博士学位，师从周杰教授，博士论文获2016年中国人工智能学会优秀博士论文奖。曾于宾夕法尼亚大学GRASP实验室访问研究，后加入百度深度学习研究所，担任tech leader。2016年12月加入微软亚洲研究院视觉计算组，该组被誉为计算机视觉界的“黄埔军校”，培养出多位业界技术领军人物。

胡瀚是计算机视觉领域的重要研究者，核心参与了《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》论文创作，该论文提出Swin Transformer性能优于DeiT、ViT和EfficientNet等主干网络，替代CNN架构成为计算机视觉领域通用backbone。论文发表后在多项视觉任务中霸榜，获2021年ICCV最佳论文奖。Swin Transformer作者还包括刘泽、林宇桐、曹越等，涉及中国科学技术大学、西安交通大学、微软亚洲研究院等机构。

2021年末，胡瀚团队提出Swin Transformer v2.0版本，训练当时最大的稠密视觉模型，在多个主流视觉任务上刷新记录。

刘威，前腾讯混元大模型技术负责人之一，已离职。刘威哥伦比亚大学计算机科学与电子工程博士，曾任IBM沃森研究中心研究科学家，获多项荣誉。2016年加入腾讯AI Lab，与张潼、俞栋并称“AI Lab三剑客”。在腾讯主要负责CV基础大模型、多模态理解大模型等。

腾讯在多模态大模型研发上取得新进展，12月3日宣布混元大模型上线并开源文生视频能力，参数量130亿，支持中英文双语输入。此前已推出文生文、文生图、3D生成等能力，视频生成能力被认为是混元系列大模型的重要拼图。