图像生成
图像,绘画
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
基于文本指令的图像编辑任务一直是图像生成和编辑领域的热点,近年来随着Gemini、GPT-4o等商业大模型的推出,这一领域的技术水平不断提升。然而,传统方法通...
微软将大量AI功能、智能体集成在Windows11,全民AI时代来了
微软在最新发布的Windows 11中,全面集成了AI技术,为用户带来了多项创新功能。首先,智能体(Agent)功能通过自然语言交互,简化了系统设置和操作流程,用户...
o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的「直升机」时刻
ChatGPT通过一组公开的prompt,展示了其在看图猜地点任务中的惊人能力。在一系列测试中,ChatGPT不仅能够根据图像中的细节推断出大致的地理位置,甚至在某些...
专访刘世奇 – 他用AI设计丑拖鞋,一年卖了3000万。
刘世奇,一位97年出生的内蒙古年轻人,凭借对AI技术的深刻理解和应用,在电商和外贸领域取得了显著成就。他的故事始于一次偶然的机会,通过参加跨境电商博览...
细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025
港科广团队提出的MultiGO创新方案,通过分层建模思路,成功解决了从单张图像生成高保真3D人体模型的行业难题。该方法将人体分解为不同精度层级,从基础体型到...
沉浸式翻译团队新品:BabelDOC PDF,无损翻译 PDF,免费用户可用
沉浸式翻译团队最近开源了其PDF翻译工具——BabelDOC PDF,该工具在很大程度上解决了PDF机翻中常见的排版乱码、串行等问题,能够直接输出对版的精准PDF。BabelD...
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
OpenAI近期发布了o3和o4-mini两个新模型,标志着其在推理和多模态能力上的重大突破。o3模型凭借其全面的推理能力、丰富的工具使用方式以及全新的多模态CoT(C...
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
全球AI大模型的发展正迅速进入“多模态时代”,这一趋势不仅体现在技术进展上,也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力,尤其是在智能...
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3模型展示了通过照片识别地理位置的强大能力,引发了广泛的关注和讨论。Django Web框架的创始人Simon Wilson通过实验发现,o3能够通过Python代码和...