【环球网科技详尽报谈】8月30日白鹿 ai换脸,阿里通义千问发布第二代视觉言语模子Qwen2-VL,旗舰模子 Qwen2-VL-72B的API已上线阿里云百真金不怕火平台。
2023年8月,通义千问开源第一代视觉言语融合模子Qwen-VL,成为开源社区最受接待的多模态模子之一。短短一年内,模子下载量冲破1000万次。现在,多模态模子在手机、车端等各类视觉识别场景的落地正在加快,开导者和利用企业也非常温煦Qwen-VL的升级迭代。
比拟上代模子,Qwen2-VL的基础性能全面普及。不错读懂不同永诀率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测试创下人人当先的进展;不错融合20分钟以上长视频,守旧基于视频的问答、对话和本色创作等利用;具备巨大的视觉智能体才气,可自主操作手机和机器东谈主,借助复杂推理和方案的才气,Qwen2-VL 不错集成平直机、机器东谈主等开导,证明视觉环境和翰墨提醒进行自动操作;能融合图像视频中的多言语文本,包括汉文、英文,大多半欧洲言语,日语、韩语、阿拉伯语、越南语等。
古典武侠 校园春色通义千问团队从六个方面评估了模子才气,包括详尽的大学题目、数学才气、文档表格多言语翰墨图像的融合、通用场景问答、视频融合、Agent 才气。Qwen2-VL-72B 在大部分的计算上皆达到了最优白鹿 ai换脸,致使逾越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模子,在文档融合方面上风尤其显着,仅在详尽的大学题目方面与 GPT-4o 存在差距。