超越GPT-4V！智谱AI第二代视觉大模型CogVLM2，19B参数跑出卓越性能 - 自动秒收录

超越GPT-4V！智谱AI第二代视觉大模型CogVLM2，19B参数跑出卓越性能

文章编号：5195 / 分类：AI资讯 / 更新时间：2024-06-17 09:43:30 / 浏览：次

继去年发布并开源Visualglm-6B和CogVLM之后，智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量，在性能上接近或超越了 gpt-4V。

据悉，CogVLM2系列模型在多个关键指标上实现了显著提升，如在 OCRbench 基准上性能提升32%，在TextVQA基准上性能提升21.9%，且模型具备了较强的文档图像理解能力（DocVQA）等。此外，CogVLM2支持8K文本长度和高达1344*1344的图像分辨率，同时提供中英文双语的开源模型版本。

超越-4V！智谱AI第二代视觉CogVLM2，19B参数跑出卓越性能 loading="lazy">

值得注意的是，尽管CogVLM2的总参数量为190亿，但实际激活的参数量仅约120亿，这得益于精心设计的多专家模块结构，显著提高了推理效率。此外，CogVLM2能够支持高达1344分辨率的图像输入，并引入了专门的降采样模块，以提高处理高分辨率图像的效率。

在多模态基准测试中，CogVLM2的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA性能；而在其他性能上，也能达到与闭源模型（例如GPT-4V、Gemini Pro等）接近的水平。

超越-4V！智谱AI第二代视觉CogVLM2，19B参数跑出卓越性能

开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型，团队还透露，GLM新版本会内嵌CogVLM2能力，在智谱清言App和智谱AI大模型MaaS开放平台上线。

相关标签：视觉大模型、

本文地址：https://www.badfl.com/article/5134aca3f15049e63c6d.html

上一篇：司南OpenCompass20评测GLM4稳坐国内榜首，智...
下一篇：腾讯全新AI助手腾讯元宝发布集AI搜索总结与...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位！
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>

文章推荐