自动秒收录

超越GPT-4V!智谱AI第二代视觉大模型CogVLM2,19B参数跑出卓越性能


文章编号:5195 / 分类:AI资讯 / 更新时间:2024-06-17 09:43:30 / 浏览:

继去年发布并开源Visualglm-6B和CogVLM之后,智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量,在性能上接近或超越了gpt-4V。

据悉,CogVLM2系列模型在多个关键指标上实现了显著提升,如在 OCRbench 基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。此外,CogVLM2支持8K文本长度和高达1344*1344的图像分辨率,同时提供中英文双语的开源模型版本。

超越-4V!智谱AI第二代视觉CogVLM2,19B参数跑出卓越性能loading="lazy">

值得注意的是,尽管CogVLM2的总参数量为190亿,但实际激活的参数量仅约120亿,这得益于精心设计的多专家模块结构,显著提高了推理效率。此外,CogVLM2能够支持高达1344分辨率的图像输入,并引入了专门的降采样模块,以提高处理高分辨率图像的效率。

在多模态基准测试中,CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

超越-4V!智谱AI第二代视觉CogVLM2,19B参数跑出卓越性能

开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型,团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App和智谱AI大模型MaaS开放平台上线。


相关标签: 视觉大模型

本文地址:https://www.badfl.com/article/5134aca3f15049e63c6d.html

上一篇:司南OpenCompass20评测GLM4稳坐国内榜首,智...
下一篇:腾讯全新AI助手腾讯元宝发布集AI搜索总结与...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>