首页 >  AI教程资讯 > VLMEvalKit入门指南 - 开源大规模视觉语言模型评估工具包

VLMEvalKit入门指南 - 开源大规模视觉语言模型评估工具包

532 2025-01-03 00:00:00

VLMEvalKit简介

VLMEvalKit是一个由开源贡献者开发的大规模视觉语言模型(LVLM)评估工具包。它具有以下主要特点:

支持对约100种视觉语言模型进行评估,包括API模型和开源PyTorch/Hugging Face模型提供40多个基准数据集,涵盖图像理解、视频理解等多个任务采用基于生成的评估方法,并提供精确匹配和基于LLM的答案提取两种评估模式一键式评估,无需繁琐的数据准备工作支持自定义基准和模型,易于扩展

主要功能

支持的视觉语言模型

VLMEvalKit支持多种类型的视觉语言模型:

API模型:如GPT-4v、Gemini Pro Vision等开源PyTorch/HF模型:如IDEFICS、LLaVA、MiniGPT-4等支持多模态输入的模型(标记为

相关常用工具

查看更多

Copyright © 2025 AI图片论坛 版权所有. 站点地图