强力推荐一个超级好用的大模型测评工具

发布时间:2024-11-21 04:50

推荐实用的生活工具评测,提高生活质量 #生活乐趣# #生活分享# #生活美学心得# #生活方式评测#

强力推荐一个超级好用的大模型测评工具

大白爱爬山 已于 2024-04-26 10:28:18 修改

于 2024-04-26 10:21:43 首次发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

在这个千模大战的AI时代,国内很多大厂都在做自己的基础大模型,比如Qwen、Baichuan、文心一言、星火、盘古等等;对于小玩家或者 个人来说使用大模型的最佳方式就是基于这些基础大模型来做微调。

但是对于微调后的大模型效果怎样呢?有没有好的工具去衡量、去评价判断呢?在这里给大家强力推荐一个非常好用的工具,那就是opencompass,中文名称司南,最近在项目中也刚好在使用它,非常方便好用,而且它是一个开源的大模型测试工具,支持很多常用的大模型,测试数据集也很丰富,可以从语言、知识、推理、考试、理解、长文本、安全、代码等多个维度测试大模型的能力。

官网网址:https://opencompass.org.cn/home

github网址: https://github.com/open-compass/opencompass

opencompass是一款面向大模型评测的一站式平台,特点如下:

开源:大家都可以方便地使用,而且可以根据自身需要做一些定制开发。

全面的能力维度:五大维度设计,提供 70+ 个数据集约 40万题的模型评测方案,全面评估模型能力。

丰富的模型支持:已支持 20+ HuggingFace ,同时还支持 模型的API方式。

分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。

灵活扩展:可以新增自定义模型和数据集

数据集支

大模型及API支持

除了支持开源大模型本地支持测试,同时还支持已经部署好的大模型的API接口测试。

 开源大模型API模型InternLMOpenAILLaMAGeminiLLaMA3ClaudeVicunaZhipuAI(ChatGLM)AlpacaBaichuanBaichuanByteDance(YunQue)WizardLMHuawei(PanGu)ChatGLM2360ChatGLM3Baidu(ERNIEBot)TigerBotMiniMax(ABAB-Chat)QwenSenseTime(nova)Qwen1.5Xunfei(Spark)BlueLMGemma

安装使用

具体使用可以参考官方文档或者github。

官方文档https://opencompass.org.cn/doc

更多最新文章,请关注公众号:大白爱爬山

网址:强力推荐一个超级好用的大模型测评工具 https://www.yuejiaxmz.com/news/view/167849

相关内容

测试工具之压力测试工具推荐
吸猫毛的空气净化器哪个好用些?实测5大超强实力好物!
10大主流压力测试工具推荐(转载)
口碑最好的电饭煲有哪些型号?5大火爆精品测评推荐!
空气净化器能清理猫毛吗?5大王炸机型测评推荐!
电饭煲哪个牌子的好?五大全网大火电饭煲测评推荐!
家用电饭煲怎么选?5大热门好评机型实测力荐
11款最佳AI编程写代码助手工具评测推荐
电饭煲哪个牌子的好用?五大热销爆卖机型测评大合集!
推荐10个开源的压力/负载测试工具

随便看看