研究:GPT-4 在执行多项现实任务中击败其他大语言模型
本文概要:
1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。
(资料图片仅供参考)
2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。
3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。
市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。
编程客栈()8月11日 消息:最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。
“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅python助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。
操作系统:LLM必须执行与计算机操作系统的使用相关的任务。
数据库:这个环境是关于LLM如何与数据库合作。
知识图:此环境测试LLM如何使用知识图。
数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。
横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。python
预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。
互android联网购物:此场景测试LLM在与在线购物相关的任务上的表现。
网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。
结果显示,GphpPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。
竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。
研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以编程客栈便进行更广泛的性能比较。
关键词:
相关阅读
-
研究:GPT-4 在执行多项现实任务中击败...
本文概要:1 GPT-4在大型语言模型中表现出色,取得最高总分4 41。2 GPT- -
讽刺漫威DC!HBO正式预定喜剧剧集《系列...
1905电影网讯HBO正式预定喜剧剧集《系列大片》整季,该作由萨姆门德斯 -
1-3!女乒世界冠军一轮游,许昕老搭档惨...
1-3!女乒世界冠军一轮游,许昕老搭档惨遭逆转,梁夏银无缘晋级,许昕, -
科恒股份:截止2023年8月10日,公司股东...
科恒股份(300340)08月11日在投资者关系平台上答复了投资者关心的问题。 -
华为Mate 60系列代号曝光“Barry Alle...
华为Mate60系列代号曝光“BarryAllen”网友:闪电侠遥遥领先 -
大兴机场单日旅客流量突破15万人次 创...
今天限行2和7明天不限行自暑运以来大兴机场业务量快速增长旅客流量屡创 -
古茗成立进出口公司 注册资本3000万
天眼查App显示,近日,浙江景茗进出口有限公司成立,法定代表人为金雅 -
巢湖市柘皋镇:“四向发力”锻造高素质...
专稿:近年来,巢湖市柘皋镇始终坚持把加强村级干部队伍建设作为推动乡 -
庆阳市获评“2023果业高质量发展共建县...
每日甘肃网8月11日讯据陇东报报道(庆阳融媒记者路世玲通讯员吴鹏龙)8 -
夏威夷野火遇难人数升至53人
新华社洛杉矶8月10日电据美国夏威夷州毛伊县官方10日发布消息说,野火 -
南网储能:签订抽水蓄能项目建设三方协议
8月10日,南网储能公告,与云南省昆明市宜良县人民政府、中铁建发展集 -
广州美术学院校外实践教育基地在鹤山揭牌
江门日报讯(记者 何雯意)8月10日,广州美术学院校外实践教育基地揭牌 -
郸城县委全面依法治县委员会(扩大)会...
周口日报全媒体记者徐松8月10日上午,郸城县委全面依法治县委员会(扩 -
女子花12888元抢自助餐年卡 海鲜任吃!...
女子花12888元抢自助餐年卡海鲜任吃!可全年享用每日三餐?今天的关注 -
吴晓求:不赞成T+0 搞100+1也没有什么...
8月11日,吴晓求在AI大模型资本产业论坛上表示,上交所研究在主板推行1 -
全景天幕逼疯了多少车主
要说新能源车最显著的特征有哪些,除了无边框车门、隐藏式门把手外,厂 -
暑假出行别辜负了安全提醒
海边一日最多走失190名孩子?近日,一段“保安牵一排孩子找家长”的... -
泓博医药:8月10日融资买入1124.9万元,...
8月10日,泓博医药(301230)融资买入1124 9万元,融资偿还1010 63万元 -
“红通人员”周权回国投案
“红通人员”周权回国投案央视网消息:据中央纪委国家监委网站消息,8... -
公安机关强力推进“净网”专项行动 累...
记者从公安部今天召开的新闻发布会上获悉,公安部党委部署全国公安机关