据商汤介绍,internlm-123在主要评测中,有12项成绩排名第一 。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列第一;知识问答commonsenseqa的评测分数为88.5,排名第一;internlm-123b在阅读理解的五项评测中成绩全部居榜首 。
此外,在推理的五项评测中成绩排名第一 。
本月初,作业帮正式发布自研银河大模型 。
作业帮表示,银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩 。数据显示,作业帮银河大模型以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列第一,成为首个同时在上述两大权威榜单平均分排名第一的教育大模型 。
昨天,百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本 。
百川智能创始人、CEO王小川称,经过微调之后的Chat模型,在中文领域,在Q&A问答环境,或者摘要环境里面,评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型 。
今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型 。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过GPT-3.5 。
除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比 。
8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》 。报告显示,百度文心一言在三大维度20项指标中综合评分国内领先,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4 。
8月中旬,有媒体报道称,8月11日,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单 。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1 。
8月12日,天津大学发布《大模型评测报告》 。报告显示,GPT-4和百度文心一言相较于其他模型综合性能显著领先,两者得分相差不大,处于同一水平 。文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距 。
8月下旬,有媒体报道称,快手自研的大语言模型“快意”(KwaiYii)已开启内测 。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的第一名,在人文学科、中国特定主题等方面较强,平均分超61分 。
通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具体的领域表现优异 。
另外,有一些综合评分超过了GPT-3.5或GPT-4,但GPT的测试是停留在5月的,谁能保证这近3个月的时间里,GPT没有进步呢?
OpenAI的处境
根据瑞银集团2月的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序 。
但ChatGPT的发展也不是那么顺利 。
今年7月,有不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降 。
有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等 。
8月,又有一份报告称,OpenAi可能处于潜在的财务危机中,可能于2024年底破产 。
报告中表示,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元 。目前,该公司正试图通过GPT-3.5和GPT-4实现盈利,但是还尚未产生足够的收入实现收支平衡 。
不过,OpenAI或许也有新的转机 。
日前,OpenAI宣布,将于11月举办首届开发者大会 。
虽然OpenAI表示不会发布GPT-5,但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起,提前一览“新的工具”,并且交流想法 。
这可能意味着,ChatGPT已经取得了新的进步 。
另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售AI软件和驱动其运行的计算能力,OpenAI预计将在未来12个月内实现超过10亿美元的收入 。
今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人 。
和摩根士丹利的银行家打交道的人,非富即贵 。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对OpenAI来说,也许会是一个巨大的收获 。
人工智能时代的到来,已经势不可挡 。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分 。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT 。
推荐阅读
- 玩玉几多年,几多自欺欺人,几多沾沾自喜?
- 吃了李子柒的苦,却没有李子柒的命,彭传明的非遗之路有多艰难?
- 何炅被保姆实名举报,更多内幕被揭开,堪称现实版农夫与蛇
- 为什么很多服务行业青睐蓝色职业套裙?
- 适合在广州养植的多肉植物品种 适合在广州养植的多肉植物品种有哪些
- 一块砖的尺寸 一块砖的尺寸多少厘米
- 果冻乙女心多肉怎么养才长得好 果冻乙女心怎么养出果冻色
- 多肉植物钱串子怎么养才长得好
- 腊肉一般晾晒多久 制作腊肉需要晾晒多长时间
- 茼蒿煮多久能煮熟 茼蒿煮多久可以煮熟
