半年多过去了，ChatGPT的排名快“垫底”了?( 二 ) _ChatGPT

据商汤介绍，internlm-123在主要评测中，有12项成绩排名第一。其中，在评测集综合考试中的agieval分数为57.8，超越gpt-4位列第一；知识问答commonsenseqa的评测分数为88.5，排名第一；internlm-123b在阅读理解的五项评测中成绩全部居榜首。
此外，在推理的五项评测中成绩排名第一。
本月初，作业帮正式发布自研银河大模型。
作业帮表示，银河大模型在C－Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示，作业帮银河大模型以平均分73．7分位居C－Eval榜首；同时在CMMLU榜单Five－shot和Zero－shot测评中分别以平均分74．03分及73．85分位列第一，成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。
昨天，百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。
百川智能创始人、CEO王小川称，经过微调之后的Chat模型，在中文领域，在Q&A问答环境，或者摘要环境里面，评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。
今天，在2023腾讯全球数字生态大会上，腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称，腾讯混元大模型中文能力已经超过GPT-3.5 。
除了这些开发者的自我介绍，也有一些媒体和团队对一种大模型进行评比。
8月上旬，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示，百度文心一言在三大维度20项指标中综合评分国内领先，较优于ChatGPT，其中中文语义理解排名靠前，部分中文能力较优于GPT-4 。
8月中旬，有媒体报道称，8月11日，小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前，MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1，在CMMLU中文向大模型排名第1 。
8月12日，天津大学发布《大模型评测报告》。报告显示，GPT-4和百度文心一言相较于其他模型综合性能显著领先，两者得分相差不大，处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越，并逐步缩小与GPT-4的差距。
8月下旬，有媒体报道称，快手自研的大语言模型“快意”（KwaiYii）已开启内测。在最新的CMMLU中文向排名中，快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的第一名，在人文学科、中国特定主题等方面较强，平均分超61分。
通过上述内容可以看出，这些大模型虽然纷纷号称自己在某排名中居首，或者是在某某方面超越ChatGPT，但大多是在一些具体的领域表现优异。
另外，有一些综合评分超过了GPT-3.5或GPT-4，但GPT的测试是停留在5月的，谁能保证这近3个月的时间里，GPT没有进步呢？
OpenAI的处境
根据瑞银集团2月的一份报告显示，在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。
但ChatGPT的发展也不是那么顺利。
今年7月，有不少GPT-4用户吐槽，与之前的推理能力相比，GPT-4的性能有所下降。
有些用户在推特以及OpenAI在线开发者论坛上指出了问题，集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号，只能记得最近的提示等等。
8月，又有一份报告称，OpenAi可能处于潜在的财务危机中，可能于2024年底破产。
报告中表示，OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前，该公司正试图通过GPT-3.5和GPT-4实现盈利，但是还尚未产生足够的收入实现收支平衡。
不过，OpenAI或许也有新的转机。
日前，OpenAI宣布，将于11月举办首届开发者大会。
虽然OpenAI表示不会发布GPT-5，但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起，提前一览“新的工具”，并且交流想法。
这可能意味着，ChatGPT已经取得了新的进步。
另据澎湃新闻报道，8月30日，一位知情人士透露，通过销售AI软件和驱动其运行的计算能力，OpenAI预计将在未来12个月内实现超过10亿美元的收入。
今天，又有媒体报道称，本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。
和摩根士丹利的银行家打交道的人，非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验，对OpenAI来说，也许会是一个巨大的收获。
人工智能时代的到来，已经势不可挡。至于到底谁更胜一筹，不能光靠自己说，还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT 。

半年多过去了，ChatGPT的排名快“垫底”了?( 二 )

推荐阅读

「时尚风行派」43岁视后气场撩人，陈数真是致命女人！单穿卡其色西装搭朋克链条

头孢呋辛酯片可以治什么病?

张云龙|春晚彩排明星私服：宋轶奢牌过万，秦岚穿好友潮牌，吴磊校服上阵

娱乐全搜索|被问理想型害羞到脸红，范丞丞承认那个人是倪妮

广州市■广州天河警方依法对一名违反居家隔离规定的外籍男子进行处罚

五花肉|冬季，吃白菜萝卜不如吃它，每天炒一盘，补钙质，长个头

帅不过三秒|这些幽默笑话你肯定没听过

小鹏汽车|家族新LOGO！小鹏G9正式发布：充电5分钟续航超200公里

拆解报告：小度智能音箱 2 红外版

「黑喵游妮」说说哪几位妹子能拿到新衣服，决战平安京魅罗妖姬主题对应七宗罪

快船队|快船无缘西决可能有什么后果？主帅将下课，超六出走或也难避免

电视剧▲《春日宴》确认拍成电视剧，选角成焦点，肖战郑爽鞠婧祎被提名！

坪效是什么意思(坪效和人效的计算公式)

「cnBeta」计算机建模为奥陌陌之类的星际天体给出了新的解释

她自称“地产巨鳄”的老婆，“帮”了我整整十年，结果……

「SUV」顶配7.38万的全球SUV，配8挡CVT变速箱油耗6.6L，国内已卖百万辆

娟儿妈妈▲是高智商的表现，很多家长却认为是坏毛病，孩子身上的5个特征

MediaTek|MediaTek推出最新5G芯片天玑800U，5G双卡双待助力加速5G普及

考试|网友高考偶遇张子枫，进考场前还认真复习资料，跟考生聊天超温柔

[10岁孩子被诱导充值]10岁孩子被诱导充值，游戏公司拒不退款，律师意见：可拨打12318热线投诉