实时

您的位置:首页>品牌 >

非官方实测讯飞星火大模型:GPT4出题,文心一言陪跑,它到底行不行?

先看看讯飞同学自己的表态:

然后是考官上场。

来一段画外音:


(相关资料图)

今天,星火将在我们的注视下迈出踌躇满志的一步。这场考试仿佛是一座高峰,等待着星火去征服。无论是严谨的数学,还是深邃的哲学,亦或是跨界的社会科学,星火都必须以平和的心态迎接这些挑战。面对问题的洪流,星火将展示出怎样的智慧与才能?在这场知识的较量中,星火能否取得令人瞩目的成绩?(by GPT4)

我们用的考官是GPT4。我们让它用中文设计10个可以测试大语言模型的题目。分别涵盖数学、哲学、工程学、绘画、电影、社会科学,欧洲历史、经典物理学,有机化学、社会心理学。难度应该在本科毕业生水平附近。

为了加大难度,我们特别强调了,问题可以具有复合性,需要具备现实逻辑意义,允许结合不同学科背景知识设计问题。

以下是GPT4开出的10道题目:

数学:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。

哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。

工程学:请简述一下太阳能电池板的基本原理,并探讨其在解决全球能源危机中的潜在作用。

绘画:分析中国水墨画和西方油画在艺术风格和表现手法上的异同,并讨论这两种绘画形式如何互相影响和启发。

电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

社会科学:结合社会学和心理学的理论,分析社交媒体在现代社会中如何影响人们的心理健康和人际关系。

欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。

经典物理学:请简述牛顿力学和爱因斯坦相对论在描述物理现象方面的不同,并分析这两种理论的优缺点。

有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。

社会心理学:结合斯坦福监狱实验和阿甘迪实验,分析权力与服从对个体行为和道德判断的影响,并讨论如何预防和应对滥用权力的现象。

这10道题,我们觉得至少从正经测评来说,非常OK了~我们从中抽取文理各半的题目作为测试。上面还缺了编程能力,这个我们后面再加上。

作为对比测试选手,我们请来了百度文心一言同学陪跑。

有一说一,文心一言最近生成风格,非常的夸夸党~

相比之下,讯飞星火还是比较正常的语法。

那么,测试正式开始!(受到篇幅限制,我们抽取了其中5个问题展示给大家)

ROUND1

数学知识题:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。

讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。

ROUND2

哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。

讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。(但我觉得差距很小)

round3

电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

讯飞星火回答:

文心一言回答:

GPT4评判:

结果:文心一言更优。(比较明显)

round4

欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。

讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。(这个回答比较明显)

round5

有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。

讯飞星火回答:

文心一言回答:

GPT4评判:

多模态能力测评

任务:画一幅画,美丽少女驾驶着中国龙舟在雪山森林背景下的大河上航行,宽长比16:9

讯飞星火:

文心一言:

这个就不劳烦GPT4评判了,讯飞星火并没有多模态能力,文心一言完胜。当然,文心一言并不应该自满,因为这图太水了。。

一旁默默观战的BING,给出了自己的作品(基于DALL-E模型)。应该说,部分图的意境不错。

另一个旁观的STABLE DIFFUSION表示,还是让我来搞搞气氛:这才是AI绘画!

编程能力测评

最后,我们要测试一下编程辅助能力,出题者,我们还是请出GPT4。

有一说一,GPT4当导师出题目,是真的强大。

我们就选题目1吧:

题目1:编写一个Python程序,读取一个文本文件,统计每个单词出现的次数,并将结果写入另一个文本文件。注意考虑代码的可读性和模块化。输入:一个文本文件,文件中包含若干单词(字母组成,大小写不敏感),单词之间用空格、逗号或句号分隔。输出:一个文本文件,包含每个单词及其出现次数,格式为:“单词:次数”。

文心一言回答:

讯飞星火回答:

GPT4终极评审,它还帮忙改了代码。

文心的代码问题:

星火的代码问题:

我们把文心的代码同时喂给GPT4和星火,把星火的代码同时喂给GPT4和文心,三方评审,文心和星火只能给出这代码行不行的判断,而GPT4会动手直接优化代码。应该说,GPT4还是非常牛。

甚至,它还”非常自信“的评论了一番算法优劣。

所以,编程能力方面,讯飞星火在本次测评略胜一筹。

最后,我们要做个总结。

显然,在本次测评中,讯飞星火模型的表现整体要优于文心一言,但并没有拉开非常巨大的差距。

在大部分知识型的题目中,更具深度和准确性,能够提供更详细的解释和相关信息。用接地气的说法,就是你知道它”油腻“,但它非常努力的表现得”不油腻“。

而文心一言,作为早发布了两个月的国内首个公测大模型,它也是在迭代的,应该说,它作为多模态模型,也是有优势的(多模态可以画图、也可以作为机器视觉识别图像)。

另外,现场作为裁判和出题者之一的GPT4,仍然非常强大。那种感觉就是它根本不用修饰词,就是通过非常精准的表达,就能拉开和其他模型的差距,打个比喻就是,如果屏幕背后是个人,我能感受到它那种自信。

虽然说文心一言和星火认知大模型可能已经赶上了GPT3.5(chatgpt免费版本)的水准,但它们和GPT4仍然有不小的差距;这就好比高考要考满分,越往上,确实越不容易。

总体来说,大模型的Battle才刚刚开始,瑕不掩瑜,我们乐见于国内大厂能在几个月的时间内快速追上,国产大模型应该说未来可期。

长文不易,欢迎一键三联

关键词:

推荐阅读
先看看讯飞同学自己的表态:然后是考官上场。来一段画外音:今天,星火将在我们的注视下迈出踌躇满志的一步

2023-05-09 23:56:41

汕头大学2023年美术类专业录取规则  对高考文化成绩、统考专业成绩都达到生源省(区)录取控制分数线且非

2023-05-09 22:22:35

1、要说起保时捷卡宴,那可就有的聊了,时间够的话我能跟您聊一宿,但是在这里咱们就先简单说说。2、保时捷

2023-05-09 21:56:51

CFi CN讯:证券代码:600823证券简称:世茂股份公告编号:临2023-024债券代码:155391债券简

2023-05-09 20:50:56

发展“一村一品”是做好“土特产”文章,推动乡村特色产业集聚化、标准化、规模化、品牌化发展的重要途径。

2023-05-09 20:25:10

1、砧斧,拼音是zhēnfǔ,汉语词语,意思是砧板与斧钺,古代杀人刑具。2、出自《张益州画像记》。

2023-05-09 20:00:18

日前,云南禄丰的马先生告诉媒体,他的未婚妻李某娇于4月30日离家后失联,离开时还怀孕2个多月。5月5日,他

2023-05-09 18:55:01

根据巴媒UOL的最新报道,巴黎想要出售或租借内马尔,球员本人现在对离开巴黎持开放态度,曼联、切尔西、纽

2023-05-09 18:17:00

1、【答案】C【答案解析】试题分析:村民委员会和居民委员会是基层群众性自治组织,是带领村民或居民进行自

2023-05-09 17:54:39

2023年5月9日,金开新能发生1笔大宗交易,总成交312 98万股,成交金额1999 94万元,成交价6 39元,折价1 99%。

2023-05-09 17:36:26

1、《完美的我与不平凡的生活!》是已完结的一部校园类轻小说。2、作者是神渊。本文到此分享完毕,希望对大

2023-05-09 17:07:03

颠覆传统!欧洲最大3D打印建筑7月将完工:只需两人监工

2023-05-09 16:43:54

我国在社区、景区、大型商场、幼儿园设立公益书屋、听书墙,持续推进公益书屋建设,打造“15分钟阅读服务圈

2023-05-09 15:59:38

5月8日,聚焦当前社会“全职爸爸”育儿现象的男性全职育儿观察真人秀《爸爸当家》第二季正式播出。睽违一年

2023-05-09 15:35:13

雪佛兰的车型一直是性价比非常高的,尤其是终端的价格,往往有惊喜。作为品牌的热销车型,雪佛兰探界者(图

2023-05-09 15:15:58

1、让头发散发香味,洗头时,切忌用指甲抓挠,用指腹按摩,必须清洗2遍,这样可以彻底清净头皮上的废物,之

2023-05-09 14:23:04

1、sweetbaby英文发音:[swiːtˈbeɪbi]中文释义:甜蜜宝贝;甜宝贝例句:Oh,mysweetb

2023-05-09 13:59:47

5月9日获悉,湖北荆门住房公积金中心微信公众号发布了调整住房公积金使用政策。一、提升单缴存职工家庭最高

2023-05-09 12:51:17

1、现在开店的成本还是广大开店者面临的一大问题,而选择项目选择产品则成为第二大问题,我个人觉得现在什

2023-05-09 12:01:51

北京时间5月8日,35岁的辽宁老队长韩德君迎来爆发,他打出本赛季个人最强表现。所幸,韩德君博得4次罚球全

2023-05-09 11:54:36