异动
登录注册
文心一言4.0实测超GPT-4,重视国产大模型
牛🐮🐮🐮
2023-10-18 11:14:37
理解能力,尤其是中文理解能力
第一波,先来看看文心大模型4.0的理解能力。
这里我们主要考考它应对“语言陷阱”的能力,以及网络段子的“识别力”。
先来个中文十级能力测试题,考考大模型究竟懂不懂“真的假的”是什么意思。
文心大模型4.0的回答很简洁,直接给出答案。

 
GPT-4则要每一句话都仔细分析句意,最后再给出回答:

 
虽然更仔细,但总感觉有点像是在认真做中文测试的歪果仁(doge)。
再来上点难度,“小偷偷偷偷东西”。
文心大模型4.0很快拆解出了“小偷”、“偷偷”和“偷东西”三个词,get到了这句话的意思:

 不过,GPT-4反而一头“栽”进了这个陷阱中,以为中间的两个“偷”也是动词,最后还漏了一个偷……

 考查完语言陷阱后,再来看看双方对网络段子的理解。
针对“哪李贵了”这个本土梗,文心大模型4.0很快给出了答案,人物事件都直观:

 
GPT-4如果没有开搜索,会get不到2022年1月之后的梗:

 
但如果打开搜索,很快也能“与时俱进”,给出这个问题的答案:

 
同理,我们也试了试从国外传入国内的梗。
文心大模型4.0和GPT-4都能回答出来,文心大模型4.0更概要一些,GPT-4则是直接搬运了一套百科(更详细,但tokens也更贵……):

 

 
网络段子测评看下来,文心大模型4.0和加了搜索的GPT-4可以说是各有千秋。
多模态生成能力
那么接下来这波,就要考验当下最受关注的大模型多模态生成能力了。
先来试试图像生成能力,顺便考查一下对古诗“孤舟蓑笠翁,独钓寒江雪”的理解。
文心大模型4.0很快给出了4张图像,风格和基本意境都比较符合:

 
GPT-4也利用DALL·E 3画出了4幅画,同样画风各异:

 
这一次双方打了个平手。

那么视频生成呢?这里我们调用一下文心大模型4.0的自带插件,本想着只是生成一段落叶剪辑,没想到连文案和字幕语音都配好了,完成度很高那种:

 GPT-4本体目前还不支持生成视频,需要借助外部插件(如Capcut)实现这一功能。

 逻辑能力

然后,就到了我们喜闻乐见的数学计算+逻辑推理能力测试了。
文心大模型4.0说是重点升级了数学计算能力,我们也不客气,直接上难倒一片大模型的Old McDonald问题:
在Old McDonald的农场里养着一匹马、两头牛和三只羊。请问农场还需要再养多少头牛,才能使得所有动物的总数量恰好是牛的总数量的两倍?
文心大模型4.0一口气列出了4个未知数(doge),但解题过程还是比较严谨的,最终答案也没有问题。

 
此前,我们曾将这个问题喂给Claude、ChatGPT等一众大模型,“横向评测”过一波它们的数学能力,当时只有GPT-4能做出来。

 接下来,直接上弱智benchmark,考考逻辑推理能力。
第一个问题,文心大模型4.0和GPT-4都很快给出了正确答案:

 

 
第二个问题,双方的回答也很快,文心大模型4.0还顺口给出了“七分海洋三分陆地”的地理题背诵口诀:

 

 看起来双方的数学、逻辑都不错,点个赞。
记忆能力
大语言模型公认的评判标准之一,是多轮对话能力。GPT-4的多轮对话已经有不少测试了,我们再来简单看看文心大模型4.0的效果。
先来解读一下长论文,没什么问题:

 
以这个为主题写一首诗歌,顺便让它改成英文,也能hold住:

 试试让它改得押韵一点,no problem:

 最后再来提问一下诗歌中用到的Transformer知识点,并挑出其中的某个知识点要求解释原理,也信手拈来:

 

 另外,试着将上文中的知识点用“它”代替,文心大模型4.0同样能承接上文的对话,并给出相关知识回答。

 看来无论是长文本解读、还是多轮对话,可以说都是难不倒文心大模型4.0了。
附加题
正经测试完毕,咱们最后整点乐子(doge)。
这段时间,一道神奇的考题又被拎出来,在小红书等社交媒体上“难倒众人”,题面是这样的:
根据中华人民共和国婚姻法,以下谁能结婚?A、林黛玉和贾宝玉B、贾琏和尤二姐C、杨过和小龙女D、张起灵和吴邪
乍一眼还真看不出答案,不如交给文心大模型4.0和GPT-4回答试试。
文心大模型4.0给出的回答算是有理有据,虽然细看仍有一点bug,但整体问题不大。

 
然而当我们将这个问题抛给GPT-4的时候,它先是停顿了好一会,然后直接被“急出母语”(doge)

翻译一下大概就是,GPT-4认为D选项是正确的……

我们再尝试一遍。这次GPT-4倒是用中文回答了,只不过好像开始打起了太极,对于每一个选项,它的回答都是:

在现实中,他们的结婚资格取决于他们是否符合中国的婚姻法律规定。

测到这里,不妨做个小小的总结:

整体来看,与GPT-4相比,文心大模型4.0在综合能力上确实不落下风,尤其是在中文理解能力和通用知识能力上甚至更好。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
科大讯飞
工分
1.18
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-10-18 15:28
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 韭菜包饺子
    已经腰斩的萌新
    只看TA
    2023-10-18 12:13
    文心一言真不错回复速度比gpt快
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-18 11:23
    李彦宏自己知道文心超过gpt4了吗
    0
    0
    打赏
    回复
    投诉
  • 1
前往