ai写作chatbot 不吹也不擂,看看国内各厂的chatbot都进化到哪了?

不吹也不擂,看看国内各厂的chatbot都进化到哪了?

前段时间高考,作为这几年大热的大模型也被人拉出来评测了一番,从各个科目的表现来看并不是很理想——特别是在数学表现上。但是在打工人日常其实有不少数据统计、分析的工作,这时候的大模型,能否帮到我们?以及,表现怎么样?

相信大家在日常工作生活中,都已经体验过各类chatbot了,像chatGPT、chatGLM、文心一言、通义千问 ,还有近来上线的腾讯元宝 等;那不知大家是否有一些使用心得和使用经验或槽点呢?

我本人目前基本上,每天都会使用LLM来帮助我工作提效(但于我是否真的提效,还有待考证)~

我用的比较多的两个场景是:

帮我“搜索内容+整理内容+按我要求的格式”输出给我;帮我“提炼一篇或多篇文章(pdf或网页url)的要点”;

那除了上面这些场景,PM在日常工作中,还有一些【数据统计分析】的工作,比如查数据、统计数据,那这时候LLM,可否帮帮我们呢?

(虽然我们之前可能早已注意到,chatbot并不擅长数据分析,但随着各类智能体框架和技术的演进,相信一些厂商已经能够解决该问题)

话不多说,让我们一起来看看吧…

一、国内各家chatbot【数据统计能力】测评过程记录、测评结论

这里,本人选取了chatGLM网页版(智谱清言)、文心一言3.5网页版(百度)、通义千问2.5网页版(阿里)、kimi网页版(月之暗面)、腾讯元宝 ,进行“chatbot数据分析”能力测试。

注:测评过程内容较多,可跳过测评过程,先看测评结论。以下是测评内容和测评结果。

1、我是先用了word文档,直接测试,统计“某一列值=xx,共有多少条数据”

——发现不行。word就是没法很好的完成数据统计分析功能;

2、接着换成了excel文档,内容和问题不变。

——发现好了一点。智谱AI完胜,可以理解问题,并自行判断调用其内部的何种工具来完成问题,结果正确,还支持绘制图表,并进行更深层次的统计分析。文心一言还不支持解析excel。腾讯元宝还在卡BUG死循环的路上。kimi回答不正确。

3、——为了不冤枉各个厂商,我翻了bchabot全部功能(应该没遗漏),最后发现,我没有冤枉文心一言、元宝、kimi~他们的数据统计分析就是不行~

4、关于2024高考数学题,星火、九章大模型、文心一言、智谱GLM4的表现如何?

2.1 实验一:使用word文档,测试简单的【数据统计】功能

(2)实验人:南方蝶道

(3)实验过程记录:

p.s. 共有492条数据,服务提供者=389条;服务技术支持者=103条;

测试输入:

测试结果输出:

(1)chatGLM-4.0网页版-输出结果:

(2)百度文心一言3.5网页版-输出结果:

回答报错、不正确。

第一次系统默认调用【阅读助手】插件,报错(这个插件总是报错,这是我遇到的第五六次了…)

第二次系统给的结果如下:

(3)阿里通义千问2.5网页版-输出结果:

回答不正确

(4)kimi网页版-输出结果:

回答不正确

(5)腾讯元宝网页版-输出结果:

回答不正确

实验一结论:

可以看到,当使用word文档,对chatbot进行数据统计提问时,各个厂商的chatbot均不能完成任务,哪怕是简单的“统计某一列中值=XX 的行数等于多少” ,现阶段的chatbot也不能完成。

okay,是输入方式不对,我们改成 EXCEL文件作为输入,进行测试。详见下面的实验二。

2.2 实验二:使用excel文件,测试简单的【数据统计】功能:统计某一列 [数值=xx] 的行数有多少

测试结果输出:

(1)chatGLM-4.0网页版

下面结果表明:chatGLM不仅数据分析问题可以计算正确,还可以绘制统计图表~

再问它一个统计问题:“帮我统计 涉及“多模态”字样的 ,且角色为 “服务技术支持者”的数据有多少条,并给出具体的数据行”

(2)百度文心一言3.5网页版-输出结果:

文心一言chatbot默认的对话窗口,不支持解析excel。即不支持上传excel文件,仅支持pdf、word和图片类型文件。

(3)阿里通义千问2.5网页版-输出结果:

计算不正确

(4)kimi网页版-输出结果:

算了2遍,都不对。

(5)腾讯元宝网页版-输出结果:

自己报错,执行不下去中断了问题。

再试一遍:还是同样的报错。显然,这不是偶发BUG。

实验结论:

由实验二各个厂家chatbot的实际测试结果,“数据统计功能“哪家强?——相信大家也一目了然。

1、智谱AI(GLM-4)不仅给出了正确的计算结果,还可以给出相关问题并绘制”数据分布图表“;kimi给出了结论,但计算错误;腾讯还在报错卡BUG执行不下去的路上;百度还不支持excel数据分析,任重而道远~

综上,智谱AI chatbot在【数据统计分析】的路上,进化的最快、能力最强!

在2024年6月17这个时间节点,在”Excel数据统计&分析“这一命题任务上,chatGLM完胜!这一点毋庸置疑~ 它能够分析问题->自主判断调用其系统内部的【代码生成助手】→自动执行任务→给出结果&且结果正确。

emmm,但本着开放包容、不冤枉任何一家chatbot的原则,下面再深入看看,是不是各家chatbot有其它隐藏着的excel技能(如Excel数据分析智能体啥的),只是我没有发现?

——嗯,下面再来深入看一看吧…

2.3 实验三:腾讯元宝、百度文心一言、阿里通义千问、kimi chatbot【数据分析】功能深挖

(2) 实验人:南方蝶道

(3)实验过程记录:

(3.1)百度chatbot–【数据分析】功能深挖,到底有没有?

之前在实验二中,我们发现文心一言chatbot,压根不支持在【对话框】中对excel类型的文件进行上传和解析;

下面看一看其【插件商城】、【智能体中心】(百宝箱)里面是不是有相关的彩蛋?

(1)文心一言-【插件商城】截图:

翻了一圈【文心一言-插件商城】,没有看到【数据分析】相关的插件~

(2)文心一言-【百宝箱】截图:

直接搜excel相关的智能体/指令,百宝箱搜索结果中给了4个,嗯,但是也没有能干”excel数据统计分析“这件事的。

再试一试“代码”、“sql”相关的:

至此,文心一言chatbot鉴定完毕,现阶段(2024年6月)就是不支持【数据统计分析】,看来只能挪步至隔壁【千帆大模型平台】了~~

后面翻一翻【千帆大模型】平台上的智能体,是否有”数据统计分析“相关的。

(3.2)腾讯元宝–【数据分析】功能深挖

搜一搜元宝是否有 excel相关的智能体?——emmm,Nothing~(下图是24年6月17日截图)

再试一试 是否有“代码生成”(参照智谱AI)相关的智能体?——emm,也没有。(下图是24年6月17日截图)

(3.3)阿里通义千问–【数据分析】功能深挖

(1)通义千问-效率导航-工具箱:无“数据分析”相关;

2)通义千问-智能体:提供了excel相关的智能体,但是测评下来,智能体的功能单一、质量不高,无法完成任务(如不支持传excel文件、有1000的token限制等);

(3.4)kimi–【数据分析】功能深挖

下面是kimi 的”kimi+“智能体列表全部的截图(2024年6月17日),可以看到在这个节点,kimi智能体中心没有【数据统计分析】相关的~

实验三结论:

看来,我没有冤枉各家chatbot,真的没有更多的数据统计分析能力…

二、各种PR稿鼓吹大模型可以做高考数学题,真的能吗?

结论是:现阶段,还不能~ 但有机会,任重而道远~~

这里给大家奉上一篇,我个人认为写的不错的文章(《当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉》 ,6月19日发表的,下称文章1 ),文章中的一些核心观点和测评过程中遇到的大模型问题,给大家分享一下(他山之石、可以攻玉):

该篇文章选择了4个大模型,分别是【星火大模型(v3.5版本)】、【文心一言(3.5版)】、【智谱清言(GLM-4)】 通用大模型,和 以数学能力见长的教育垂类模型:【九章大模型】

测评数据 :选取的是2024全国高考数学–新课标1卷–客观题部分,进行测评。其中包括8道单选题、3道多选题、3道填空题。

此外,由于试题中存在图形、大量数学符号,该篇文章,为防止以文本形式输入题目产生偏差,统一选择以图片形式呈现题目并提供给大模型进行解答。

测评表现和测评结果:

四位“考生”此次作答正确率 :从高到低依次为星火大模型(85.71%)、九章大模型(78.57%)、智谱清言(28.57%)、文心一言(7.14%)。

尽管做题结果正确,但各个模型做题的推理过程,均禁不起推敲;

——那么究竟差在哪了?

“第一,题目识别上存在比较大的困难 ,涉及一些数学符号、分式等会影响识别效果,还有一些图形、表格识别存在问题,以及一些数学专业术语的表述识别也不够精准。

第二,几个大模型在逻辑推理能力上还存在不足。

第三是解题方法较为单一, 大模型似乎只能按照固定的模板去答题,而不能依据题目的特征因地制宜地选择最优方法。”

——以上观点,均来自《文章1》

(1)文心一言(v3.5)–2024年-高考数学客观题表现

– 该篇文章测评中可以发现:

①文心一言具备读取图片内容的能力,但无法识别仅带有复杂分数的公式和图形。

– 例如单选题第3题,明明成功读出题目中的“⊥”符号为“垂直”,却在后面的步骤中理解为“平行”(题面中未出现任何平行相关字眼或符号),经提示,文心一言发现理解错误,却在再次解答时又出现理解偏差。

——这就是大模型普遍均存在的让人头疼的“幻觉之一”(上下文矛盾问题);

②文心一言解答数学题并不是用数理逻辑,而是试图用文字论证的方式去猜测一个接近的结果。

– 从单选题第5题的答题情况不难看出;

③文心一言几乎对每一题都进行了详细的推理,但最终大部分题目都得出了错误的答案。

④ 文心一言:优秀的文科生,但理科真的差;

“文心一言在答数学题能力上虽然逊色,但通过一系列的追问、对话可以发现,这位“考生”对语义语境的把控能力非常优秀,很容易明白用户在说什么,在用户补充提醒的时候,它很快就可以知道根据新信息去解释上面的题目。”——文章1。

(2)智谱清言(GLM-4)–2024年-高考数学客观题表现

①智谱清言也存在上下文矛盾的幻觉问题。

在第12题中,经过一番分析后,智谱清言告诉用户无法计算出结果。

在第13题中,智谱清言重复地分析、发现问题、重新审视问题,又一遍一遍地发现行不通,进行了十轮以上的死循环(在我之前测试,我发现腾讯元宝也有这个问题…后面和大家分享) ,直到人工点击暂停才停下。

②智谱清言的解答比较简洁,一般会直接回应题目,有一定的逻辑性和条理性。

③但答案不是特别详细,也没有深入分析。

④有些题目的回答和标准答案的匹配度不高,有些题目虽然答对了,但会漏掉一些关键点。

(3)星火大模型、九章大模型——2024年-高考数学客观题表现

①如果说文心一言是个“不错的文科生”,那么【星火大模型】和【九章大模型】,就是典型的“理科生”,虽然非常擅长解题,但上下文语义语境的理解是它们的弱势。

– 例如,当用户对【星火大模型】提出:

Q:“上面这道题可以再详细分析一下吗” 时,星火并不能理解指向的是什么,而是回答:

星火大模型回答: “很抱歉,由于我无法看到您提到的具体问题,所以无法为您提供更详细的分析。请提供问题的详细信息,以便我能够更好地帮助您。”

当用户对【九章大模型】 追问:

Q:“请你检查一下这道题,D选项到底对不对”;

九章 :“当然可以,请您提供题目的具体内容,包括选项D的表述,我会尽力帮助您检查。”

——说明其比较擅长解题,但很难联系上下文语境语义来与用户互动对话。并不明白用户问的是什么。

②九章大模型的部分解题过程也存在瑕疵。

在一道多选题中,九章大模型在推理中明明认为C选项错误,但最后又把C选为正确答案,“这个表述上下文之间没啥逻辑关系,让人摸不到头脑。”上述数学专业人士指出。

② 星火和九章 对题目的处理上:

1)九章大模型在图片题目识别上,会先在输入文本框中识别读取出题面,并以文本形式呈现,用户可在框内确认题目的准确性。若发现识别错误,点击即可出现数学符号的辅助输入工具栏,进行编辑修改,防止题目读取错误。

2)而星火大模型,没有上面这个步骤。直接回答,所以不知道题目识别环节理解了多少。

三、写在最后的一点思考

我的一些观点:

1、PR稿吹得天花乱坠,但是实际落地,一堆工程问题需要解决;

——这是因为厂商需要“造梦”,以获得资本的青睐;

——所以我们要建好心里预期,不要抱过高期待;

2、新技术的出现,于世界、于我们都是好事,我们要拥抱它,同时需要给予它一些耐心和包容性~

3、大模型之于教育场景(辅导服务,课后点评,辅助解题等)有很多想象空间,但同时也有很长的一段路要走…

写在最后:

1、希望本文对各位小伙伴了解chatbot能力和市场,有所帮助~~

但是但是,借用本文内容的观点和内容,请注明来源链接~~ 禁止直接抄袭~

2、除了本文的chatbot【数据统计】能力测评外,本人还系统进行了“AI搜索+写作”、“图片理解”、“长文档解析和问答”、“Agent搭建” 等各项能力测评,后续有时间同大家分享~

本文参考资料:

[1]当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉 — 新京报

本文由 @南方碟道 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

这届国产AI真的可以!20分钟生成万字报告,附带可视化网页

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

大上午的,还没到10点呢,量子位负责财报分析的同学就已经在我背后的工位上发出了第N次哀嚎。

不怪她,换我我也得喊救命——最近一季度财报频发,这已经是本月解读的不知道第几家Q1财报内容了。

每天,真的是每一天,她一会儿回头问我这个数据算得对不对,一会儿微信上问我这个文章立意角度切入得妙不妙。终于,我不耐烦了,头也不抬地回了一句:

求你别问我了,你去问问小白吧!

我真的不是打哈哈敷衍她。之前就有做行研和一级市场的朋友们跟我安利过问小白AI,听说最近又出了个类似Deep Research的「小白研报」功能,在工作中很能帮得上忙

我自己浅浅试过一波,真的顶。

果不其然,自打让小白研报做了她的每日财报伴侣,她再也没有像之前那样在苦海里挣扎。

太好了,这个世界上又有一位打工人被问小白(wenxiaobai.com)拯救了。

20分钟,国产Deep Research给研报分析开挂

AI发展迅速,应用和功能都层出不穷,为什么给同事推荐的是小白研报?

先看它的官方定义,初步感知一下——

小白研报基于元石自研模型打造,让小白模拟人类思维,像真人一样研究问题,通过多轮思考与工具调用,自动生成论文、行业研究与趋势报告,并呈现精美可视化网页。

它能做的,就是输出各类行业报告、学术论文、调研报告、资讯盘点、在线吃瓜、旅游攻略、舆情监测、投资决策等等。

发现了没?它擅长做的事情,恰好就是所有打工人闻之胆寒的那一类

工作时间紧,资料多,数据碎,分析难,写了半天还容易出错……总之就是debuff叠满的那种。

就像最近各个公司唰唰往外发Q1财报,虽然拆解分析它们已经是固定常规操作,但由于内容长、数据多,压根不是能速通的活。

但如果交给小白研报,你只需要“吩咐”它一句话

此处根据需要,你可选择是否附带上传额外的文档。

然后最多等待20分钟

乍一听,和一般的AI Chatbot瞬时返回结果相比,16分钟是有点久。

但其实仔细想想,再熟练的人想要认真地把一份财报解读清楚,并且撰写出结果,也要花小半天时间。

这16分钟里,小白研报不只是在慢慢啃财报本身 ,它还在全网搜罗了零跑的相关资料,甚至整个汽车行业的诸多内容,包括财报原文、券商研报、行业对比数据和市场反馈。

毕竟想要形成一份扎实的研报,光用Q1财报内容进行简单堆砌信息可不行。

大家看到的最终呈现结果,都是小白研报搜索、整理了几十甚至上百份靠谱资料得出的。

搜索整理过后,小白研报是真的在呈现结果中把搜罗来的资料用上了。

比如,在战略分析处,小白研报引用了这样一句话:“零跑建供应链的原则是,尽可能少出钱”。

这是零跑董事长去年在接受媒体采访时说过的话,并不属于财报内容。

这就是小白研报的特别之处,你能明显感觉到它在思考,在分析数据和信息之间的关联性

最后我们来整体看一下,小白研报花费16分钟,返回了怎样一份报告:

不是干巴巴的纯文字分析,而是做了重点提炼,有清晰表格、对比柱状图的富媒体网页报告,有逻辑、有层次、有重点的专业分析

详实,美观,直接可用——

还可以点击导出PDF或者DOCX文档,就可以下载完整小白研报产出的内容。

注意,下载下来的不是对话框里展示的富媒体网页,而是随随便便万字起步的调研报告。

小白研报处理工作的专业能力无可挑剔,自从同事实践证明了它用来解读财报很给力过后,编辑部里让它整理AI发展趋势、挖掘名人故事的活,都不必再100%亲力亲为。

作为AI狂热爱好者,既然国产AI界有如此神器,同事立马和我合计,想开发它更多的玩法来“为我所用”——花的还是小白研报帮忙省下来的时间,笑死。

我们发现,在日常生活中,小白研报也能发挥同样的作用,帮助解决实际问题

最近不是已经开启618的预售活动了吗,又有国补政策,买买买的剁手党们已经坐不住了。

我的目标就一个,拿下一台万元内的单反相机。

没啥意外,这活儿同样交给了小白研报。

首先一定要给大家看的一个对比。每次给小白研报提需求的时候,我们给的prompt都非常简单,往往就是一句话的事儿。

但就是短短一句话,小白研报都会尽可能地去拆解有效信息和关键词

输入“618了,推荐一台万元内适合女性新手的单反相机”和“推荐一台万元内适合新手的单反相机”,会有什么不同?

小白研报能抓住前者“618”“女性”等词,去做更多的市场调研。

联网搜索12分钟后,小白研报整理出了一份攻略报告。

它很明白自己的推荐对象是新手,所以遵循下面几个原则:

在技术规格与性能分析中,研报内容专门在“操作体验”中考虑了机身重量这一项,也符合我们需求中“女性”使用的通常考虑项。

然后,它横向调研了佳能、尼康、富士等五大品牌,不仅对比了参数和价格,还详细说明了每款相机的优缺点和适用场景。

比如哪款适合拍人像,哪款风景更出色,哪款性价比最高,都分析得明明白白。

最贴心的是,它甚至写出了“二手市场性价比高,但需仔细甄别”这样的话。

最后,小白研报给出的推荐清单是这样的:

多功能集成,最好用的国产AI外援

如此惊艳又实用的小白研报,只是问小白诸多AI功能中的一个,问小白还有很多其它绝活,帮你捋清思路、拆解重点、挽救输出。

深入体验过后,最想跟大家分享的就是AI搜索

说实话,AI搜索大战打得很激烈,国内外很多AI公司都出了这个功能,但问小白的AI搜索有它自己独到的优势。

首先是模型选择。

问小白目前搭载了最前沿的大模型,用户可随意切换,界面还标明了各个模型推荐的实用场景

除了模型可以选择,用问小白搜索时,还能选择不同的搜索模式 ,分别是:

日常搜索可以即时获取最新信息,最高能搜索100+网页;而在专业搜索模式下,能同时处理200多个网页,相同时间内的阅读量是其他AI搜索的3到5倍。

而且问小白会优先选择权威网站 ,让答案更可靠。

另外每一种搜索模式都没有传统搜索引擎的广告哦(doge保命)。

一番尝试下来,感觉学术搜索这个模式蛮特别,简直是为科研党量身定制的 ,倾情推荐大家食用。

主要原因之一,就是它免费 啊!就问科研党谁看了不馋?

当然,免费这个赤裸裸的诱惑,还是建立在它正儿八经很好用的基础上。

问小白背后使用的自研模型,可根据语义理解,将问答query转化为中英文检索词,提高检索结果质量。

也就是说,它会先根据具体问题,罗列相关的关键词,让AI搜索不跑偏,然后再进一步精准地“大浪淘金”。

与此同时,问小白背后的自研模型会增加相关性模型进行相关性处理,提高检索文献相关性。

不得不提的是,问小白的学术搜索接入了全球最大的学术数据库 ,覆盖的学术领域极广,包括自然科学、社会科学、人文科学、工程技术、医学、生命科学等等前沿领域,SCI、SSCI、EI等权威数据库收录的论文也悉数覆盖。

专业来源,如arXiv、IEEE官网,其它来源,如微博、B站,都被它作为来源一网打尽。

并且全部列举在右侧展示框,并包含资料年份、被引次数、作者等信息,方便你做文献内容筛选。

此外,点击相应的原文,即可以PDF的形式查看原始资料。

整个AI搜索的体验中,问小白有一个细节特别打动人,就是它具备「追问功能」

大家都是普通人,有时候提问题不够准确。这个时候,问小白会引导你补充信息,帮你学会如何提出一个好问题。

这种交互体验,真的像在和一个专业顾问对话。

需要注意,作为一款好用的AI产品,小白研报和AI搜索,都只是问小白十八般武艺的一角而已

各式写作、推理生图、拍照答疑……几乎所有AI能干的事,用户都可以在问小白一站式解决。

最近问小白还在PC端上线了隐私模式 ,点击“开启新对话”右侧的方框按钮即可开启。

这样一来,你可以放心大胆和AI畅所欲言。

不用刻意删除历史记录,也不必担心和AI说的心里话被留痕了……

无论你是写稿、做PPT、看财报、填志愿,甚至是选志愿、搜资料、聊心事——

只要是个AI能完成的任务,交给问小白准没错,有了问小白,你就有了最强大的信息处理外援。

在这个AI重新定义效率的时代,会选择和会使用好的AI工具的人,永远比只会蛮干的人多出8小时创造价值。

根据量子位智库统计的数据,4月问小白AI网页端使用规模超600万。这份成绩单是用户亲身体验后的选择。

前段时间,第三届红杉资本AI峰会在洛杉矶落幕,长达6个小时的闭门会传递出一个共识:AI不再卖工具,而是卖收益。

AI的价值在于解决问题、创造结果,要把AI的价值和客户的实际收益绑在一起。

这恰恰是问小白正在用实际行动印证的,尤其是小白研报——当一款Agent产品能把传统需数小时的数据清洗、行业分析、图表生成压缩至分钟级,实现「输入问题即获得决策支持」的无缝体验时,你获得的已经是实实在在的时间复利

省时省力,效率拉满。

最后,Attention Please!

问小白的部分功能需要消耗金币,不过不要紧张,最近官方开启了一波送金币活动:

每日打卡,可按规定领取6-30不等的金币;每邀请一位好友,可获得50金币。

什么叫心动不如行动~

问小白官网(或点击文末“阅读原文”直达):https://www.wenxiaobai.com

#问小白 #问小白研报 #问小白下载 #问小白学术搜索 #AI搜索 #AI

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态

相关问答

chatbot是什么?

聊天机器人(Chatterbot)2.ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像...

ChatGPT全名是什么?

ChatGPT的英文全名是:ChatGenerativePre-trainedTransformerChat:表示“聊天”,GPT是GenerativePre-trainedTransf...

发表评论

验证码