ai写作chatbot 不吹也不擂，看看国内各厂的chatbot都进化到哪了？

王者之魏 2025年8月19日 21:33:17 vo快游大全 1239

不吹也不擂，看看国内各厂的chatbot都进化到哪了？

前段时间高考，作为这几年大热的大模型也被人拉出来评测了一番，从各个科目的表现来看并不是很理想——特别是在数学表现上。但是在打工人日常其实有不少数据统计、分析的工作，这时候的大模型，能否帮到我们？以及，表现怎么样？

相信大家在日常工作生活中，都已经体验过各类chatbot了，像chatGPT、chatGLM、文心一言、通义千问 ，还有近来上线的腾讯元宝 等；那不知大家是否有一些使用心得和使用经验或槽点呢？

我本人目前基本上，每天都会使用LLM来帮助我工作提效（但于我是否真的提效，还有待考证）~

我用的比较多的两个场景是：

帮我“搜索内容+整理内容+按我要求的格式”输出给我；帮我“提炼一篇或多篇文章（pdf或网页url）的要点”；

那除了上面这些场景，PM在日常工作中，还有一些【数据统计分析】的工作，比如查数据、统计数据，那这时候LLM，可否帮帮我们呢？

（虽然我们之前可能早已注意到，chatbot并不擅长数据分析，但随着各类智能体框架和技术的演进，相信一些厂商已经能够解决该问题）

话不多说，让我们一起来看看吧…

一、国内各家chatbot【数据统计能力】测评过程记录、测评结论

这里，本人选取了chatGLM网页版（智谱清言）、文心一言3.5网页版（百度）、通义千问2.5网页版（阿里）、kimi网页版（月之暗面）、腾讯元宝 ，进行“chatbot数据分析”能力测试。

注：测评过程内容较多，可跳过测评过程，先看测评结论。以下是测评内容和测评结果。

1、我是先用了word文档，直接测试，统计“某一列值=xx，共有多少条数据”

——发现不行。word就是没法很好的完成数据统计分析功能；

2、接着换成了excel文档，内容和问题不变。

——发现好了一点。智谱AI完胜，可以理解问题，并自行判断调用其内部的何种工具来完成问题，结果正确，还支持绘制图表，并进行更深层次的统计分析。文心一言还不支持解析excel。腾讯元宝还在卡BUG死循环的路上。kimi回答不正确。

3、——为了不冤枉各个厂商，我翻了bchabot全部功能（应该没遗漏），最后发现，我没有冤枉文心一言、元宝、kimi~他们的数据统计分析就是不行~

4、关于2024高考数学题，星火、九章大模型、文心一言、智谱GLM4的表现如何？

2.1 实验一：使用word文档，测试简单的【数据统计】功能

（2）实验人：南方蝶道

（3）实验过程记录：

p.s. 共有492条数据，服务提供者=389条；服务技术支持者=103条；

测试输入：

测试结果输出：

（1）chatGLM-4.0网页版-输出结果：

（2）百度文心一言3.5网页版-输出结果：

回答报错、不正确。

第一次系统默认调用【阅读助手】插件，报错（这个插件总是报错，这是我遇到的第五六次了…）

第二次系统给的结果如下：

（3）阿里通义千问2.5网页版-输出结果：

回答不正确

（4）kimi网页版-输出结果：

回答不正确

（5）腾讯元宝网页版-输出结果：

回答不正确

实验一结论：

可以看到，当使用word文档，对chatbot进行数据统计提问时，各个厂商的chatbot均不能完成任务，哪怕是简单的“统计某一列中值=XX 的行数等于多少” ，现阶段的chatbot也不能完成。

okay，是输入方式不对，我们改成 EXCEL文件作为输入，进行测试。详见下面的实验二。

2.2 实验二：使用excel文件，测试简单的【数据统计】功能：统计某一列 [数值=xx] 的行数有多少

测试结果输出：

（1）chatGLM-4.0网页版

下面结果表明：chatGLM不仅数据分析问题可以计算正确，还可以绘制统计图表~

再问它一个统计问题：“帮我统计涉及“多模态”字样的，且角色为 “服务技术支持者”的数据有多少条，并给出具体的数据行”

（2）百度文心一言3.5网页版-输出结果：

文心一言chatbot默认的对话窗口，不支持解析excel。即不支持上传excel文件，仅支持pdf、word和图片类型文件。

（3）阿里通义千问2.5网页版-输出结果：

计算不正确

（4）kimi网页版-输出结果：

算了2遍，都不对。

（5）腾讯元宝网页版-输出结果：

自己报错，执行不下去中断了问题。

再试一遍：还是同样的报错。显然，这不是偶发BUG。

实验结论：

由实验二各个厂家chatbot的实际测试结果，“数据统计功能“哪家强？——相信大家也一目了然。

1、智谱AI（GLM-4）不仅给出了正确的计算结果，还可以给出相关问题并绘制”数据分布图表“；kimi给出了结论，但计算错误；腾讯还在报错卡BUG执行不下去的路上；百度还不支持excel数据分析，任重而道远~

综上，智谱AI chatbot在【数据统计分析】的路上，进化的最快、能力最强！

在2024年6月17这个时间节点，在”Excel数据统计&分析“这一命题任务上，chatGLM完胜！这一点毋庸置疑~ 它能够分析问题->自主判断调用其系统内部的【代码生成助手】→自动执行任务→给出结果&且结果正确。

emmm，但本着开放包容、不冤枉任何一家chatbot的原则，下面再深入看看，是不是各家chatbot有其它隐藏着的excel技能（如Excel数据分析智能体啥的），只是我没有发现？

——嗯，下面再来深入看一看吧…

2.3 实验三：腾讯元宝、百度文心一言、阿里通义千问、kimi chatbot【数据分析】功能深挖

(2) 实验人：南方蝶道

(3)实验过程记录：

（3.1）百度chatbot–【数据分析】功能深挖，到底有没有？

之前在实验二中，我们发现文心一言chatbot，压根不支持在【对话框】中对excel类型的文件进行上传和解析；

下面看一看其【插件商城】、【智能体中心】（百宝箱）里面是不是有相关的彩蛋？

（1）文心一言-【插件商城】截图：

翻了一圈【文心一言-插件商城】，没有看到【数据分析】相关的插件~

（2）文心一言-【百宝箱】截图：

直接搜excel相关的智能体/指令，百宝箱搜索结果中给了4个，嗯，但是也没有能干”excel数据统计分析“这件事的。

再试一试“代码”、“sql”相关的：

至此，文心一言chatbot鉴定完毕，现阶段（2024年6月）就是不支持【数据统计分析】，看来只能挪步至隔壁【千帆大模型平台】了~~

后面翻一翻【千帆大模型】平台上的智能体，是否有”数据统计分析“相关的。

（3.2）腾讯元宝–【数据分析】功能深挖

搜一搜元宝是否有 excel相关的智能体？——emmm，Nothing~（下图是24年6月17日截图）

再试一试是否有“代码生成”（参照智谱AI）相关的智能体？——emm，也没有。（下图是24年6月17日截图）

（3.3）阿里通义千问–【数据分析】功能深挖

（1）通义千问-效率导航-工具箱：无“数据分析”相关；

2）通义千问-智能体：提供了excel相关的智能体，但是测评下来，智能体的功能单一、质量不高，无法完成任务（如不支持传excel文件、有1000的token限制等）；

（3.4）kimi–【数据分析】功能深挖

下面是kimi 的”kimi+“智能体列表全部的截图（2024年6月17日），可以看到在这个节点，kimi智能体中心没有【数据统计分析】相关的~

实验三结论：

看来，我没有冤枉各家chatbot，真的没有更多的数据统计分析能力…

二、各种PR稿鼓吹大模型可以做高考数学题，真的能吗？

结论是：现阶段，还不能~ 但有机会，任重而道远~~

这里给大家奉上一篇，我个人认为写的不错的文章（《当AI遇上高考数学题，4个大模型“考生”“成绩单”出炉》 ，6月19日发表的，下称文章1 ），文章中的一些核心观点和测评过程中遇到的大模型问题，给大家分享一下（他山之石、可以攻玉）：

该篇文章选择了4个大模型，分别是【星火大模型（v3.5版本）】、【文心一言（3.5版）】、【智谱清言（GLM-4）】 通用大模型，和以数学能力见长的教育垂类模型：【九章大模型】 。

测评数据 ：选取的是2024全国高考数学–新课标1卷–客观题部分，进行测评。其中包括8道单选题、3道多选题、3道填空题。

此外，由于试题中存在图形、大量数学符号，该篇文章，为防止以文本形式输入题目产生偏差，统一选择以图片形式呈现题目并提供给大模型进行解答。

测评表现和测评结果：

四位“考生”此次作答正确率 ：从高到低依次为星火大模型（85.71%）、九章大模型（78.57%）、智谱清言（28.57%）、文心一言（7.14%）。

尽管做题结果正确，但各个模型做题的推理过程，均禁不起推敲；

——那么究竟差在哪了？

“第一，题目识别上存在比较大的困难 ，涉及一些数学符号、分式等会影响识别效果，还有一些图形、表格识别存在问题，以及一些数学专业术语的表述识别也不够精准。

第二，几个大模型在逻辑推理能力上还存在不足。

第三是解题方法较为单一， 大模型似乎只能按照固定的模板去答题，而不能依据题目的特征因地制宜地选择最优方法。”

——以上观点，均来自《文章1》

（1）文心一言（v3.5）–2024年-高考数学客观题表现

– 该篇文章测评中可以发现：

①文心一言具备读取图片内容的能力，但无法识别仅带有复杂分数的公式和图形。

– 例如单选题第3题，明明成功读出题目中的“⊥”符号为“垂直”，却在后面的步骤中理解为“平行”（题面中未出现任何平行相关字眼或符号），经提示，文心一言发现理解错误，却在再次解答时又出现理解偏差。

——这就是大模型普遍均存在的让人头疼的“幻觉之一”（上下文矛盾问题）；

②文心一言解答数学题并不是用数理逻辑，而是试图用文字论证的方式去猜测一个接近的结果。

– 从单选题第5题的答题情况不难看出；

③文心一言几乎对每一题都进行了详细的推理，但最终大部分题目都得出了错误的答案。

④ 文心一言：优秀的文科生，但理科真的差；

“文心一言在答数学题能力上虽然逊色，但通过一系列的追问、对话可以发现，这位“考生”对语义语境的把控能力非常优秀，很容易明白用户在说什么，在用户补充提醒的时候，它很快就可以知道根据新信息去解释上面的题目。”——文章1。

（2）智谱清言（GLM-4）–2024年-高考数学客观题表现

①智谱清言也存在上下文矛盾的幻觉问题。

在第12题中，经过一番分析后，智谱清言告诉用户无法计算出结果。

在第13题中，智谱清言重复地分析、发现问题、重新审视问题，又一遍一遍地发现行不通，进行了十轮以上的死循环（在我之前测试，我发现腾讯元宝也有这个问题…后面和大家分享） ，直到人工点击暂停才停下。

②智谱清言的解答比较简洁，一般会直接回应题目，有一定的逻辑性和条理性。

③但答案不是特别详细，也没有深入分析。

④有些题目的回答和标准答案的匹配度不高，有些题目虽然答对了，但会漏掉一些关键点。

（3）星火大模型、九章大模型——2024年-高考数学客观题表现

①如果说文心一言是个“不错的文科生”，那么【星火大模型】和【九章大模型】，就是典型的“理科生”，虽然非常擅长解题，但上下文语义语境的理解是它们的弱势。

– 例如，当用户对【星火大模型】提出：

Q：“上面这道题可以再详细分析一下吗” 时，星火并不能理解指向的是什么，而是回答：

星火大模型回答： “很抱歉，由于我无法看到您提到的具体问题，所以无法为您提供更详细的分析。请提供问题的详细信息，以便我能够更好地帮助您。”

– 当用户对【九章大模型】 追问：

Q：“请你检查一下这道题，D选项到底对不对”；

九章：“当然可以，请您提供题目的具体内容，包括选项D的表述，我会尽力帮助您检查。”

——说明其比较擅长解题，但很难联系上下文语境语义来与用户互动对话。并不明白用户问的是什么。

②九章大模型的部分解题过程也存在瑕疵。

在一道多选题中，九章大模型在推理中明明认为C选项错误，但最后又把C选为正确答案，“这个表述上下文之间没啥逻辑关系，让人摸不到头脑。”上述数学专业人士指出。

② 星火和九章对题目的处理上：

1）九章大模型在图片题目识别上，会先在输入文本框中识别读取出题面，并以文本形式呈现，用户可在框内确认题目的准确性。若发现识别错误，点击即可出现数学符号的辅助输入工具栏，进行编辑修改，防止题目读取错误。

2）而星火大模型，没有上面这个步骤。直接回答，所以不知道题目识别环节理解了多少。

三、写在最后的一点思考

我的一些观点：

1、PR稿吹得天花乱坠，但是实际落地，一堆工程问题需要解决；

——这是因为厂商需要“造梦”，以获得资本的青睐；

——所以我们要建好心里预期，不要抱过高期待；

2、新技术的出现，于世界、于我们都是好事，我们要拥抱它，同时需要给予它一些耐心和包容性~

3、大模型之于教育场景（辅导服务，课后点评，辅助解题等）有很多想象空间，但同时也有很长的一段路要走…

写在最后：

1、希望本文对各位小伙伴了解chatbot能力和市场，有所帮助~~

但是但是，借用本文内容的观点和内容，请注明来源链接~~ 禁止直接抄袭~

2、除了本文的chatbot【数据统计】能力测评外，本人还系统进行了“AI搜索+写作”、“图片理解”、“长文档解析和问答”、“Agent搭建” 等各项能力测评，后续有时间同大家分享~

本文参考资料：

[1]当AI遇上高考数学题，4个大模型“考生”“成绩单”出炉 — 新京报

本文由 @南方碟道原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

这届国产AI真的可以！20分钟生成万字报告，附带可视化网页

衡宇发自凹非寺

量子位 | 公众号 QbitAI

大上午的，还没到10点呢，量子位负责财报分析的同学就已经在我背后的工位上发出了第N次哀嚎。

不怪她，换我我也得喊救命——最近一季度财报频发，这已经是本月解读的不知道第几家Q1财报内容了。

每天，真的是每一天，她一会儿回头问我这个数据算得对不对，一会儿微信上问我这个文章立意角度切入得妙不妙。终于，我不耐烦了，头也不抬地回了一句：

求你别问我了，你去问问小白吧！

我真的不是打哈哈敷衍她。之前就有做行研和一级市场的朋友们跟我安利过问小白AI，听说最近又出了个类似Deep Research的「小白研报」功能，在工作中很能帮得上忙 。

我自己浅浅试过一波，真的顶。

果不其然，自打让小白研报做了她的每日财报伴侣，她再也没有像之前那样在苦海里挣扎。

太好了，这个世界上又有一位打工人被问小白（wenxiaobai.com）拯救了。

20分钟，国产Deep Research给研报分析开挂

AI发展迅速，应用和功能都层出不穷，为什么给同事推荐的是小白研报？

先看它的官方定义，初步感知一下——

小白研报基于元石自研模型打造，让小白模拟人类思维，像真人一样研究问题，通过多轮思考与工具调用，自动生成论文、行业研究与趋势报告，并呈现精美可视化网页。

它能做的，就是输出各类行业报告、学术论文、调研报告、资讯盘点、在线吃瓜、旅游攻略、舆情监测、投资决策等等。

发现了没？它擅长做的事情，恰好就是所有打工人闻之胆寒的那一类 ：

工作时间紧，资料多，数据碎，分析难，写了半天还容易出错……总之就是debuff叠满的那种。

就像最近各个公司唰唰往外发Q1财报，虽然拆解分析它们已经是固定常规操作，但由于内容长、数据多，压根不是能速通的活。

但如果交给小白研报，你只需要“吩咐”它一句话 。

此处根据需要，你可选择是否附带上传额外的文档。

然后最多等待20分钟 。

乍一听，和一般的AI Chatbot瞬时返回结果相比，16分钟是有点久。

但其实仔细想想，再熟练的人想要认真地把一份财报解读清楚，并且撰写出结果，也要花小半天时间。

这16分钟里，小白研报不只是在慢慢啃财报本身 ，它还在全网搜罗了零跑的相关资料，甚至整个汽车行业的诸多内容，包括财报原文、券商研报、行业对比数据和市场反馈。

毕竟想要形成一份扎实的研报，光用Q1财报内容进行简单堆砌信息可不行。

大家看到的最终呈现结果，都是小白研报搜索、整理了几十甚至上百份靠谱资料得出的。

搜索整理过后，小白研报是真的在呈现结果中把搜罗来的资料用上了。

比如，在战略分析处，小白研报引用了这样一句话：“零跑建供应链的原则是，尽可能少出钱”。

这是零跑董事长去年在接受媒体采访时说过的话，并不属于财报内容。

这就是小白研报的特别之处，你能明显感觉到它在思考，在分析数据和信息之间的关联性 。

最后我们来整体看一下，小白研报花费16分钟，返回了怎样一份报告：

不是干巴巴的纯文字分析，而是做了重点提炼，有清晰表格、对比柱状图的富媒体网页报告，有逻辑、有层次、有重点的专业分析 。

详实，美观，直接可用——

还可以点击导出PDF或者DOCX文档，就可以下载完整小白研报产出的内容。

注意，下载下来的不是对话框里展示的富媒体网页，而是随随便便万字起步的调研报告。

小白研报处理工作的专业能力无可挑剔，自从同事实践证明了它用来解读财报很给力过后，编辑部里让它整理AI发展趋势、挖掘名人故事的活，都不必再100%亲力亲为。

作为AI狂热爱好者，既然国产AI界有如此神器，同事立马和我合计，想开发它更多的玩法来“为我所用”——花的还是小白研报帮忙省下来的时间，笑死。

我们发现，在日常生活中，小白研报也能发挥同样的作用，帮助解决实际问题 。

最近不是已经开启618的预售活动了吗，又有国补政策，买买买的剁手党们已经坐不住了。

我的目标就一个，拿下一台万元内的单反相机。

没啥意外，这活儿同样交给了小白研报。

首先一定要给大家看的一个对比。每次给小白研报提需求的时候，我们给的prompt都非常简单，往往就是一句话的事儿。

但就是短短一句话，小白研报都会尽可能地去拆解有效信息和关键词 。

输入“618了，推荐一台万元内适合女性新手的单反相机”和“推荐一台万元内适合新手的单反相机”，会有什么不同？

小白研报能抓住前者“618”“女性”等词，去做更多的市场调研。

联网搜索12分钟后，小白研报整理出了一份攻略报告。

它很明白自己的推荐对象是新手，所以遵循下面几个原则：

在技术规格与性能分析中，研报内容专门在“操作体验”中考虑了机身重量这一项，也符合我们需求中“女性”使用的通常考虑项。

然后，它横向调研了佳能、尼康、富士等五大品牌，不仅对比了参数和价格，还详细说明了每款相机的优缺点和适用场景。

比如哪款适合拍人像，哪款风景更出色，哪款性价比最高，都分析得明明白白。

最贴心的是，它甚至写出了“二手市场性价比高，但需仔细甄别”这样的话。

最后，小白研报给出的推荐清单是这样的：

多功能集成，最好用的国产AI外援

如此惊艳又实用的小白研报，只是问小白诸多AI功能中的一个，问小白还有很多其它绝活，帮你捋清思路、拆解重点、挽救输出。

深入体验过后，最想跟大家分享的就是AI搜索 。

说实话，AI搜索大战打得很激烈，国内外很多AI公司都出了这个功能，但问小白的AI搜索有它自己独到的优势。

首先是模型选择。

问小白目前搭载了最前沿的大模型，用户可随意切换，界面还标明了各个模型推荐的实用场景 。

除了模型可以选择，用问小白搜索时，还能选择不同的搜索模式 ，分别是：

日常搜索可以即时获取最新信息，最高能搜索100+网页；而在专业搜索模式下，能同时处理200多个网页，相同时间内的阅读量是其他AI搜索的3到5倍。

而且问小白会优先选择权威网站 ，让答案更可靠。

另外每一种搜索模式都没有传统搜索引擎的广告哦（doge保命）。

一番尝试下来，感觉学术搜索这个模式蛮特别，简直是为科研党量身定制的 ，倾情推荐大家食用。

主要原因之一，就是它免费啊！就问科研党谁看了不馋？

当然，免费这个赤裸裸的诱惑，还是建立在它正儿八经很好用的基础上。

问小白背后使用的自研模型，可根据语义理解，将问答query转化为中英文检索词，提高检索结果质量。

也就是说，它会先根据具体问题，罗列相关的关键词，让AI搜索不跑偏，然后再进一步精准地“大浪淘金”。

与此同时，问小白背后的自研模型会增加相关性模型进行相关性处理，提高检索文献相关性。

不得不提的是，问小白的学术搜索接入了全球最大的学术数据库 ，覆盖的学术领域极广，包括自然科学、社会科学、人文科学、工程技术、医学、生命科学等等前沿领域，SCI、SSCI、EI等权威数据库收录的论文也悉数覆盖。

专业来源，如arXiv、IEEE官网，其它来源，如微博、B站，都被它作为来源一网打尽。

并且全部列举在右侧展示框，并包含资料年份、被引次数、作者等信息，方便你做文献内容筛选。

此外，点击相应的原文，即可以PDF的形式查看原始资料。

整个AI搜索的体验中，问小白有一个细节特别打动人，就是它具备「追问功能」 。

大家都是普通人，有时候提问题不够准确。这个时候，问小白会引导你补充信息，帮你学会如何提出一个好问题。

这种交互体验，真的像在和一个专业顾问对话。

需要注意，作为一款好用的AI产品，小白研报和AI搜索，都只是问小白十八般武艺的一角而已 。

各式写作、推理生图、拍照答疑……几乎所有AI能干的事，用户都可以在问小白一站式解决。

最近问小白还在PC端上线了隐私模式 ，点击“开启新对话”右侧的方框按钮即可开启。

这样一来，你可以放心大胆和AI畅所欲言。

不用刻意删除历史记录，也不必担心和AI说的心里话被留痕了……

无论你是写稿、做PPT、看财报、填志愿，甚至是选志愿、搜资料、聊心事——

只要是个AI能完成的任务，交给问小白准没错，有了问小白，你就有了最强大的信息处理外援。

在这个AI重新定义效率的时代，会选择和会使用好的AI工具的人，永远比只会蛮干的人多出8小时创造价值。

根据量子位智库统计的数据，4月问小白AI网页端使用规模超600万。这份成绩单是用户亲身体验后的选择。

前段时间，第三届红杉资本AI峰会在洛杉矶落幕，长达6个小时的闭门会传递出一个共识：AI不再卖工具，而是卖收益。

AI的价值在于解决问题、创造结果，要把AI的价值和客户的实际收益绑在一起。

这恰恰是问小白正在用实际行动印证的，尤其是小白研报——当一款Agent产品能把传统需数小时的数据清洗、行业分析、图表生成压缩至分钟级，实现「输入问题即获得决策支持」的无缝体验时，你获得的已经是实实在在的时间复利 。

省时省力，效率拉满。

最后，Attention Please！

问小白的部分功能需要消耗金币，不过不要紧张，最近官方开启了一波送金币活动：

每日打卡，可按规定领取6-30不等的金币；每邀请一位好友，可获得50金币。

什么叫心动不如行动～

问小白官网（或点击文末“阅读原文”直达）：https://www.wenxiaobai.com

#问小白 #问小白研报 #问小白下载 #问小白学术搜索 #AI搜索 #AI

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态

chatbot是什么?

聊天机器人(Chatterbot)2.ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像...

ChatGPT全名是什么?

ChatGPT的英文全名是:ChatGenerativePre-trainedTransformerChat:表示“聊天”,GPT是GenerativePre-trainedTransf...