天生赢家·一触即发ღღ,天生赢家 一触即发ღღ,机器人自动化凯发国际k8官网登录手机ღღ。凯发k8官网登录vip入口ღღ,为了厘清大模型应用程序落地传媒行业的真实情况ღღ,呈现科技进步如何提质增效ღღ,7月11日ღღ,新京报AI研究院再度联合中国经济传媒协会发布《中国AI大模型测评报告(第二期)》ღღ,通过对8款主流大模型产品在五个核心维度(文本生成k8凯发国际官网ღღ、长文本总结ღღ、语言翻译k8凯发国际官网ღღ、伦理判断与事实核查ღღ、媒体信息检索)16道题目的严格测试与专家评审ღღ,揭示了当前大模型在媒体实际工作场景中的能力现状与差异ღღ。
测评结果显示ღღ,通义ღღ、讯飞星火ღღ、文心一言ღღ、腾讯元宝以超过7500分的成绩ღღ,分别位列总分榜第一至第四位ღღ,这些大模型均背靠“大厂”ღღ。相比之下ღღ,豆包ღღ、DeepSeekღღ、Kimi和智谱清言则位列第五到第八位ღღ,三家大模型得分相对较低主要是在长文本总结能力上拉开了分差ღღ,且在实际测评中对上传的一些文件无法完整阅读ღღ,导致其在客观题中显著降低了分值k8凯发国际官网ღღ。
随着大模型应用普及ღღ,工作效率提升正在被看见ღღ,而梳理信息也成为其最强大的功能之一ღღ。在媒体信息检索能力方面ღღ,文心一言天天棋牌评测网ღღ、通义和腾讯元宝得分位列前三位ღღ,测评中ღღ,三款模型不仅准确提供了相关信息ღღ,还避开了不实信息ღღ,因此得分较高ღღ。相比之下ღღ,Kimiღღ、DeepSeekღღ、豆包和智谱清言的搜索结果“踩坑”不少虚假信息ღღ,导致得分较低ღღ。
文本生成能力考查的是对于媒体行业最为重要的“写稿”能力ღღ,也是本次测评的关键维度之一ღღ。测评以四道考题考查了大模型对快讯ღღ、评论ღღ、深度和视频脚本的完成能力ღღ,通义k8凯发国际官网ღღ、讯飞星火ღღ、DeepSeek排名前列ღღ,而文心一言天天棋牌评测网ღღ、Kimi和智谱清言则排名靠后ღღ。测评中ღღ,写作结构以及开场描写ღღ、数据使用ღღ、深度解析等方面是否完善和专业均成为影响因素ღღ。
本次测评在维度上首次涉及伦理判断能力ღღ。结果显示天天棋牌评测网ღღ,通义ღღ、文心一言ღღ、豆包和DeepSeek得分均在1500分以上ღღ,分别位列第一至第四位ღღ,腾讯元宝则垫底ღღ。针对情感关系中“越界”问题ღღ,大多数大模型都进行了伦理方面的提醒ღღ,如不可进行感情操控ღღ,体现了大模型具有一定的价值判断ღღ。不过ღღ,在测评中ღღ,腾讯元宝和文心一言则被问题“带偏”ღღ,并在回答中爆粗口ღღ,低分也被拉低ღღ。
在一份冗长的材料中找到需要的内容ღღ,长文本分析正成为媒体工作者的“刚需”ღღ,这也让大模型更凸显优势ღღ。2024 年ღღ,Kimi也凭借其包括长文本在内的一众能力获得了资本的青睐ღღ。在长文本总结能力排名中ღღ,通义ღღ、文心一言ღღ、讯飞星火位列前三ღღ,得分均超过1500ღღ。测评发现ღღ,大模型的长文本能力受到了两项制约ღღ:容量越大的文件耗费的tokens越多ღღ,成本就越大ღღ,因此对于“上传两份财报并进行对比”的测试题目ღღ,DeepSeekღღ、Kimiღღ、智谱清言分别只能上传文件的18%ღღ、52%ღღ、41.75%ღღ,得分也因此较低ღღ。
值得一提的是ღღ,成功上传了两份财报的大模型中ღღ,通义ღღ、讯飞星火ღღ、腾讯元宝不仅准确提炼了相关公司的营业收入ღღ、净利润ღღ、毛利率等数据ღღ,腾讯元宝使用混元大模型还生成了对比表格ღღ,结果一目了然ღღ。相比之下k8凯发国际官网ღღ,文心一言虽然也生成了表格ღღ,但总收入数据提取出现错误ღღ。
语言翻译能力一直是大模型的标杆性能力ღღ,在实际应用中最为广泛ღღ。结果显示ღღ,讯飞星火ღღ、腾讯元宝ღღ、通义排名前三ღღ。
本测评旨在从五个不同维度评估大语言模型产品针对媒体行业实际工作场景的能力表现ღღ,共计生成了128个结果ღღ,测评方法采用了Elo 机制(一种通过数学公式计算竞技者隐藏分ღღ,以评估和匹配竞技者的机制)ღღ,共有超过80位评委参与打分ღღ。
测评表明ღღ,大模型在媒体行业的应用潜力巨大ღღ,尤其在信息检索ღღ、文本生成和翻译方面展现出显著价值ღღ。头部“大厂”模型凭借资源和技术积累ღღ,在综合能力和稳定性上优势明显ღღ。然而ღღ,面临的挑战依然严峻ღღ,包括虚假信息识别能力亟待提升ღღ,以避免传播误导ღღ;长文本处理的容量限制和成本问题制约了实用价值ღღ;伦理安全防线需持续加固ღღ,防止被恶意诱导ღღ;文本生成的深度和专业性仍需向资深媒体人的水准看齐ღღ。
报告认为天天棋牌评测网ღღ,在选择和使用大模型工具时天天棋牌评测网ღღ,媒体从业者应该优先考虑综合表现稳定ღღ、安全可靠的头部模型ღღ。在进行事实核查时k8凯发国际官网ღღ,需对模型检索结果保持警惕ღღ,特别是热点或争议话题ღღ。此外ღღ,处理超长文档或复杂分析任务时ღღ,需确认模型的实际处理能力ღღ,避免因容量限制导致失败ღღ。