不满现有工具三星推出自研 AI 性能基准测爱体育- 爱体育官方网站- APP下载试工具 TRUEBench

2025-09-26

  爱体育,爱体育官方网站,爱体育APP下载IT之家 9 月 25 日消息,三星是首个在智能手机上引入全面的 AI 功能套件的品牌。自那时起,该公司始终保持每六个月推出全新及升级版 AI 功能的节奏。如今,三星推出了自己的人工智能性能基准测试工具,名为 TRUEBench。

  今日早些时候,三星宣布已开发出名为“可信真实场景使用评估基准”(Trustworthy Real-world Usage Evaluation Benchmark,简称 TRUEBench)的自研 AI 基准测试工具。这是一款专有基准工具,由三星研究院(Samsung Research)开发。此前,三星发现现有 AI 基准测试工具存在诸多不足,遂启动了该工具的研发工作。三星表示,大多数现有工具只关注英语,且仅限于单轮问答结构。

  三星指出,TRUEBench 的测试涵盖了多样化对话场景与多语言环境。基于企业内部将 AI 用于生产力提升的实践经验,该基准工具围绕 10 项最常用的企业任务评估 AI 性能,例如内容生成、数据分析、文本摘要及翻译等。

  据IT之家了解,TRUEBench 包含 2485 组测试集,覆盖 10 个大类、46 个子类以及 12 种语言。其测试旨在检验 AI 模型的实际问题解决能力,测试集的长度从 8 个字符到 20000 多个字符不等,涵盖了从简单任务到长文档总结等各类任务。

  三星称,TRUEBench 拥有可靠的评分体系,这得益于一套由 AI 与人类协作设计并完善的 AI 自动评估系统。该工具的数据样本与排行榜已在开源平台 Hugging Face 上线,用户可通过其测试最多 5 个 AI 模型,并对它们的性能与效率进行对比。

  三星电子 DX 部门首席技术官兼三星研究院院长 Paul (Kyungwhoon) Cheun 表示:“凭借在真实场景中积累的 AI 实践经验,三星研究院具备深厚的专业知识与竞争优势。我们期望 TRUEBench 能够确立生产力领域的评估标准,并巩固三星在技术领域的领先地位。”

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  雷军在年度演讲上坦言:有很多人对小米有偏见,我陷入了严重的内耗;展示小米高管团队,9位是新面孔

  中国建筑学家俞孔坚在巴西坠机身亡,他是“海绵城市”提出者,刚被公布入选《福布斯》

  4499元起,小米17发布!雷军:续航几乎是iPhone 17的两倍,是“小尺寸续航之王”!17Pro起售价4999元

  连爆大冷世界第1第9第12第18都止步16强!肖国栋2-4出局,8强出炉

  《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

  4499元起!小米17/Pro/Pro Max全方位对比 购买建议来了

  小米17/Pro/Pro Max全系价格公布:4499元起!9月27日开售

  《羊蹄山之魂》:山巅极者,塞外修罗/

  主站 商城 论坛 自运营 登录 注册 《羊蹄山之魂》:山巅极者,塞外修罗 神堡薛师傅 2025-09-25 返...

地址:广东省广州市天河区88号 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 爱体育- 爱体育官方网站- 爱体育APP下载 版权所有 非商用版本