标题摘要内容
【专家动态】宁波优策信息技术有限公司首席科学家正式提出将人工智能核心术语“Token”统一译为“数元”的建议
来源: | 作者:AI小生 | 发布时间: 2026-04-28 | 55 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:


2026年3月,全国科学技术名词审定委员会推荐使用“词元”作为“Token”的中文名。宁波优策信息技术有限公司首席科学家、原工信部软件与集成电路促进中心总工程师王建平教授,基于对软件产业、数字经济及人工智能领域的长期跟踪研究、决策支撑,以及在实际业务场景中的深度应用,认为“词元”在自然语言处理时代具有历史合理性,但在多模态大模型及通用人工智能加速演进的当下,已显现明显局限,已正式向国家有关部门提出建议,以“数元”取代“词元”。

王建平教授认为,“词元”的译文是在2017年的自然语言处理阶段,“词元”侧重于“词”与“语言”,仅适用于纯文本场景。在多模态大模型中,图像被切割为图像块,音频被切分为时间片段,这些物理形态绝非“词”。强行称其为“词元”存在语义悖论,用户难以理解为何一张图片由无数个“词”组成。更关键的是,当前人工智能已深刻融入生物蛋白设计、新材料设计、离散制造等前沿科学与工程领域。在这些场景中,模型处理的基本单元不再是“词”,而是氨基酸残基序列、分子指纹、晶体对称性参数、产品物料清单、工序序列、设备状态向量、工艺参数切片等高度专业化的数据单元。例如,在蛋白质结构预测中,模型将氨基酸残基切分为嵌入单元;在汽车制造智能调度中,模型处理的是工单状态编码、机器人动作代码、在制品位置信息。这些单元绝非“词”,强行称为“词元”将严重限制人工智能在生命科学、材料科学、先进制造等战略方向上的术语规范性与认知统一性。“词元”将AI锁定在语言学范畴,无法适应视频、触觉、嗅觉乃至科学计算与工业数据流等更多模态的未来发展。

“数元”则能实现技术全链条的底层逻辑统一。在通信环节,“数元”的“数”字直接关联“数据”属性,避免语义错位。在采集、标注、处理、存储各环节,无论是文本字符、图像图块、3D点云,还是蛋白质残基向量、设备振动时域片段、PLC指令离散单元,“数元”都能完美涵盖所有模态。在模型处理环节,“数元”精准还原了Token作为“数据单元到向量空间映射”的计算本质——模型内部处理的是数值向量,与“词”的语义无关。

将“Token”统一译为“数元”,对数据产业具有深远的积极意义。当前,我国正大力推进数据要素市场化配置改革,数据被定位为第五大生产要素。然而,数据交易、定价、核算等领域长期缺乏统一的底层计量单元,导致不同类型数据(文本、图像、视频、工业数据等)难以在同一框架下进行价值比较与交换。“数元”作为人工智能处理数据的最小单元,天然具备“价值计量”属性——一篇1000字的文本对应约1500个数元,一张1024×768的图像对应约4000个数元,一段10秒的音频对应约500个数元,一组设备振动时序数据可量化为若干个数元。同时,“数元”(计算量的基本单位)与“字节”(存储传输)、“千瓦时”(能源)共同构成数字经济的完整度量衡体系,分别对应计算(算力)、存储、传输、能源四个核心环节,为企业数字化成本核算、政府数字产业统计、数据资产入表等提供统一的核算口径,有力支撑数据要素市场的规范化、标准化发展。

从应用场景对比来看:“该模型将图像切分为196个词元”语义违和,而“196个数元”则准确中性;“视频生成消耗5000个词元”会让用户困惑,而“5000个数元”则清晰直观;“该蛋白质模型将序列切分为512个词元”让生物学家费解,而“512个数元”则无需额外解释;“智能工厂调度模型每天处理10万个词元”让工程师困惑,而“10万个数元”则准确传达数据单元本质;“词元是AI理解世界的基本单位”局限于语言,“数元是AI理解世界的基本单位”则涵盖万物。

综上,“词元”是对过去自然语言处理时代的总结,“数元”是对未来通用人工智能时代的预言。术语的命名不仅是语言学问题,更是技术路线图和产业认知的锚点。建议相关部门与标准组织重新审视“Token”的中文定名,以“数元”取代“词元”,为中国人工智能产业的标准化、数据要素市场的规范化以及数字经济的健康发展奠定更坚实的基石。


图片


图片




查看附件内容:

“Token”定名再议:从“词元”到“数元”.docx


图片


企业简介

宁波优策信息技术有限公司是一家专注于数据治理算法架构研究、生成式AI智能体开发的高新技术企业,公司构建了“数据原生 + 云原生 + AI原生”三位一体的技术底座,是国内领先的全栈式数智服务商。

公司自主研发复杂文本数据治理原创算法,融合自研垂直智能体,实现数据100%自动化治理,构建了国内领先的海量数据底座,涵盖公共政策、产业政策、行业资讯、全球产业人才及国内全量企业等核心数据。

依托云原生架构与零代码模式,公司支持用户自定义标签体系,支持云端治理,为用户提供数据集、API接口、数据平台、问答系统及AI智能体等一站式定制服务。

公司业务已覆盖北京、浙江、上海、四川、广东、山东、江苏等多地,服务于政府、协会联盟商会学会、高校、产业园区、智库、模型企业和公共服务平台等客户。


创始人简介

王建平,教授/研究员,系统工程/国际工商管理双博士,应用经济学博士后,宁波优策信息技术有限公司首席科学家、中国软件区域数字经济实验室执行主任,曾任工业和信息化部软件与集成电路促进中心总工程师、中国电子信息产业发展研究院信息产业所所长等职,科技部、工信部、北京、河南、福建、宁波市等部委省市专家,深圳大学、北京工业大学、中北大学、宁波工程学院等高校兼职、特聘教授。

王建平博士主持了工信部、科技部、发改委、欧盟等课题150余项,发表论文100余篇,出版《软件产业理论与实践》、《信息技术产业理论和实践》专著,主编了《中国云计算技术体系和产业体系研究与实践》、《中国软件黄金十年》、《中国集成电路黄金十年》等书籍,主持撰写了国家电子信息、集成电路产业、软件产业领域的重大决策支撑报告。


转载来源:优策产业大数据平台