【产业资讯】阿里开源两款4B小模型:手机电脑都能用,比GPT-4.1-nano还强
来源:
|
作者:AI 生
|
发布时间: 2025-08-09
|
80 次浏览
|
分享到:
8月8日,阿里通义千问宣布推出更小尺寸的新一代大模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,已在魔搭社区(ModelScope)与HuggingFace正式开源。两款新模型聚焦高效部署与推理能力提升,标志着通义千问在轻量化、端侧AI方向迈出关键一步。
其中,Qwen3-4B-Instruct-2507在通用任务表现上全面超越闭源的小模型GPT-4.1-nano,性能接近中等规模的Qwen3-30B-A3B(non-thinking)版本。该模型在多语言长尾知识覆盖、主观开放性任务理解等方面显著优化,增强人类偏好对齐能力,输出更符合用户预期。同时支持高达256K tokens的上下文长度,使小模型也能处理长文档、复杂指令和跨段落信息整合。
另一款推理强化型模型Qwen3-4B-Thinking-2507则在逻辑推理与数学能力上实现突破。在AIME25数学测评中,以仅40亿参数量取得81.3分的高分,推理表现媲美Qwen3-30B-Thinking等中等规模模型。更值得关注的是,其在Agent相关评测中表现“爆表”,多项指标反超更大模型,展现出卓越的任务规划与自主决策潜力。同样支持256K上下文,适用于复杂文档分析、长文本生成与深度推理场景。