爱风尚w

2025-06-03

DeepSeek还对DeepSeek-R1-0528进行了蒸馏，通过蒸馏该模型的思维链后训练Qwen3-8B Base，得到了DeepSeek-R1-0528-Qwen3-8B，且仍具备比较强大的推理能力。

比如，该模型在数学测试AIME 2024中的表现仅次于DeepSeek-R1-0528，阿里超过的Qwen3-8B和Qwen3-32B，以及微软的Phi-4-14B等模型，与参数更大的Qwen3-235B相当。

“我们相信，DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。”DeepSeek表示。

目前，该模型目前已在魔搭社区和HuggingFace开源，沿用宽松的MIT License 许可，DeepSeek-R1系列（包括Base和Chat）都支持商业使用和蒸馏。

“这是开源的又一次巨大胜利”，“开源的另一个里程碑”，有开发者评论到。

定位“高端”屡遭质疑，曾售749元的香水现在不到百元

阅读16556

在知网，连DeepSeek的论文也难幸免

阅读18373

电影《新·驯龙高手》将于6月13日正式上映

阅读10601

聊聊权志龙的最新近况！

阅读15770

第四次全国农业普查，即将展开

阅读13850