探秘与解析DeepSeek的专利技术与布局
李宓
李海
2025/08/20
本文首发于IAM,如需转载,请联系我们。
2025年,中国人工智能初创公司深度求索(DeepSeek),如同一匹低调的黑马,在人们尚未留意时悄然崛起,凭借一系列人工智能技术创新成果惊艳四方。
1月20日,DeepSeek发布新一代大语言模型R1,通过强化学习技术显著提升了推理能力,AIME 2024数学基准测试准确率达79.8%,在Codeforces评测中得分2029分,超越96.3%人类选手(信息来源于DeepSeek官方发布: https://arxiv.org/pdf/2501.12948v1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948v1 [cs.CL] 22 Jan. 2025))。
其关联的V3模型(2024年12月发布)以558万美元的低成本实现与GPT-4o相近的性能(信息来源于DeepSeek官方发布: DeepSeek-V3 Technical Report, arXiv:2412.19437, [cs.CL], 27 Dec. 2024)。
DeepSeek在人工智能领域中的技术突破引发全球关注。在技术和商业成功的背后,DeepSeek的专利布局逻辑、现状和未来走向究竟如何?
本文作者对DeepSeek及其关联公司目前已公开的全部19项专利进行了搜索,并对其专利技术演进和申请策略进行了分析,试图梳理出其专利布局走向,深度解读该公司的专利布局战略。
笔者发现,DeepSeek的专利布局呈现出五大特点,并在本文中将逐一阐释:
-
专利技术非常聚焦
-
专利技术布局路线清晰
-
专利申请立足中国
-
专利所有权安排较分散
-
专利技术与开源技术存在差距
一、专利技术非常聚焦:集群训练为核心,早期金融数据处理为辅
基于笔者对其专利的技术分析,如下图所示,DeepSeek专利申请呈现显著的技术聚焦特征,主要分布于三个技术分支,即,集群训练、金融科技应用和人工智能模型。其中,集群训练技术的研发贯穿了公司的整个发展过程;2019年,金融科技应用的开发初见雏形;而人工智能模型专利则在最近一年取得了新的进展。
图1:DeepSeek专利技术发展概览
(信息来源: 笔者在商业专利检索数据库中,自行检索截止于2025年2月28日的检索结果。以下专利数据,皆来自于截止于该日期前笔者自行检索的结果。)
进一步查看DeepSeek专利技术分支的二级分支。下图展示DeepSeek专利布局技术点的进一步细节。
图2:DeepSeek专利技术在专利技术分支上的布局
1.1 集群训练技术的全链条布局(79%专利占比)
DeepSeek在集群训练领域布局了多项核心技术,覆盖资源分配、任务调度及通信优化等相互支撑的多个方面。
-
资源分配优化:专利CN114780203A提出“预设席位机制”,将调度模块与容器创建部署模块解耦,通过强制删除中断挂起的任务来提升调度效率,解决GPU资源浪费问题。
-
任务调度创新:专利CN112925640B基于历史报错率构建节点运行状态分数,动态排序并优先分配高优先级节点,结合锁定机制实现集群资源自适应调配,降低故障率并提升资源利用率。
-
集群通信提升:专利CN118503194A通过主/辅助GPU协同切片,结合NVLink和动态拥塞控制实现多网卡RDMA并行传输,提升集群网络带宽利用率及吞吐性能。
1.2 金融场景的早期技术延伸(16%专利占比)
DeepSeek早期专利包括三件金融系统领域专利申请。金融领域的高数据敏感性为技术验证提供了“压力测试场”,同时为未来向其他强监管领域拓展提供基础。
金融系统方面的部分代表专利包括:
-
证券数据压缩:专利CN109787638B基于差值替换算法分离符号位,结合动态三档存储分配机制实现混合交易数据无损压缩,提升金融数据存储效率及传输实时性。
DeepSeek公司目前的专利布局专注于集群训练底层技术,似乎与其“极客文化”气质相符。
1.3 人工智能模型 (5%专利占比)
在2024年,DeepSeek提出了首件与AI模型训练集构建相关的专利申请,标志着其专利布局从底层技术向全方位布局迈进了一步。
-
AI模型训练集构建优化:专利CN118246542A基于数据序列索引化机制,通过异步IO批量读取和虚拟混合比例调整,实现大语言模型数据集高效构建,降低存储及计算资源消耗。
二、专利技术布局路线清晰:从基础设施到技术深化的演进
下图显示了DeepSeek专利技术主题演进的时间线。总体上,DeepSeek的专利布局呈现出从基础设施夯实到技术深化与场景扩展的清晰演进路径。这一过程与模型迭代、工程优化及行业应用紧密关联。
表1:DeepSeek专利分支技术发展进程
2.1 第一阶段(2018 – 2023年):基础设施构建
2018–2023年是全球大语言模型技术突破与规模化应用的关键阶段。这一阶段以变换器(transformer)架构为基础,开启了预训练模型的爆发期。同时开源生态快速成长,行业应用渗透至金融、医疗等领域。DeepSeek通过软件层优化突破算力瓶颈,在同等算力条件下将训练效率提升2.7倍,开拓出低成本技术路线。
在这一阶段,DeepSeek着力集群训练技术,以非常清晰的思路开展递进式专利布局,先从资源分配、任务调度等核心技术开始,再扩展至布局异步/输入输出、故障恢复等优化技术,以及虚拟开发环境等外围技术。
该阶段的部分代表专利包括:
-
弹性资源分配优化(核心技术):DeepSeek的首件专利CN109165093B基于历史任务聚类预测及动态阈值预警机制,实现云计算节点按需弹性扩缩容,提升GPU资源利用率与任务响应效率。
-
异步/输入输出(优化技术):专利CN117707416A提出固定块批量读取机制,整合存储标记并采用多线程异步IO,实现内存统一管理及RDMA传输,提升分布式存储读取效率及带宽利用率。
-
虚拟环境扩展优化(外围技术):专利CN115061725B提出层级递归安装扩展包,通过专用通道数据表实现组内共享开发环境,并容器同步至训练集群,解决资源浪费和协同效率问题。
2.2 第二阶段(2024年起):技术深化与拓展
在此阶段,DeepSeek技术深化与开源策略形成协同效应,提出与GPU集群网络RDMA通信优化相关的系列专利申请,并如上文所述提出了首件与AI模型训练集构建相关的专利申请。
该阶段的部分代表专利包括:
-
多GPU通信优化:专利CN117707416A提出基于分片的在途流控技术,通过动态调整报文切片大小、多GPU按比例轮询发送及在途切片数量控制,解决多GPU竞争RDMA网卡导致的网络拥塞和负载不均问题,提升带宽利用率。
三、专利申请立足中国:有待国际化
DeepSeek的现有专利申请从申请地域和撰写方式来看都具有中国本土化的特点。
3.1 申请地域
目前DeepSeek的专利仅在中国境内,并未提交PCT国际申请或海外国家申请。这种策略虽然能降低前期法律成本,但在全球竞争以及AI技术全球的快速推广和应用背景下,专利布局可能需要随着企业的发展而进行地域性的扩展和调整。
3.2 提前公开
DeepSeek大部分专利申请采用“提前公开”模式,在申请后6个月内就公开,近期的专利申请公开甚至只用了2个月。这种提前公开的专利申请策略,有利于加快专利审查和快速授权,但也可能向竞争对手过早暴露出近期正在进行中的研发项目或研发方向。
3.3 撰写方式
部分权利要求的撰写方式更加符合中国的专利审查要求,比如在专利申请CN117669701A 中,通过虚拟模块来限定软件系统架构。如果进军海外,需要考虑到目标国家的专利审查规则以及兼容撰写方式,以期提高授权机会和获得更好的专利保护。
四、复杂的公司股权架构以及多重专利权属安排
笔者对DeepSeek的股权架构以及专利所有权安排进行了梳理。
如下面的股权穿透图所示,DeepSeek的股权架构具有多实体、多层级、分散化的特点。这样的股权安排有利于实现穿透式控制权集中,保持对公司的主导权。在下图中,用紫色背景标注出了DeepSeek实体中作为专利申请人的实体。
图3:DeepSeek公司股权架构分析
(信息来源: 笔者在商业数据库中,自行检索截止于 2025年2月28日的结果)
从专利所有权安排的角度看,笔者注意到,自2022年中后期起,DeepSeek的专利申请呈现多法人实体共同申请以便共同拥有专利的模式。下图列出了DeepSeek在19件已公开专利中作为专利申请人出现的6家实体及其作为专利申请人出现的次数统计。
图4:DeepSeek专利权属分析
可以看到,DeepSeek股权控制图中处于受控地位的三个实体,即,杭州幻方人工智能基础研究有限公司,杭州幻方科技有限公司,以及宁波积幂信息科技有限公司,是主要的专利申请人和所有人。
从专利管理角度来看,多重共同申请人也非常可能增加专利管理、运营和维权的法律成本。在涉及专利权属转移或其他重大事项上,部分关键程序需要所有权利人的一致签字同意,与创始人控股的决策效率可能形成结构性矛盾。
五、平衡专利技术保护与开源技术发展
DeepSeek采用“专利护城河+开源生态”双轨战略,依托核心算法与架构专利构建技术壁垒,同时开源核心模型架构、训练推理工具链、多模态中间件及开发者套件,吸引开发者共建生态,形成技术标准化与商业变现的协同效应,加速人工智能行业渗透。
我们也研读了DeepSeek公开发表的论文。其中,在论文中,DeepSeek的核心技术聚焦于高效架构与训练优化,采用了细粒度专家划分的DeepSeek-MoE架构,结合多头隐式注意力(MLA),以及通过FP8混合精度与DualPipe流水线实现低成本训练等技术手段,支撑模型在推理任务中达到顶尖闭源水平。这些在论文中公开的部分关键技术,DeepSeek似乎并没有对应的专利申请,尤其是没有对MoE架构改进等与人工智能模型相关的技术进行专利布局。
从专利保护策略来看,人工智能大语言模型相关的技术改进并非完全是专利禁区。如果能根据目标国家的专利审查规则,解决适格性和创造性挑战,仍然有机会获得专利技术排他权,增强自身的技术竞争力和市场控制力。
与之对应作为参考,谷歌公司的专利申请CN115699041A提出了一种基于专家混合(MoE)的迁移学习框架,通过预训练多领域专家模型、动态性能评估及适配器微调,解决传统迁移计算冗余问题,提升跨任务泛化效率,适配低数据场景的视觉任务需求。虽然谷歌公司在中国并没有人工智能大语言模型的C端商业布局,但该专利在中美都进行了布局,可见其对中国市场和技术竞争的重视。
图5:谷歌在中国递交的人工智能相关的MoE专利申请案例
(CN115699041A附图)
从以上分析可以看到,DeepSeek通过架构创新和专利申请,已初步形成在人工智能领域的技术壁垒。未来通过进一步的深入布局,DeepSeek有望形成高弹性专利资产池,增强技术博弈中的交叉许可议价能力,为参与全球竞争构建战略支撑体系。
随着人工智能技术逐步纳入各国国家安全审查范围,专利布局已超越企业商业策略范畴,成为影响技术主权竞争的关键要素。DeepSeek的专利战略升级,不仅关乎企业自身发展,更对中国参与全球人工智能治理体系构建具有示范意义。