人工智能时代,开源意味着什么?

自2月24日至3月1日,DeepSeek启动了“开源周”,连续开源了FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies(DualPipe & EPLB)、3FS和Smallpond、DeepSeek-V3/R1推理系统这几大核心技术项目【1】,公开了模型架构、参数及部分训练框架等,旨在通过透明化分享技术成果推动AI行业发展。

尽管部分核心技术(如训练数据细节)仍保密,但DeepSeek的“开源周”无疑是一次对开源AI的积极探索。实际上,在人工智能时代,对于什么才是真正的开源AI这一问题也一直引发了广泛的讨论。

一、开源的初衷与演变

开源(Open Source)最初源于技术共享的理想——开发者公开源代码,允许任何人基于此修改和二次开发。在计算机软件发展的早期阶段,源代码通常是封闭的。普通用户只能使用软件成品,而无法接触或修改代码。这种“闭源”模式长期限制了技术创新的效率。随着“开源”理念的兴起,技术开发逐渐转向开放、共享与协作,这种模式大幅降低了创新门槛,加速了技术进步。例如,安卓系统基于开源的Linux内核构建,而Linux本身正是开源的典范。

然而,随着开源的普及,部分企业开始将其视为营销工具或商业策略,导致“开源”的定义逐渐模糊。美国非营利组织开放源代码促进会(“OSI”)曾指出,当前科技巨头对于“开源”一词的使用已变得毫无意义,许多公司发布的所谓“开源”产品实际上存在诸多限制,无法真正体现开源的核心精神。

二、“伪开源”陷阱:开放清洗(Openwashing)

一些企业将不完全开放的技术包装成“开源”产品,这种现象被称为“开放清洗(Openwashing)”。例如,Meta发布的Llama 3大语言模型号称任何人都可以自由使用和修改,但其条款规定:禁止将该模型应用于月活跃用户超过7亿的产品。这种限制显然与开源的“自由共享”原则相悖。类似案例在大模型领域屡见不鲜,企业通过“伪开源”吸引用户或提升品牌形象,却未真正践行开放承诺。
三、AI开源与传统软件开源的差异

与传统软件相比,AI开源面临更为复杂的挑战。传统软件的开源通常仅涉及代码共享,且主要集中在功能性改进和错误修复层面。而AI开源需涵盖代码、训练数据、模型架构、参数配置等多个维度。此外,AI技术的潜在风险也让开源面临伦理与安全争议——例如恶意用户通过AI模式生成侵犯个人隐私的内容。

更现实的问题是,训练一个顶级AI模型,尤其是能够与OpenAI等领先公司并驾齐驱的系统,所需的资金通常高达数十亿美元,这导致企业不愿完全开放技术。

四、开源AI的定义与未来

“什么样的人工智能才算是开源AI?”这一问题尚未形成全球共识。

OSI自2022年起启动了全球范围的开源AI定义倡议,广泛征求学术界、企业界、法律界以及非营利组织的意见,旨在制定一套标准化的开源AI定义。这一倡议的目标是,推动全球科技界和政策制定者达成共识,从而确保开源AI能够促进技术创新的同时,避免滥用与不负责任的行为。

根据OSI发布的《The Open Source AI Definition – 1.0》,开源AI应具备以下四项自由:

• 使用自由:用户可以出于任何目的使用该系统,无需获得额外许可。

• 研究自由:用户可以研究系统的工作原理并检查其组件。

• 修改自由:用户可以根据需要修改系统,包括更改其输出。

• 共享自由:用户可以出于任何目的将系统分享给他人使用,无论是否修改。

OSI对开源AI的定义也受到了业界的质疑,部分人士认为OSI降低了开源的标准。当前,该定义尚处于讨论阶段,但业界普遍认同:AI大模型的开源与传统软件开源在本质上存在显著差异,无论是从技术发展的推动力还是实际操作的可行性角度来看,开源AI的标准可能会比传统开源软件更加灵活,以应对AI技术的复杂性和潜在风险。

五、结语

人工智能时代,开源不仅是技术共享的工具,更是推动创新、保障伦理与安全的关键。真正的开源AI需坚持开放、透明与可持续性,才能延续其创新本质,成为推动全球科技进步的动力。唯有全球协作,才能让开源成为驱动技术普惠与社会进步的核心力量。

【1】DeepSeek在2月24日至28日举办的“开源周”活动中,原计划连续五天共开放五个项目。值得一提的是,DeepSeek在第六天(3月1日)还以彩蛋形式额外发布了“DeepSeek-V3/R1推理系统”。

 

作者:

高级合伙人 沈建人律师