
截止2024年,我国已发布的人工智能大模型数量超过200个,其中,通用大模型约为40个,垂直领域大模型数量约为145个。随之而来的,2024年国内大模型招投标市场呈现出快速增长的趋势,公开可统计的中标项目达到1520个,披露的中标金额高达64.67亿元,相比2023年分别增长了15.5倍、7.2倍,主要集中在通信、金融、能源、政务、教育等领域。
中标的企业中,科大讯飞中标91个项目、百度中标69个项目、智谱中标32个项目、火山引擎中标24个项目、阿里云中标20个项目、腾讯云中标19个项目。
随着大模型技术的进一步成熟和应用场景的不断拓展,2025年大模型招投标市场预计将继续保持快速增长。头部企业凭借技术和市场优势有望进一步巩固地位,而新兴独角兽企业也可能在特定领域发力,推动市场竞争加剧。
在国内市场竞争加剧的情况下,大模型企业出海也许是一个破解国内内卷市场的一条出路。但是,在谈大模型企业出海之前,首先要了解我们大模型企业都有哪几类?哪种类别的大模型企业适合出海?
结合我国大模型企业的发展现状,
在这里我把大模型企业分别二类:
“半自研型” 大模型企业,是指大模型训练和推理,都是在国外基础创新技术架构(例如:Transformer架构、TTT架构、SSLM架构、混合专家MoE架构)的基础上,进行大模型训练和推理。例如:阿里的“通义千问”、百度的“文心一言”、科大讯飞的“星火大模型”、华为的“盘古大模型”、”杭州深度求索的“DeepSeek-V3”等,都是在“Transformer架构”下进行大模型训练和推理。但“半自研型” 大模型企业,往往在“训练数据处理”、“模型训练算法”、“模型训练框架”等一个或多个方面,是有很多技术创新的。
对于“半自研型” 大模型企业而言,在“训练数据处理”、“模型训练算法”、“模型训练框架”上的创新,也可以训练出比肩、甚至赶超美国AI巨头OpenAI的顶级模型GPT-4o。例如:杭州深度求索公司发布的混合专家语言模型“DeepSeek-V3”,在数据处理、模型训练方法、模型训练框架等方面,进行了一系列的技术创新,使得训练出的模型在大幅度降低算力成本的同时,性能上直接赶超美国AI巨头OpenAI投入超百倍的顶级模型GPT-4o。
“外包型” 大模型企业,对于这类大模型企业而言,往往是基于业界“开源大模型”,进行训练或微调,训练而成的“大模型”。
对于“外包型” 大模型企业而言,基于业界“开源通用大模型”(例如:Llama;通义千问)训练的“大模型”,在有垂直领域客户(例如:金融、教育、医疗、制造业等)需要落地大模型时,会结合客户的数据,以及自己基于业界“开源大模型”训练的“大模型”,帮客户训练自己的大模型,例如:金融反欺诈大模型、学生个性化教育大模型、疾病诊断大模型、设备维护大模型等。
基于上面的介绍,若大模型企业出海, “半自研型” 大模型企业往往更有优势,而“外包型” 大模型企业,都是基于开源大模型,所以技术竞争力上相对处于弱势地位。
下面我们重点针对
“半自研型”大模型企业出海时,
聊聊可能会遇到哪些专利风险?
由于“半自研型” 大模型企业,是在国外底层技术架构(例如:Transformer架构、TTT架构、SSLM架构、混合专家MoE架构)的基础上,进行大模型训练和推理。所以,很多底层技术架构专利,“半自研型” 大模型企业很难绕开,例如:谷歌对Transformer架构相关的专利布局颇为全面,全球范围内公开的同族专利达74项,其中多项已在各国获得授权。
这些底层技术架构下的基础专利,将成为“半自研型” 大模型企业出海的拦路虎。
一些常用的模型训练方法,例如:模型蒸馏、掩码重建、对比学习等,这些模型训练方法一般较为基础,海外权利人也有很多类似专利布局,也有可能成为“半自研型” 大模型企业出海的拦路虎。
模型训练&推理过程中的硬件通信机制,例如:模型训练&推理过程中的GPU之间的互联、高速传输;模型训练&推理过程中CPU与GPU之间的通信管理机制等等。这些通信方式,海外权利人都有完善的专利布局,也是会成为“半自研型” 大模型企业出海的拦路虎。
例如:2024年9月13日,一家名为Neural AI, LLC的初创公司向美国德克萨斯州西区地方法院起诉了英伟达公司(Nvidia)侵犯其三项GPU的基础专利。原告Neural AI发明了利用CPU和GPU独特优势的技术,使它们在硬件加速计算中高效互动,本案涉及的三项美国专利是US8,648,867、USRE49,461、USRE48,438,这三件专利属于同一个专利家族,享有最早2006年的优先权,发明名称是“基于图形处理器的加速器系统和方法”。
以上介绍了
“半自研型” 大模型企业出海
可能遇到的专利风险,
那么如何破局呢?
可以从以下角度考虑:
最简单的破局思路是我国大模型企业自己搞出一套区别于现有底层技术架构(例如:Transformer架构、TTT架构、SSLM架构、混合专家MoE架构)的新的基础架构。当然,最简单的破局思路,往往也是最难做到的,毕竟研发一个神经网络模型基础架构,是由多种因素决定的,也是短期内很难实现的。
那么,如何应对“底层技术架构”专利所带来的威胁呢?这就要求,我国的大模型企业一方面要强化基础技术的研究,在已有的“底层技术架构”上做更多的技术创新和改进并布局专利,另一方面,也需要在多种应用场景的创新方案上布局大量的专利,以期为未来交叉许可创造有利条件。
同时,针对“底层技术架构”专利的威胁,也要提前积极准备无效证据,这样不仅在诉讼发生时可以从容应对,也为未来和解谈判提供必要的筹码。
一些常用的模型训练方法,例如:模型蒸馏、模型微调、对比学习等,一般较为基础,海外权利人也有很多类似专利布局,但是这类专利的侵权发现难度非常大,所以大模型公司尽量在公司对外公开的技术文件、宣传信息中减少相关技术方案的描述,不要自投罗网。
当然,若想从根本上解决“模型训练方法”专利风险,就需要研发一套新的模型训练方法;在研发难度非常大的情况下,可以针对现有的一些模型训练方法,做一些改进,并进行一些专利布局,这样即使有了专利纠纷,也可以增加谈判筹码。
针对“模型训练&推理过程中的硬件通信机制”类的专利,例如:模型训练&推理过程中的GPU之间的互联、高速传输;模型训练&推理过程中CPU与GPU之间的通信管理机制等等。这类专利,往往比较通用,且侵权可视度比较高,若有厂商使用,则较容易发现侵权。
大模型企业在帮助客户部署大模型时,底层的硬件(例如:GPU)若是外部采购的话,则需要与供应商签署专利风险担保协议或条款,一旦出现有厂商主张专利侵权(例如:模型训练&推理过程中的GPU之间的互联、高速传输),则可以主张由供应商承担赔偿责任。
大模型企业在帮助客户部署大模型时,底层的硬件(例如:GPU)若是自己生产的,则大模型公司在布局自身技术创新的同时,还需要围绕风险专利,多布局一些外围专利,为未来的纠纷谈判增加筹码;同时,还需要提前准备好无效证据,在诉讼发生时可以从容应对。