AI Agent
技术创新及专利布局策略
引曰君话专利
2025年将是“AI Agent”的元年,各种“AI Agent”的商业化进程会进一步加速,在这种情况下,我们需要对 “AI Agent”概念、“AI Agent”所拥有的涌现“创造力”、“AI Agent”应用场景、以及“AI Agent”未来发展趋势有个了解。同时,我们也需要对基于“AI Agent”的技术创新应用的专利布局工作,有一个清晰的策略,以便为公司未来商业竞争提供强有力的支持。

创业公司Monica正式对外发布通用型AI Agent产品Manus之后,各种自媒体对这款“AI Agent”产品Manus进行各种宣传,一时间热度持续攀升。至于这款产品的技术创新程度,我们暂且不去评论,像以往处理的方式一样,让子弹多飞一会儿。但这次Manus发布,至少让更多人对“AI Agent(人工智能代理)”有了更多的了解。
简而言之,“AI Agent” 就是一种能够感知环境、自主决策并执行任务以实现特定目标的智能系统。它结合了人工智能技术(如机器学习、自然语言处理等),能够根据输入数据动态调整行为,全程无需人工干预。
Open AI曾设计出一个关于“AI Agent”的图,如图1所示:
图1☝
简而言之,“AI Agent”=大模型+记忆+工具使用(包括:软件、硬件等)。
在图1中,“短期记忆”可以是提示工程(例如:提示词);“长期记忆”可以是由外部数据库单独保存;“规划(反射、自我反思、思维链、子目标拆解)”可以由大模型执行;“工具”调用,可以由大模型通过调用对应的API接口执行。
例如:具体的业务工作流可以是:
向大模型发送提示词和/图片;
大模型/大模型结合长期记忆,进行任务分解;
大模型通过调用合适的工具,并付诸一个行动,然后在整个行动中,还会对错误进行反思和纠正,最终完成任务。
“AI Agent”是单纯的利用大模型现有能力(简单的“套壳”),及调用现有的工具这么简单么?还是“AI Agent(人工智能代理)”在执行任务的过程中,会涌现出一些“创造力”?
针对上面的问题,我们可以看下面一个具体的例子。
这是创业公司Monica的研发团队在GAIA 测试集上做一个题目的过程中发生的真实一幕。这个题目是:在一个类似国家地理风格的 Youtube 视频链接里,各种企鹅们来来回回走出又进来画面,让 Manus 数一帧画面里面同时出现最多种企鹅时,是有几种?
这个时候,就出现了另外惊奇的一幕:
“Manus打开视频链接后,第一个动作竟是Press「K」”,最后得出最多的一帧画面有 3 种企鹅。估计很多人都不清楚「K」代表的是啥意思?其实,“「K」”是暂停键,这样可以让Manus 暂停后挨个截图记录哪一帧出现了哪种企鹅。
Manus接下来对得出的结果开始进行检查,“它的下一个动作是Press「3」……”。估计很多人也不清楚“「3」”代表的是啥意思?其实,“「3」”是一个快捷键,从 0 到 9 分别代表进度条的 0% 到 90%,3 是进度条的 30%,可以精确定位到那个视频的那一秒钟,然后告诉人类这个画面有几种企鹅。
最后检查后给出答案就是 3。
从以上任务执行过程来看,「总有惊喜发生」,例如:“Manus打开视频链接后,第一个动作竟是Press「K」”、“它的下一个动作是Press「3」……”。这个过程跟传统意义上的聊天机器人不一样:它看的是YouTube 的画面,而不是看字幕;同时,它还用一系列的快捷键,这是非常令人震惊的。
由此可知,“AI Agent”不仅仅是单纯的利用大模型现有能力(简单的“套壳”),及调用现有的工具那么简单,还会在工具使用过程中,了解所有途径和手段,然后选择最优的方法。这说明“AI Agent(人工智能代理)”在执行任务的过程中,会涌现出一些“创造力”。这些创造力的涌现,是在“数据足够优质”、“模型足够智能”、“架构足够灵活”、“工程足够扎实”的情况下,Computer Use、Deep Research、Coding Agent 等概念就从产品特性变为了自然涌现的创造力。
基于“AI Agent”=大模型+记忆+工具使用(包括:软件、硬件等),通过整合现有大模型,可以把聊天、搜索、阅读、写作、翻译等功能整合在一起,通过一个个接 API 的方式集成了很多任务执行的场景。
例如:“AI Agent”应用的场景包括但不限于:金融&投资领域生成可视化分析报告;医疗健康领域提供辅助决策建议;企业服务领域的简历筛选分析;供应链优化管理;教育领域的辅助教学;电商&零售领域的运营数据分析;旅行与生活服务领域的旅行规划;技术开发与创新领域的代码编写、测试、部署。
基于大模型迭代速度越来越快且越来越聪明,消耗的算力不断地降低(例如:DeepSeek的出现,使得算力消耗进一步降低), “AI Agent”未来会逐步在“多代理协作”、“人格化交互”、“边缘计算集成”等方面得到广泛的应用。
所谓的“多代理协作”,是指:多个“AI Agent”协同完成复杂任务,例如:物流车队调度;“人格化交互”,是指:赋予“AI Agent”情感识别与表达能力,例如:心理辅导助手;“边缘计算集成”,是指:在本地设备(如手机、IOT设备)直接运行“AI Agent”,减少延迟。
以上我们介绍了:“AI Agent”概念、“AI Agent”所拥有的涌现“创造力”、“AI Agent”应用场景,以及,“AI Agent”未来发展趋势,那么,基于“AI Agent”的技术创新应用,如何做好这方面的专利布局工作,为未来的公司商业竞争提供支持,就成为了目前亟需解决的问题。
关于“AI Agent”的专利布局,有以下几点建议值得我们关注:
基于“AI Agent”=大模型+记忆+工具使用(包括:软件、硬件等),所以“AI Agent”离不开应用场景。那么,“AI Agent”结合具体的应用场景,“AI Agent”执行任务的过程中,往往会结合知识库(长期记忆),及调用外部工具,在这个过程中,会有涉及一些创新点,例如:知识库的知识切片组织、业务处理流程优化/重塑(这里也包括:在任务执行过程中,某些业务流程环节中,“AI Agent”所涌现出的创造力)。
例如:作为智能汽车车主的一个AI助手(“AI Agent”),在面对车主关于车辆维修保养方面的问题时,首选调用“车辆维修保养知识库”(例如:该知识库采用特有的知识片段组织形式)进行回答,并基于问答结果/筛选后的问答结果,再进一步查询大模型或大模型+外部API接口调用(例如:4S店维修保养记录),并最终输出结果给车主。当然,输出的结果,还有可能以“仿真模拟”(涌现的创造力)的形式展示车辆零部件的未来一段时间有可能出现的各种问题。
有些任务,需要多个“AI Agent”之间进行协作才能完成,例如:物流车队调度,在任务执行过程中,每辆车可以是一个“AI Agent”,那么,车队中多辆车在行进的过程中,不仅每辆车要不断与外部环境(例如:道路环境、天气环境)进行交互,而且,每辆车之间也要进行交互、相互协作。
在上述交互、协作的过程中所做的技术创新,也是需要以专利的形式进行保护。
我们对“AI Agent”有了深刻认识(“AI Agent”概念;“AI Agent”所拥有的涌现“创造力”;“AI Agent”应用场景;“AI Agent”未来发展趋势),并对“AI Agent”的技术创新应用的专利布局工作有了清晰的策略(围绕“AI Agent”+应用场景的专利布局;多“AI Agent”之间业务协作技术创新的专利布局;“AI Agent”嵌入硬件中所衍生的各种业务创新的专利布局),这为公司未来商业竞争提供很大的支持。