AI智能体(一):探索AI智能体的设计原理与现实应用

2025年是AI智能体元年。本系列文章旨在介绍AI智能体的概念、类型、原理、架构、开发等,为进一步了解AI智能体提供入门知识。本文为系列文章的第一篇,文章来自编译。

大语言模型(LLM)的出现让人工智能有了巨大飞跃。这些强大系统革新了自然语言处理,但其真正潜力在于与“智能体能力”(自主推理、规划和行动)的结合。这正是LLM智能体的用武之地,标志着我们与AI交互以及利用AI的方式出现了范式转变。

AI智能体(一):探索AI智能体的设计原理与现实应用

AI智能体技术栈

本文旨在全面解析AI智能体,探讨其特性、组成与类型,并分析其发展历程、挑战及未来方向。

我们先了解从LLM到AI智能体的演进之路。

1. 从LLM到AI智能体

LLM应用形态的演变是现代应用的最快发展之一。

AI智能体(一):探索AI智能体的设计原理与现实应用

1.1 从传统聊天机器人到LLM驱动的聊天机器人

聊天机器人并非新事物,在生成式AI(gen AI)概念出现前,你可能已经跟网上的聊天机器人互动过了。

前生成式AI时代的传统聊天机器人与当今AI驱动的对话智能体有本质区别,那种机器人一般是这样子的:

基于规则的响应:

  • 传统聊天机器人依赖基于规则的逻辑(“if-then”语句)。

  • 仅能处理预定义规则,无法应对复杂或模糊的查询。

固定回复:

  • 回复为静态且预先设定的。

  • 通过检测特定关键词或短语触发。

  • 缺乏灵活性和对话深度。

人工接管:

  • 搞不定的查询会提供一个“转人工”按钮。

  • 复杂问题仍需人工干预。

AI智能体(一):探索AI智能体的设计原理与现实应用

1.2 LLM驱动的聊天机器人的诞生

ChatGPT的发布:2022年11月30日,OpenAI推出基于GPT-3.5的ChatGPT,成为首个主流LLM应用。

ChatGPT沿用了传统的聊天界面,但背后是经海量互联网语料训练而成的先进LLM技术。

Transformer架构:GPT(Generative Pre-trained Transformer)的基础是谷歌2017年提出的Transformer架构。

其通过自注意力机制分析输入序列,深入理解上下文。

LLM的能力:与传统聊天机器人不同,LLM能生成类人的、上下文相关且新颖的文本。

用例包括代码生成、内容创作、客户服务增强等。

局限性:

  • 个性化:难以在长对话中保持一致的个性化互动。

  • 幻觉问题:可能会生成事实错误但逻辑通顺的回复,因输出依赖概率而非验证过的知识。

应对措施:

  • 探索检索增强生成(RAG)等技术,让输出基于可靠的外部数据。

  • 这些进展旨在减少错误并提升LLM系统的健壮性。

1.3 从LLM聊天机器人到RAG聊天机器人与AI智能体

RAG聊天机器人:检索增强生成(RAG)将外部数据检索与LLM能力结合,生成准确且情境化的回复。

知识来源:

  • 非参数化知识:从互联网或专有数据库等外部来源检索到的实时数据。

  • 参数化知识:LLM训练中内嵌的知识。

优点:减少幻觉、提供最新信息并确保可验证的回复。

提示工程:通过上下文学习(单样本、少样本)、思维链(CoT)和ReAct(推理+行动)等技术,引导LLM推理与输出生成,提升回复质量。

AI智能体(一):探索AI智能体的设计原理与现实应用

AI智能体:AI智能体由配备了工具、多步规划与推理能力的LLM演进而来。

工具使用:LLM可通过结构化模式(如JSON)分析任务并分配参数,调用编程定义好的函数或API。

环境:AI智能体在迭代执行环境中运行,支持基于反馈的动态决策与持续适配。

智能体系统:由自主智能体组成的计算架构,可整合多系统组件、做出决策并实现目标。

智能体式RAG:

  • 将LLM的推理、工具使用和规划能力与语义信息检索结合。

  • 构建动态系统,可分解任务、执行复杂查询并利用工具解决问题。

AI智能体(一):探索AI智能体的设计原理与现实应用

从LLM聊天机器人到RAG聊天机器人再到AI智能体的转型,标志着向更智能、自适应且集成工具的系统转变,这样的系统能实时解决复杂问题。

2. 什么是AI智能体?

AI智能体是通过传感器感知环境、处理信息,并通过执行器作用于环境以实现特定目标的系统。可将其视为能观察、思考与行动的数字实体,跟人类与环境的互动类似,不同的是以编程化和目标驱动的方式进行。

AI智能体的概念基于理性行为:智能体应采取实现目标可能性最大的行动。这种理性是AI智能体有别于简单的响应程序的核心特征。

AI智能体(一):探索AI智能体的设计原理与现实应用

2.1 AI智能体的特性

AI智能体具备以下关键特性:

  1. 自主性:无需人类干预,独立决策。

  2. 发射性与主动性:响应环境变化并主动采取措施实现目标。

  3. 适应性:通过处理新信息与经验进行学习与进化。

  4. 目标导向:以实现预定义目标或优化结果为方向。

  5. 交互性:与其他智能体或人类沟通协作。

  6. 持续性:持续运行,监控并响应动态环境。

3. AI智能体的核心组件

AI智能体的核心组件包括:

  1. 感知

  2. 推理

  3. 行动

  4. 知识库

  5. 学习

  6. 通信接口

AI智能体(一):探索AI智能体的设计原理与现实应用

3.1 感知(传感器)

传感器令智能体感知环境,包括物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。

3.2 推理(处理器)

智能体的“大脑”,处理传感器信息并决定适当行动。

该组件实现智能体的决策算法并维护必要的内部状态。

AI智能体利用基于规则的系统、专家系统和神经网络等决策机制,做出明智决策并高效执行任务。

3.3 行动(执行器)

智能体影响环境或采取行动的手段。

可能是物理执行器(机械臂、扬声器)或数字执行器(数据库更新、显示输出)。

3.4 知识库

智能体用于决策的信息库,包含预编程知识与学习获得的信息。

3.5 学习

使智能体通过数据与经验学习,随时间提升性能。

利用强化学习、监督学习与无监督学习等技术持续优化智能体表现。

3.6 通信接口

让智能体可以与其他智能体、系统或人类交互。

AI智能体(一):探索AI智能体的设计原理与现实应用

在更大环境下的智能体

下文将详述各组件及智能体的运作方式。

4. AI智能体如何与环境交互

交互周期通常叫做“感知-规划-行动”循环。下面以自动驾驶汽车为例解析各阶段:

4.1 感知阶段

智能体的“感知”阶段可看作:

传感器 → 处理 → 状态更新

  • 智能体通过传感器接收输入

  • 信息被处理与解析

  • 基于新信息更新当前状态

4.2 决策阶段

智能体的“思考”阶段:

当前状态 + 目标 → 评估选项 → 选择最优行动

  • 智能体评估可能的行动

  • 权衡目标与约束

  • 基于可用信息选择最优行动

4.3 行动阶段

智能体的“执行”阶段:

执行行动 → 观察变化 → 启动新循环

  • 通过执行器执行选定行动

  • 环境因此改变

  • 智能体通过传感器观察结果,启动新循环

该循环持续重复,每秒可能执行多次。其强大之处在于:

  1. 适应性:若发生意外,智能体可在下一个感知阶段检测出来并调整行动。

  2. 学习机会:智能体可对比预测结果与实际结果,优化未来决策。

  3. 目标导向行为:每一循环均推动智能体在约束下趋近目标。

为了从编程的角度去理解,以恒温器为例对比三种复杂度:

1.简单程序

 # Simple program
if temperature > desired_temperature:
   turn_on_cooling()

  • 仅遵循固定规则

  • 不考虑后果

  • 无学习或适应

2.响应式程序

# Responsive program
if temperature > desired_temperature:
   if time_of_day == "peak_hours":
       turn_on_cooling_eco_mode()
   else:
       turn_on_cooling_normal()

  • 更复杂的规则

  • 一定情境感知

  • 仍无真正智能

3.AI智能体

class SmartThermostat:

    def perceive(self):

        current_temp = get_temperature()

        time = get_time()

        electricity_price = get_current_price()

        weather_forecast = get_forecast()

        user_preferences = get_preferences()

        return Environment(current_temp, time, electricity_price,

                         weather_forecast, user_preferences)

   

    def think(self, environment):

        possible_actions = [

            NoAction(),

            CoolNormal(),

            CoolEco(),

            PreCool(),

            WaitForOffPeak()

        ]

       

        # Evaluate each action's expected outcome

        best_action = None

        best_utility = float('-inf')

       

        for action in possible_actions:

            predicted_state = predict_future_state(environment, action)

            utility = calculate_utility(predicted_state)

           

            if utility > best_utility:

                best_action = action

                best_utility = utility

               

        return best_action

   

    def act(self, action):

        action.execute()

        monitor_results()

        update_learning_model()

  • 考虑多因素

  • 预测结果

  • 从经验中学习

  • 优化长期目标

  • 平衡竞争性目标

这个循环对所有AI智能体均适用:

  • 聊天机器人感知文本输入,考虑适当的回复并生成文本。

  • 交易机器人感知市场数据,制定策略并执行交易。

  • 扫地机器人感知房间布局与污垢,决定进入清洁模式并执行移动。

5. AI智能体如何运作?

假设你的智能冰箱不仅能在牛奶喝完时补货,还能根据你的浏览记录建议改喝杏仁奶。这算贴心还是有点吓人?你说了算!

这便是AI智能体的缩影。

AI智能体能理解人类语言(要归功于LLM)、对信息进行推理、规划行动,且无需持续的人工输入即可执行任务。

它们解决复杂问题的能力远胜简单自动化工具。

与基础脚本不同,AI智能体集成到软件系统之中,支持与环境的复杂交互。

AI智能体与简单自动化的区别

区别源于两大能力:

  • 工具使用

  • 规划

你或许见过ChatGPT连基础的数学题也会做错,那是因为它只靠训练数据做出响应。

同理,若要求你计算85×65,作为人类,你需直接知道答案或使用计算器工具。

AI智能体同理,需赋予其工具访问权限。

第二项能力是规划。

以同一道数学题为例,你需懂得乘法或知道向计算器传入参数85、65及乘法指令。

这便是规划与推理。

以下是向AI智能体发起查询时的流程:

AI智能体(一):探索AI智能体的设计原理与现实应用

AI智能体架构

5.1 编排层(控制中心)

假设我要创建一个AI会议智能体,我会跟调度器说“我想为学生举办一场网络研讨会”。

该查询将触发AI智能体。

AI智能体(一):探索AI智能体的设计原理与现实应用

编排层

查询可以是文本、音频、视频或图像(数据最终会转换为机器可处理的数值)。

查询由编排层(即智能体控制中心)处理。

编排层的四大职责:

  • 记忆:维护完整交互记录。

  • 状态:存储进程的当前状态。

  • 推理:引导智能体的推理过程。

  • 规划:确定步骤及下一步行动。

AI智能体(一):探索AI智能体的设计原理与现实应用

编排层会与模型(LLM)进行交互。

5.2 模型(大脑)

模型是整个智能体的中央决策者。

AI模型通常为大语言模型(LLM)。

AI智能体(一):探索AI智能体的设计原理与现实应用

AI智能体的模型

为了理解查询、制定计划并决定行动,模型采用以下推理与逻辑框架:

  • ReAct(推理+行动)

(推理+行动)确保审慎行动

  • 思维链

通过中间步骤推理

  • 思维树

探索多路径以寻找最优解

模型决定采取何种行动,并利用工具执行。

5.3 工具(手)

工具让智能体得以跟外部世界交互。

如计算器、API、网络搜索、外部数据库等都属于工具。

AI智能体(一):探索AI智能体的设计原理与现实应用

工具让智能体能执行模型无法独立完成的任务、获取实时信息或处理现实世界的任务。

6. ✅ 何时使用智能体 / ⛔ 何时应避免使用

当你需要LLM来决定应用的工作流时,智能体是有用的,但常被滥用。关键在于:你是否真的需要灵活工作流来高效解决任务?如果预设工作流经常失效的话,就需更高的灵活性。

以冲浪旅行网站客服应用为例:

若用户请求一般只有预设的两类(基于用户选择),且两类均有预设工作流:

  1. 用户需旅行信息 ⇒ 提供搜索栏访问知识库

  2. 用户需联系销售 ⇒ 提供联系表单

如果这种确定型工作流已覆盖所有查询,直接编码即可!这样的系统是100%可靠的,避免了LLM的不可预测。

出于简单性与健壮性的考虑,不建议优先采用智能体。

但如果工作流无法预先确定呢?

比方说,用户问:“我原计划周一到达,但忘带护照可能延迟至周三。能否在周二上午带上我和装备去冲浪?费用需包含取消险。”

这个问题涉及到多种因素,预设标准无法覆盖。

如果预设工作流经常覆盖不到的话,则需更高灵活性。

此时智能体架构便可派上用场。

上述案例中,可构建多步骤智能体,访问天气API获取预报、谷歌地图API计算距离、员工空闲情况面板及知识库RAG系统。

此前,计算机程序受限于预设工作流,试图通过堆叠if/else处理复杂性,仅能处理“数字求和”或“寻找最短路径”等范围狭窄的任务。但预设流程通常无法匹配上现实世界的任务(如上述旅行案例)。智能体系统为程序开启了处理现实任务的大门!

7. 应用领域

AI智能体是通用工具,可提升多领域生产力、效率与智能,正日益应用于日常场景与高影响领域。

AI智能体(一):探索AI智能体的设计原理与现实应用

8. 总结

AI智能体正改变我们与技术的互动方式,提供空前的自主性、智能与适应性。

从简单反射型智能体到复杂学习系统,AI智能体正应用到多个行业来解决复杂问题并增强人类能力。但构建高效智能体面临伦理关切、数据依赖与可扩展性等挑战。

随着AI技术的不断进步,AI智能体潜力巨大。通过关注通用AI、人机协作与伦理考量,我们可创建高效执行任务、符合人类价值观并为社会做出积极贡献的智能体。

核心要点:

  • AI智能体是自主系统,通过感知、决策与行动实现目标。

  • 核心组件包括传感器、执行器、决策引擎与学习模块。

  • AI智能体应用于虚拟助手、自动驾驶汽车与医疗等领域。

通过理解基础原理并紧跟进展,我们能利用AI智能体推动创新,创造出更美好的未来。




标签: AI智能体

添加新评论 »