1.1 什么是 AI Agent

定义

AI Agent(人工智能代理)是一个能够感知环境、进行推理决策,并执行行动以实现特定目标的智能系统。与传统的聊天机器人不同,AI Agent 具备以下核心特征:

核心特征

  1. 自主性 - 能够独立运行,无需人工持续干预
  2. 感知能力 - 可以接收和处理来自环境的信息
  3. 决策能力 - 基于感知信息做出合理的决策
  4. 行动能力 - 能够执行具体的操作来影响环境
  5. 目标导向 - 所有行为都围绕实现既定目标

AI Agent vs 传统聊天机器人

特性 传统聊天机器人 AI Agent
交互模式 单轮/多轮对话 持续对话 + 工具调用
能力范围 仅文本生成 文本 + 工具执行
记忆能力 有限对话上下文 长期记忆 + 会话管理
行为能力 仅返回文本 可调用外部工具/API
目标导向 回答问题 完成复杂任务

典型应用场景

1. 编程助手

1
2
3
4
5
6
7
# 用户:"帮我创建一个待办事项应用"
# Agent 可以:
# 1. 理解需求
# 2. 创建项目结构
# 3. 编写代码文件
# 4. 运行和测试
# 5. 修复错误

2. 数据分析

1
2
3
4
5
6
7
# 用户:"分析这组销售数据并生成报告"
# Agent 可以:
# 1. 读取数据文件
# 2. 执行数据分析
# 3. 创建可视化图表
# 4. 生成分析报告
# 5. 保存结果文件

3. 自动化办公

1
2
3
4
5
6
7
# 用户:"整理这些发票并生成报表"
# Agent 可以:
# 1. 扫描文档
# 2. 提取关键信息
# 3. 组织数据
# 4. 创建 Excel 报表
# 5. 发送邮件通知

AI Agent 的层次结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
┌─────────────────────────────────────────┐
│ 用户意图层 │
│ "帮我分析这份数据并生成报告" │
└─────────────────┬───────────────────────┘

┌─────────────────▼───────────────────────┐
│ 规划与推理层 (LLM) │
│ - 理解任务 │
│ - 分解步骤 │
│ - 选择工具 │
└─────────────────┬───────────────────────┘

┌─────────────────▼───────────────────────┐
│ 工具执行层 │
│ - 文件操作 (read/write) │
│ - 命令执行 (exec) │
│ - API 调用 │
│ - 数据处理 │
└─────────────────┬───────────────────────┘

┌─────────────────▼───────────────────────┐
│ 环境交互层 │
│ - 文件系统 │
│ - 外部 API │
│ - 数据库 │
│ - 其他服务 │
└─────────────────────────────────────────┘

为什么需要 AI Agent

1. 处理复杂任务

传统聊天机器人只能回答问题,而 AI Agent 可以:

  • 执行多步骤任务:将复杂任务分解为多个子任务
  • 使用外部工具:调用各种 API 和服务
  • 适应环境变化:根据执行结果调整策略

2. 提高生产力

AI Agent 可以自动化重复性工作:

  • 数据处理和报表生成
  • 文档整理和归档
  • 代码审查和测试
  • 客户服务和支持

3. 更自然的交互

用户可以用自然语言描述需求,Agent 理解并执行:

1
2
用户:"把上周的销售数据整理一下,发个邮件给老板"
Agent: [理解] → [规划] → [执行] → [确认]

本教程的 Agent 实现

本教程将带你从零开始构建一个功能完整的 AI Agent,具备以下能力:

  • LLM 对话 - 与用户进行自然语言交互
  • 工具调用 - 使用文件系统和执行命令
  • 流式输出 - 实时显示响应过程
  • 配置管理 - 灵活的配置系统
  • 会话管理 - 保存和恢复对话
  • 技能系统 - 动态扩展能力
  • Web 界面 - 浏览器访问
  • 服务架构 - 支持多客户端

让我们开始这段学习之旅吧!

导航

上一篇: 无(这是第一章第一节)

下一篇: 1.2 AI Agent 的核心能力