人工智能概念
本指南系统梳理 AI 领域 13 大类、200+ 核心术语,涵盖从基础理论到前沿趋势的完整知识体系,适用于学习者、开发者与产品设计者。
一、基础理论与模型架构
神经网络(Neural Network)
- 模拟人脑神经元连接的计算模型
- 是深度学习的基础架构
深度学习(Deep Learning)
- 使用多层神经网络进行特征提取和模式识别的技术
- 广泛应用于图像、语音、自然语言处理等领域
Transformer 架构
- 基于自注意力机制的神经网络结构
- 支撑几乎所有现代大语言模型(LLM)
自注意力机制(Self-Attention)
- 模型内部用于衡量词与词之间相关性的核心机制
- 实现上下文感知的动态权重分配
位置编码(Positional Encoding)
- 向输入序列注入位置信息
- 使 Transformer 能理解词语顺序
前馈网络(FFN)
- Transformer 中每个 token 的独立处理模块
- 通常由两层全连接网络构成
模型架构类型
- Encoder-Decoder 架构
- 如 T5、BART 使用的结构
- 适合翻译、摘要等生成任务
- 仅解码器(Decoder-only)架构
- GPT 系列采用
- 擅长自回归文本生成
- 仅编码器(Encoder-only)架构
- BERT 类模型使用
- 擅长文本理解、分类、命名实体识别等任务
二、大语言模型(LLM)核心概念
LLM(Large Language Model)
- 参数量通常超过百亿的大规模语言模型
- 能理解和生成自然语言,具备泛化能力
上下文窗口(Context Window)
- 模型一次能处理的最大 token 数量
- 当前主流模型支持 32K、128K 甚至更高
Token
- 文本的基本单位,可以是词、子词或字符
- 不同模型的分词策略影响 token 数量
Tokenizer
- 将原始文本切分为 token 的工具
- 常见类型:BPE(字节对编码)、WordPiece、SentencePiece
温度(Temperature)
- 控制生成输出的随机性
- 温度低 → 输出更确定、保守
- 温度高 → 输出更多样、创造性强
Top-p / Nucleus Sampling
- 动态选择累积概率达到阈值 p 的最小词集进行采样
- 平衡多样性与质量,避免低概率词干扰
Top-k Sampling
- 仅从概率最高的 k 个词中采样
- 简单有效,但可能遗漏长尾合理词
重复惩罚(Repetition Penalty)
- 抑制模型重复输出相同内容
- 提升生成文本的流畅性与信息密度
流式输出(Streaming)
- 逐字或逐 token 返回生成结果
- 提升用户交互体验,实现“边说边想”效果
三、模型类型与功能分类
通用对话模型
- 代表模型:GPT-4o、Claude 3、Qwen-Max
- 能完成问答、写作、翻译等多种任务
- 具备强泛化能力,适合通用场景
推理优化模型
- 代表模型:o1、DeepSeek-R1、Claude 3 Opus
- 在数学、逻辑、编程等复杂任务上表现优异
- 支持思维链(CoT)、自洽性等高级推理机制
轻量化模型
- 代表模型:Phi-3、Gemma-2B、Llama3-8B
- 参数小、推理快、资源占用低
- 可在本地设备或边缘端运行
多模态模型
- 代表模型:GPT-4o、Gemini、Qwen-VL
- 支持文本、图像、音频联合输入输出
- 实现更自然的人机交互
Embedding 模型
- 代表模型:text-embedding-ada-002、bge-large-zh
- 将文本转化为向量表示
- 用于语义搜索、推荐系统、RAG 应用
语音模型
- 代表技术:
- Whisper(ASR):语音识别
- TTS / VITS:语音合成
- 实现“听”与“说”的闭环能力
图像生成模型
- 代表模型:DALL·E 3、Stable Diffusion、Midjourney
- 支持文生图、图编辑、风格迁移
- 广泛用于创意设计与内容创作
代码模型
- 代表模型:CodeLlama、StarCoder、DeepSeek-Coder
- 专精代码补全、生成、解释与调试
- 支持多种编程语言
四、关键技术:解决幻觉与增强能力
RAG(Retrieval-Augmented Generation)
- 检索外部知识库增强生成过程
- 减少幻觉,提升事实准确性
微调(Fine-tuning)
- 在特定领域数据上继续训练模型
- 提升专业任务表现(如医疗、法律)
LoRA / QLoRA
- 低秩适应技术
- 高效微调,显著降低显存与算力需求
提示工程(Prompt Engineering)
- 设计高质量提示词引导模型输出
- 包括角色设定、示例、约束等技巧
思维链(Chain-of-Thought, CoT)
- 引导模型展示中间推理步骤
- 提升复杂问题解决能力
自动思维链(Auto-CoT)
- 模型自动构建推理路径
- 无需人工设计示例
ReAct 框架(Reason + Act)
- 结合“推理”与“行动”的智能体范式
- 支持工具调用、环境交互
自洽性(Self-Consistency)
- 多次采样生成,选择最一致的答案
- 提升推理稳定性与准确性
五. Model Context Protocol(MCP)——AI 系统的通用上下文通信标准
MCP(Model Context Protocol)是一种标准化的上下文交换格式与通信协议,旨在统一 AI 模型、智能体、工具和服务之间的信息交互方式。
核心目标
- 实现跨模型、跨平台、跨服务的可互操作性
- 结构化传递 prompt、角色设定、工具调用、记忆状态、执行上下文等信息
- 支持 AI 系统组件化与服务化(如 Agent-as-a-Service)
关键能力
- 结构化上下文封装:支持 JSON-like 格式描述完整的交互上下文
- 角色与身份声明:明确模型/服务的角色(如用户、助手、评审员)
- 工具调用规范:统一 Function Calling / Tool Use 的输入输出格式
- 元数据扩展性:支持 trace_id、session_id、权限标签等控制信息
- 跨 Agent 协同:支持多智能体任务编排中的上下文流转
应用场景
| 场景 | MCP 的作用 |
|---|---|
| 多智能体协作 | 在 Debate、分工、评审流程中传递推理链与决策依据 |
| RAG 系统集成 | 将检索结果以结构化方式注入上下文,提升 grounding 能力 |
| Agent-as-a-Service | 将 Agent 封装为可调用服务,通过 MCP 传递输入/输出契约 |
| 开发调试工具 | LangSmith、PromptLayer 等可通过 MCP 标准化追踪执行流 |
| 前端 ↔ 后端交互 | 替代原始字符串 prompt,实现 richer 的 UI 与模型通信 |
与其他技术的关系
- 与 ReAct、CoT 结合:MCP 可承载“思考→行动”的完整轨迹
- 与 LangChain / LangGraph 集成:作为节点间通信的数据格式标准
- 与 vLLM / TGI 兼容:作为高级推理服务的输入协议扩展
- 与 System Prompt 协同:MCP 可动态覆盖或增强系统提示
展望:MCP 正在成为 AI OS 中的“进程间通信机制”(IPC),未来可能像 HTTP 之于 Web,成为 AI 原生系统的底层通信标准。
六、AI 智能体(AI Agent)体系
多智能体通信协议(MCP)
- Model Context Protocol(MCP)
- 是多 Agent 协同的基础通信标准
Agent-as-a-Service
- 将智能体封装为可调用的服务接口
- 易于集成到现有系统中
AI Agent(智能体)
- 能感知、决策、行动、反馈的自主系统
- 是下一代 AI 应用的核心形态
意图理解(Intent Recognition)
- 判断用户真实需求与目标
- 是任务执行的前提
任务拆解(Task Planning)
- 将复杂问题分解为可执行的子步骤
- 支持多跳推理与流程编排
记忆(Memory)
- 短期记忆:会话上下文缓存
- 长期记忆:向量数据库存储历史信息
工具调用(Tool Use)
- 调用外部能力扩展自身功能
- 如计算器、API、数据库、搜索引擎
反思(Reflection)
- 对自身行为进行评估与修正
- 实现自我改进与错误纠正
多智能体(Multi-Agent)
- 多个 Agent 协作或竞争完成任务
- 如辩论、分工、评审机制
Agent-as-a-Service
- 将智能体封装为可调用的服务接口
- 易于集成到现有系统中
七、开发框架与工具链
LangChain
- 构建 LLM 应用的开源框架
- 支持 RAG、Agent、Prompt 编排等功能
- 可结合 MCP 实现跨节点上下文传递
LlamaIndex
- 专注数据连接与索引管理
- 强化 RAG 中的数据管道能力
LangGraph
- 基于 LangChain 的有状态工作流框架
- 支持循环、条件分支、多 Agent 协作
- 推荐使用 MCP 作为节点间通信格式
Haystack
- Deepset 开发的开源 RAG 框架
- 支持文档检索、问答系统构建
Semantic Kernel
- 微软推出的 AI 编排 SDK
- 支持 C# 与 Python,集成 Azure AI
Hugging Face Transformers
- 开源模型库
- 提供数千个预训练模型与工具
vLLM
- 高性能 LLM 推理引擎
- 支持 Tensor Parallelism 与 PagedAttention
- 可扩展支持 MCP 格式的输入协议
TGI(Text Generation Inference)
- Hugging Face 推出的推理服务工具
- 支持批量生成与流式输出
八、部署与运行环境
Ollama
- 本地运行大模型的命令行工具
- 支持 Mac/Linux/Windows,一键部署
Docker
- 容器化技术
- 用于打包和隔离 AI 应用环境
Kubernetes (K8s)
- 容器编排系统
- 管理大规模 AI 服务集群
FastAPI / Flask
- Python Web 框架
- 用于暴露模型 API 接口
ONNX
- 开放神经网络交换格式
- 实现跨平台、跨框架模型部署
TensorRT
- NVIDIA 推出的高性能推理优化库
- 支持量化、融合、加速
GGUF / llama.cpp
- 量化模型格式与推理引擎
- 可在 CPU 上运行大模型,适合本地部署
Core ML / MPS
- 苹果生态下的本地推理支持
- 支持 iOS/macOS 设备高效运行模型
九、数据存储与检索
向量数据库
- 代表工具:Pinecone、Weaviate、Milvus、Qdrant、FAISS
- 存储 Embedding 向量
- 支持相似度检索,是 RAG 的核心组件
关系型数据库
- 代表工具:PostgreSQL、MySQL
- 存储结构化数据(用户信息、日志、配置等)
文档数据库
- 代表工具:MongoDB
- 存储非结构化或半结构化数据
内存数据库
- 代表工具:Redis
- 缓存会话状态、临时数据,提升响应速度
图数据库
- 代表工具:Neo4j
- 存储实体间关系
- 适合知识图谱、推荐系统等场景
十、评估与监控
文本生成评价指标
- BLEU / ROUGE:传统基于 n-gram 的指标
- BERTScore:基于语义相似度的评分方法
代码能力测试
- HumanEval:评估代码生成正确性
综合能力 benchmark
- MMLU:多学科理解
- GSM8K:小学数学推理
- MATH:高等数学问题求解
安全性评估
- AI Safety Benchmarks:如 ToxiGen,测试模型是否生成有害内容
性能监控
- Latency:推理延迟
- Throughput:单位时间处理请求数
- Prometheus + Grafana:系统资源与服务状态监控
调试与评估平台
- LangSmith:LangChain 官方提供的调试、追踪与评估工具
- 支持基于 MCP 的执行流追踪与上下文分析
十一、安全与合规
Moderation 模型
- 检测敏感、有害内容(暴力、色情、仇恨言论)
PII(个人身份信息)
- 如身份证号、手机号、地址等
- 需在训练与推理中脱敏处理
数据脱敏(Data Masking)
- 隐藏或替换敏感字段,保护用户隐私
联邦学习(Federated Learning)
- 分布式训练,数据不出本地
- 保障数据隐私与安全
差分隐私(Differential Privacy)
- 在训练中添加噪声,防止模型记忆个体数据
AI 可解释性(XAI)
- 理解模型决策过程
- 提升透明度与信任度
AI 伦理(AI Ethics)
- 包括公平性、非歧视、责任归属、透明性等原则
- 是 AI 可持续发展的基础
十二、新兴趋势与前沿方向
Agentic Workflow
- Agent 自主规划、执行、反思的完整流程
Autonomous Agents
- 完全自主运行的 AI 系统(如 Devin)
World Models
- 模拟环境动态的内部模型
- 用于预测未来状态与规划
Neuro-Symbolic AI
- 结合神经网络与符号逻辑的混合智能
- 提升推理与可解释性
AI 编程助手
- GitHub Copilot、CodeWhisperer、Tabnine
- 提升开发效率
AI 视频生成
- Sora、Runway Gen-3、Pika
- 实现文生视频、视频编辑
AI 音乐生成
- Suno、Udio
- 根据描述生成完整音乐作品
AI 搜索引擎
- Perplexity、You.com、Arc Search
- 提供带引用、可追溯的答案
AI OS(操作系统)
- 将 Agent 视为“进程”
- 构建新型人机交互范式
- MCP 可作为“AI 进程间通信”(IPC)协议
十三、典型应用场景
智能客服
- 技术组合:LLM + RAG + Prompt + Moderation
企业知识库问答
- 技术组合:RAG + Embedding + 向量数据库 + LlamaIndex
自动化办公
- 技术组合:Agent + Function Call + 工作流
个性化推荐
- 技术组合:Embedding + 向量检索 + 用户画像
教育辅导
- 技术组合:CoT + 微调 + 多模态
金融分析
- 技术组合:RAG + 微调 + 工具调用(计算器、API)
内容创作
- 技术组合:LLM + DALL·E + TTS
多智能体协作系统
- 技术组合:MCP + ReAct + 工具调用 + 向量数据库
- 示例:多个 Agent 分别负责研究、写作、评审,通过 MCP 传递中间结果
十四、未被充分讨论但重要的补充术语
Speculative Decoding
- 加速推理技术:小模型先“猜测”,大模型验证
KV Cache(Key-Value Cache)
- 缓存注意力机制中的 Key 和 Value
- 提升自回归生成效率
MoE(Mixture of Experts)
- 混合专家模型,仅激活部分参数
- 提升效率与扩展性(如 Mixtral、GLM-4)
Quantization(量化)
- 降低模型精度(如 float32 → int8/int4)
- 减小体积与计算需求
Model Compression
- 模型压缩技术总称,包括剪枝、蒸馏、量化
Knowledge Distillation
- “蒸馏”:小模型学习大模型的输出行为
Hallucination(幻觉)
- 模型生成虚假或错误信息
- 是当前 LLM 的主要挑战之一
Grounding(接地)
- 让模型输出基于真实数据源
- 减少幻觉的关键手段
SFT(Supervised Fine-Tuning)
- 有监督微调,在标注数据上训练
RLHF / RLAIF
- 基于人类反馈 / AI 反馈的强化学习
- 用于对齐模型价值观
System Prompt
- 系统级提示词,定义模型角色与行为准则
Few-shot / Zero-shot
- 少样本 / 零样本学习能力
- 体现模型泛化能力
Interoperability(互操作性)
- 不同 AI 模型或服务之间协同工作的能力
- MCP 是提升 AI 系统互操作性的关键协议之一
总结:AI 技术全景地图
现代人工智能已发展为一个由基础理论 → 核心模型 → 关键技术 → 工具链 → 应用场景构成的完整生态。掌握这一知识体系,是构建下一代智能应用的关键。
无论你是学习、研究还是开发,都可以以此为导航图,逐步深入 AI 世界。
┌────────────────────┐
│ 用户请求(文本/语音/图像)
└────────────────────┘
↓
┌────────────────────┐
│ 预处理:ASR / OCR / TTS
└────────────────────┘
↓
┌────────────────────┐
│ 意图理解 & Prompt 优化
└────────────────────┘
↓
┌────────────────────┐
│ RAG:检索 → 向量化 → Top-N
└────────────────────┘
↓
┌────────────────────┐
│ Agent:规划 → 工具调用 → 执行
└────────────────────┘
↓
┌────────────────────┐
│ LLM:生成最终回复
└────────────────────┘
↓
┌────────────────────┐
│ 输出:文本 / 语音 / 图像 / 文件
└────────────────────┘版权所有
版权归属:念宇
