🤖 一、AI 领域核心层级与发展脉络

📐 1. AI、ML、DL、LLM 的包含关系

  • AI(人工智能):最顶层的大领域,是让机器模拟人类智能的技术科学;
  • ML(机器学习):AI 的核心子集,是实现 AI 的核心方法,通过数据让机器自动学习规律;
  • DL(深度学习):ML 的子集,依托多层神经网络自动提取高阶特征,处理复杂任务;
  • LLM(大语言模型):DL 的细分方向,基于海量文本数据训练的超大规模语言模型,是当前 AI 发展的核心热点。

🎯 2. 核心技术方向

  • CV(计算机视觉):让机器“看懂”图像 / 视频,提取视觉信息;
  • NLP(自然语言处理):让机器“理解”人类语言,实现文本交互、语义分析等;

两大方向是 AI 落地的核心场景,最终目标都是 AI → 预测(基于数据输出可落地的决策 / 结果)。

📋 3. 各层级核心特点

层级核心代表数据规模核心特点
ML(传统机器学习)SVM、KNN、K-means中小规模数据依赖人工特征工程,模型可解释性强
DL(深度学习)各类神经网络大规模数据自动提取特征,模型是“多个算法的集合体”,拟合能力强
LLM(大模型)GPT、文心一言等10B(百亿)以上数据通用能力强,具备上下文理解、生成等泛化能力

🌊 二、AI 技术浪潮与核心机制

🌪️ 1. 三次 AI 技术浪潮

  • 第一次浪潮:以数学逻辑为核心,基于规则驱动的早期 AI;
  • 第二次浪潮:机器学习兴起,以统计学习为核心,依赖人工特征工程;
  • 第三次浪潮:深度学习 + 注意力机制,实现端到端的特征自动提取,推动大模型时代到来。

👁️ 2. 注意力机制(Attention)核心原理

注意力机制是第三次 AI 浪潮的核心技术,本质是动态分配权重:

  • 核心逻辑:对输入的不同部分(如文本中的词语、图像中的区域),动态判断重要程度,给重要部分分配更高权重,忽略无关信息;
  • 通俗理解:就像人阅读时,会重点关注关键内容,而非逐字逐句平均分配注意力;
  • 经典记忆梗:我爱猫 → Attention 爱我猫(通过注意力机制,突出核心语义“爱猫”)。

📦 3. 黑箱机制与应对思路

深度学习 / 大模型的核心特点是黑箱机制:

  • 定义:只知道模型的输入(In)和输出(Out),无法完全解释中间的运算过程(如神经网络的参数逻辑);
  • 应对思路
    • 照亮黑箱:通过技术手段(如可解释性 AI、特征可视化、关键词分析),尝试拆解模型的决策逻辑;
    • 承认黑箱:在模型符合业务标准、输出结果可靠的前提下,接受其黑箱特性,聚焦业务价值而非完全解释原理。

📝 三、NLP 核心:机器理解语言的原理

🎯 1. NLP 的核心目标

让机器理解人类语言,实现文本的处理、理解与生成。

🔢 2. 文本的数字化转换

机器无法直接理解文字,必须先将文本转换为数字:

  • 基础方法:编码 + 编码再组合,最终转换为机器可识别的格式(如 ASCII 码、词向量);
  • 示例:I love Cat. → 拆分词语,分别编码(如 I→1100、love→0110、Cat→1011),再组合为机器可处理的向量。

🔍 3. 上下文理解的两种核心逻辑

(1)单词语义的上下文推理

对于多义词 A,通过上下文消解歧义:

  1. 梳理 A 的上下文(前文 + 后文);
  2. 推测 A 的多种可能含义,分配对应概率(如 a 60%、b 30%、c 10%);
  3. 选择概率最高(权重最大)的含义作为最终语义。

(2)嵌套式上下文理解

对于复杂语境中的词语 A,采用“由外到内”的理解逻辑:

  1. 先理解 A 的前后词 B、C、D、E 的语义;
  2. 再拆解 A 的前文包(D、B)和后文包(C、E),分别理解前后文的整体语义;
  3. 最终结合所有上下文,确定 A 的精准含义。

🧠 四、机器学习核心基础

📌 1. 机器学习的定义与核心逻辑

  • 定义:人工智能的一个分支,使计算机系统可通过经验自动改进;
  • 核心公式:数据 + 答案 → 让计算机自动学习规则,本质是从数据中挖掘规律,用于预测未知数据。

🎓 2. 机器学习的学习范式

  • 有监督学习:研究有标注的数据(知道数据对应的标签 / 答案),用于分类、回归等任务;
  • 无监督学习:研究无标注的数据,挖掘数据的内在结构(如聚类、降维);
  • 半监督学习:结合少量标注数据 + 大量无标注数据,降低标注成本;
  • 强化学习:通过智能体与环境交互,以奖励为导向学习最优策略。

💎 3. 数据与特征工程的核心地位

行业金句:数据决定模型的上限;特征工程决定模型的下限

  • 数据质量是模型效果的根本,有问题的数据被称为“噪声”,会严重影响模型效果;
  • 特征工程是将原始数据转换为模型可用特征的过程,核心分类:
    • 数值型特征:可量化的连续 / 离散数据;
    • 文本型特征:非结构化的文本数据;
    • 时序型特征:随时间变化的数据,需用时序模型建模。

🔄 4. 特征转换核心方法

  • 标准化:将数据转换为均值为 0、方差为 1 的分布,消除量纲影响;
  • 归一化:将数据缩放到 [0,1] 或 [-1,1] 区间,方便不同特征的对比与计算。

✂️ 5. 模型剪枝

  • 核心逻辑:对复杂模型进行简化,删除无关数据 / 冗余参数;
  • 效果:简化模型结构,减少计算量,反而能提升模型的准确率与泛化能力。

📊 五、模型评估与拟合问题

🧮 1. 分类模型评估:混淆矩阵核心指标

混淆矩阵是分类模型评估的基础,核心是四个基础指标:

指标定义
TP(真正例)模型正确预测为 1(正例)的样本
TN(真负例)模型正确预测为 0(负例)的样本
FP(假正例)模型错误预测为 1(正例)的负例样本
FN(假负例)模型错误预测为 0(负例)的正例样本

核心关系:TP + TN + FP + FN = 全部样本

准确率计算示例
真实 1 的样本 55 个(45 个 TP、10 个 FN),真实 0 的样本 45 个(5 个 FP、40 个 TN)
准确率 = (TP + TN) / 总样本 = (45 + 40) / 100 = 85%,预测错误率为 15%。

⚖️ 2. 过拟合与欠拟合:常见问题分析

(1)过拟合

  • 表现:模型在训练集上准确率极高,但在测试集 / 新数据上准确率骤降;
  • 原因:模型过于复杂,学习了训练数据中的噪声和细节,泛化能力(适用性)极差;
  • 可能诱因:数据质量问题、模型选择不当,或二者同时存在。

(2)欠拟合

  • 表现:模型在训练集和测试集上的误差都很高;
  • 原因:模型过于简单,无法拟合数据的核心规律,学习能力不足。

💻 完整可运行示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
import pandas as pd
import numpy as np

# ==========================================
# 第一部分:Numpy 数组基础
# ==========================================

# 1. 创建普通数组
my_array = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(f"1. 普通数组 my_array: \n{my_array}")

# 2. 创建全零矩阵 (2行4列)
zeros_matrix = np.zeros((2, 4))
print(f"\n2. 全零矩阵 zeros_matrix: \n{zeros_matrix}")

# 3. 创建等差数列 (修正版)
# 注意:使用 arange 而不是 array,范围是 [0, 10),步长为 2
seq_array = np.arange(0, 10, 2)
print(f"\n3. 等差数列 seq_array: \n{seq_array}")

# 4. 向量化运算 (不需要写循环)
a = np.array([2, 10, 3])
b = np.array([4, 5, 6])

print(f"\n4. 向量化运算:")
print(f"a + b = {a + b}") # 对应元素相加
print(f"a * b = {a * b}") # 对应元素相乘
print(f"a / b = {a / b}") # 对应元素相除

# ==========================================
# 第二部分:Pandas DataFrame
# ==========================================

data_dict = {
'姓名': ['小明', '小红', '小刚', '小丽'],
'年龄': ['18', '19', '17', '20'],
'城市': ['上海', '北京', '广州', '深圳'],
'分数': ['95', '88', '98', '92']
}

# 将字典转换为 DataFrame (类似 Excel 表格)
df = pd.DataFrame(data_dict)

print(f"\n5. Pandas DataFrame 格式:\n{df}")
知识点 / 误区说明错误示例正确做法
生成等差数列np.array 只是打包数据,np.arange 才是生成数据。np.array(0, 10, 2)(报错或逻辑错误)np.arange(0, 10, 2)
Arange 的范围arange 是左闭右开区间,不包含结束值。以为 arange(0, 10, 2) 会包含 10结果是 [0, 2, 4, 6, 8]。若要包含 10 需手动调整范围或使用 linspace
向量化运算Numpy 的核心优势,直接对数组运算,无需 for 循环,速度极快。for 循环逐个计算 a[i]+b[i]直接写 a + ba * b,自动对应元素计算。
DataFrame 概念Pandas 的核心数据结构,类似 Excel 表格或 SQL 表,用于处理二维带标签数据。认为是“处理三维数组的东西”它是二维表格数据(行和列),非常适合处理结构化数据(如 CSV)。
数据对齐Pandas 会根据索引自动对齐数据,处理缺失值很方便。手动去匹配哪一行对应哪个人只要列名对应,Pandas 会自动帮你整理好格式。

📚 学习心得
Numpy 是基础:它让 Python 拥有了处理大规模矩阵运算的能力,是 AI 算法的基石。
Pandas 是利器:如果说 Numpy 处理的是数字矩阵,Pandas 处理的就是带名字的 “表格”。在做数据分析时,DataFrame 是你最常用的工具。
环境管理:记得代码是在虚拟环境(.venv)中运行的,安装库时要用 pip install pandas numpy 确保安装在当前项目环境下。