ai-Numpy基础与Pandas数据框入门-w1
🤖 一、AI 领域核心层级与发展脉络
📐 1. AI、ML、DL、LLM 的包含关系
- AI(人工智能):最顶层的大领域,是让机器模拟人类智能的技术科学;
- ML(机器学习):AI 的核心子集,是实现 AI 的核心方法,通过数据让机器自动学习规律;
- DL(深度学习):ML 的子集,依托多层神经网络自动提取高阶特征,处理复杂任务;
- LLM(大语言模型):DL 的细分方向,基于海量文本数据训练的超大规模语言模型,是当前 AI 发展的核心热点。
🎯 2. 核心技术方向
- CV(计算机视觉):让机器“看懂”图像 / 视频,提取视觉信息;
- NLP(自然语言处理):让机器“理解”人类语言,实现文本交互、语义分析等;
两大方向是 AI 落地的核心场景,最终目标都是 AI → 预测(基于数据输出可落地的决策 / 结果)。
📋 3. 各层级核心特点
| 层级 | 核心代表 | 数据规模 | 核心特点 |
|---|---|---|---|
| ML(传统机器学习) | SVM、KNN、K-means | 中小规模数据 | 依赖人工特征工程,模型可解释性强 |
| DL(深度学习) | 各类神经网络 | 大规模数据 | 自动提取特征,模型是“多个算法的集合体”,拟合能力强 |
| LLM(大模型) | GPT、文心一言等 | 10B(百亿)以上数据 | 通用能力强,具备上下文理解、生成等泛化能力 |
🌊 二、AI 技术浪潮与核心机制
🌪️ 1. 三次 AI 技术浪潮
- 第一次浪潮:以数学逻辑为核心,基于规则驱动的早期 AI;
- 第二次浪潮:机器学习兴起,以统计学习为核心,依赖人工特征工程;
- 第三次浪潮:深度学习 + 注意力机制,实现端到端的特征自动提取,推动大模型时代到来。
👁️ 2. 注意力机制(Attention)核心原理
注意力机制是第三次 AI 浪潮的核心技术,本质是动态分配权重:
- 核心逻辑:对输入的不同部分(如文本中的词语、图像中的区域),动态判断重要程度,给重要部分分配更高权重,忽略无关信息;
- 通俗理解:就像人阅读时,会重点关注关键内容,而非逐字逐句平均分配注意力;
- 经典记忆梗:我爱猫 → Attention 爱我猫(通过注意力机制,突出核心语义“爱猫”)。
📦 3. 黑箱机制与应对思路
深度学习 / 大模型的核心特点是黑箱机制:
- 定义:只知道模型的输入(In)和输出(Out),无法完全解释中间的运算过程(如神经网络的参数逻辑);
- 应对思路:
- 照亮黑箱:通过技术手段(如可解释性 AI、特征可视化、关键词分析),尝试拆解模型的决策逻辑;
- 承认黑箱:在模型符合业务标准、输出结果可靠的前提下,接受其黑箱特性,聚焦业务价值而非完全解释原理。
📝 三、NLP 核心:机器理解语言的原理
🎯 1. NLP 的核心目标
让机器理解人类语言,实现文本的处理、理解与生成。
🔢 2. 文本的数字化转换
机器无法直接理解文字,必须先将文本转换为数字:
- 基础方法:编码 + 编码再组合,最终转换为机器可识别的格式(如 ASCII 码、词向量);
- 示例:I love Cat. → 拆分词语,分别编码(如 I→1100、love→0110、Cat→1011),再组合为机器可处理的向量。
🔍 3. 上下文理解的两种核心逻辑
(1)单词语义的上下文推理
对于多义词 A,通过上下文消解歧义:
- 梳理 A 的上下文(前文 + 后文);
- 推测 A 的多种可能含义,分配对应概率(如 a 60%、b 30%、c 10%);
- 选择概率最高(权重最大)的含义作为最终语义。
(2)嵌套式上下文理解
对于复杂语境中的词语 A,采用“由外到内”的理解逻辑:
- 先理解 A 的前后词 B、C、D、E 的语义;
- 再拆解 A 的前文包(D、B)和后文包(C、E),分别理解前后文的整体语义;
- 最终结合所有上下文,确定 A 的精准含义。
🧠 四、机器学习核心基础
📌 1. 机器学习的定义与核心逻辑
- 定义:人工智能的一个分支,使计算机系统可通过经验自动改进;
- 核心公式:数据 + 答案 → 让计算机自动学习规则,本质是从数据中挖掘规律,用于预测未知数据。
🎓 2. 机器学习的学习范式
- 有监督学习:研究有标注的数据(知道数据对应的标签 / 答案),用于分类、回归等任务;
- 无监督学习:研究无标注的数据,挖掘数据的内在结构(如聚类、降维);
- 半监督学习:结合少量标注数据 + 大量无标注数据,降低标注成本;
- 强化学习:通过智能体与环境交互,以奖励为导向学习最优策略。
💎 3. 数据与特征工程的核心地位
行业金句:数据决定模型的上限;特征工程决定模型的下限
- 数据质量是模型效果的根本,有问题的数据被称为“噪声”,会严重影响模型效果;
- 特征工程是将原始数据转换为模型可用特征的过程,核心分类:
- 数值型特征:可量化的连续 / 离散数据;
- 文本型特征:非结构化的文本数据;
- 时序型特征:随时间变化的数据,需用时序模型建模。
🔄 4. 特征转换核心方法
- 标准化:将数据转换为均值为 0、方差为 1 的分布,消除量纲影响;
- 归一化:将数据缩放到 [0,1] 或 [-1,1] 区间,方便不同特征的对比与计算。
✂️ 5. 模型剪枝
- 核心逻辑:对复杂模型进行简化,删除无关数据 / 冗余参数;
- 效果:简化模型结构,减少计算量,反而能提升模型的准确率与泛化能力。
📊 五、模型评估与拟合问题
🧮 1. 分类模型评估:混淆矩阵核心指标
混淆矩阵是分类模型评估的基础,核心是四个基础指标:
| 指标 | 定义 |
|---|---|
| TP(真正例) | 模型正确预测为 1(正例)的样本 |
| TN(真负例) | 模型正确预测为 0(负例)的样本 |
| FP(假正例) | 模型错误预测为 1(正例)的负例样本 |
| FN(假负例) | 模型错误预测为 0(负例)的正例样本 |
核心关系:TP + TN + FP + FN = 全部样本
准确率计算示例:
真实 1 的样本 55 个(45 个 TP、10 个 FN),真实 0 的样本 45 个(5 个 FP、40 个 TN)
准确率 = (TP + TN) / 总样本 = (45 + 40) / 100 = 85%,预测错误率为 15%。
⚖️ 2. 过拟合与欠拟合:常见问题分析
(1)过拟合
- 表现:模型在训练集上准确率极高,但在测试集 / 新数据上准确率骤降;
- 原因:模型过于复杂,学习了训练数据中的噪声和细节,泛化能力(适用性)极差;
- 可能诱因:数据质量问题、模型选择不当,或二者同时存在。
(2)欠拟合
- 表现:模型在训练集和测试集上的误差都很高;
- 原因:模型过于简单,无法拟合数据的核心规律,学习能力不足。
💻 完整可运行示例
1 | import pandas as pd |
| 知识点 / 误区 | 说明 | 错误示例 | 正确做法 |
|---|---|---|---|
| 生成等差数列 | np.array 只是打包数据,np.arange 才是生成数据。 | np.array(0, 10, 2)(报错或逻辑错误) | np.arange(0, 10, 2) |
| Arange 的范围 | arange 是左闭右开区间,不包含结束值。 | 以为 arange(0, 10, 2) 会包含 10 | 结果是 [0, 2, 4, 6, 8]。若要包含 10 需手动调整范围或使用 linspace。 |
| 向量化运算 | Numpy 的核心优势,直接对数组运算,无需 for 循环,速度极快。 | 写 for 循环逐个计算 a[i]+b[i] | 直接写 a + b 或 a * b,自动对应元素计算。 |
| DataFrame 概念 | Pandas 的核心数据结构,类似 Excel 表格或 SQL 表,用于处理二维带标签数据。 | 认为是“处理三维数组的东西” | 它是二维表格数据(行和列),非常适合处理结构化数据(如 CSV)。 |
| 数据对齐 | Pandas 会根据索引自动对齐数据,处理缺失值很方便。 | 手动去匹配哪一行对应哪个人 | 只要列名对应,Pandas 会自动帮你整理好格式。 |
📚 学习心得
Numpy 是基础:它让 Python 拥有了处理大规模矩阵运算的能力,是 AI 算法的基石。
Pandas 是利器:如果说 Numpy 处理的是数字矩阵,Pandas 处理的就是带名字的 “表格”。在做数据分析时,DataFrame 是你最常用的工具。
环境管理:记得代码是在虚拟环境(.venv)中运行的,安装库时要用 pip install pandas numpy 确保安装在当前项目环境下。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 河岳日星的博客!
评论
