河岳日星的博客 - 运维工程师

发表于2023-02-04 | 更新于 2026-05-09 | 人工智能基础 | 深度学习、NLP、LSTM | 条评论

📚 Week 6 Transformer核心技术笔记

发表于2023-02-04 | 更新于 2026-05-15 | 人工智能基础 | Transformer | 条评论

📚 Week 6 Transformer 核心技术笔记（深度理解版）📝 前言本周系统学习了Transformer架构的核心原理与设计思想，这是现代大语言模型的基石。我们从技术演进脉络出发，深入拆解了注意力机制的数学本质、QKV三元组的工作原理、多头注意力的分工机制，并对比了BERT与GPT的架构差异，梳理了训练优化与推理加速的关键策略。 🧠 一、Transformer 概述1. Transformer 的重要性实现并行计算：突破了传统RNN/Seq2Seq无法并行训练的瓶颈，所有位置同时计算，彻底解决串行训练效率低下的问题统一序列建模范式：使NLP/计算机视觉/语音等领域可以共用同一模型骨架，大幅降低跨模态迁移成本催生大模型生态：直接推动BERT、GPT系列等预训练大模型爆发，成为现代NLP乃至整个AI领域的基石架构 2. 技术演进时间线年份技术/模型关键进展 2013 Word2Vec（CBOW/Skip-gram）提出负采样和层次Softmax两种加速方案，大幅提升词向量训练速度，开启词嵌入时代 2014 Seq2Seq（LSTM/GRU） ...

ai-WEEK6_transfomer编码器

发表于2023-02-03 | 更新于 2026-05-15 | 人工智能基础 | Transformer | 条评论

1.思维流程图123456789101112131415161718192021222324252627编码器: 解码器: "I love you" "<s> 我爱" │ │ ▼ ▼Embedding + 位置编码 Embedding + 位置编码 │ │ ▼ ▼┌─────────────┐ ┌─────────────┐│ 自注意力 │ │ 掩码自注意力 │ ← 只能看左边│ (看全句) │ ...

📚 Week 5 序列建模基石：RNN-LSTM-GRU 详解笔记

发表于2023-02-03 | 更新于 2026-05-04 | 人工智能基础 | 深度学习、神经网络、NLP、RNN、LSTM、GRU、序列建模 | 条评论

📚 Week 5 序列建模基石：RNN-LSTM-GRU 详解笔记📝 前言本周的学习重点在于深入掌握序列建模的核心技术体系。我们从序列数据的本质出发，剖析了RNN的循环结构与数学原理，重点讲解了LSTM、GRU如何通过门控机制解决RNN的长距离依赖问题，并梳理了工业界的应用场景、常见问题诊断与面试高频考点。🧠 一、序列建模的基础认知1. 什么是序列数据？定义：在特定维度（时间 / 空间）上，具有严格先后顺序的数据集，顺序本身就是信息的一部分。典型场景：天气预报、股票数据、文本对话、语音序列核心特点：顺序依赖性：当前状态由之前的状态决定，如 “天气” 的含义依赖前后词上下文相关性：前后数据存在语义 / 逻辑关联长度不固定：不同样本的序列长度可能差异巨大 2. 为什么需要特殊模型？传统神经网络无法处理序列数据： DNN：记忆能力差，资源浪费，仅适合一维规整数据，无空间 / 时序建模能力 CNN：仅能提取局部特征，忽略全局上下文，如处理句子 “天气好，我不想出去” 时，可能陷入局部情绪判断误区 🔄 二、RNN：序列建模的开创者1. RNN 的核心优势参数共享：从头 ...

NLP词向量与句向量笔记-week4

发表于2023-02-02 | 更新于 2026-05-04 | 人工智能基础 | NLP、词向量、Word2Vec、GloVe、FastText、句向量 | 条评论

机器学习（NLP文本分类）标准项目流程与实战笔记

发表于2023-02-01 | 更新于 2026-04-25 | 机器学习 | NLP、TF-IDF、朴素贝叶斯 | 条评论

机器学习（NLP文本分类）标准项目流程第一阶段：环境搭建与数据工程依赖库导入与环境配置：加载数据处理（Pandas）、自然语言处理（Jieba）、机器学习框架（Scikit-learn）等必要的第三方库，并配置系统参数（如忽略警告、设置日志级别）以优化运行环境。数据收集与加载：获取原始语料库，构建结构化的数据集（如DataFrame），明确样本数据（Text）与对应的真实标签（Label/Ground Truth）。第二阶段：特征工程3. 文本预处理与清洗：针对非结构化的文本数据进行规范化处理。包括统一大小写、去除特殊符号等，以降低数据噪声。4. 中文分词：由于中文语义的连续性，需调用专用分词工具（如Jieba）将连续的文本序列切分为独立的词汇单元，为后续的特征提取奠定基础。5. 特征向量化：将处理后的文本数据转化为计算机可计算的数值型矩阵。通过特征提取算法（如TF-IDF）构建特征空间，生成特征矩阵（X）与标签向量（y），完成从“自然语言”到“机器语言”的映射。第三阶段：模型构建与训练6. 数据集划分：采用随机抽样方法，将整体数据集按比例（如8:2）划分为训练集（用于模型学习）和测试 ...

深度学习与NLP核心笔记：从神经元到Transformer的演进之路

发表于2023-02-01 | 更新于 2026-04-29 | 人工智能基础 | 深度学习、神经网络、NLP、CNN、RNN、LSTM、反向传播 | 条评论

深度学习与NLP核心笔记：从神经元到Transformer的演进之路📝 前言本周的学习重点在于打通深度学习（Deep Learning）与自然语言处理（NLP）的任督二脉。我们不仅回顾了神经网络的生物学起源，更从数学底层剖析了前向传播与反向传播的机制，深入探讨了CNN、RNN、LSTM等经典架构，并梳理了NLP的文本处理全流程。 🧠 一、神经网络的本质与数学基础1. 感知机：从生物神经元到数学模型笔记中提到了一个核心类比：生物神经元→人工神经元。生物视角：树突接收电信号→细胞体处理→轴突输出。数学视角（感知机模型）：一个神经元本质上就是一个数学函数。它接收输入信号，进行加权求和，加上偏置，最后通过激活函数输出。 $$y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)$$ $x_i$：输入特征（Input） $w_i$：权重（Weight），代表特征的重要性。 $b$：偏置（Bias），相当于函数的截距，决定激活的难易程度。 $f$：激活函数（Activation Function），引入非线性因素。 🤔 深度解析感知机是神经网络 ...

NLP文本特征提取：词袋模型BOW与TF-IDF原理实战详解 -w3

发表于2023-01-23 | 更新于 2026-04-25 | 技术笔记AI算法基础 | 人工智能 • TF-IDF • 词袋模型 | 条评论

本章为AI算法自然语言处理入门实战，重点学习文本数字化核心方案：词袋模型（BOW）与 TF-IDF 权重算法。结合课堂代码运行结果，深度拆解矩阵输出规则、权重计算逻辑，解决新手常见理解误区，夯实NLP基础。 📑 一、学习前言计算机无法直接识别汉字、文本等非结构化数据，想要让模型处理文本、做分类、相似度计算、情感分析，第一步必须将文本转为数字向量。本节课学习两种最经典的文本向量化方式：词袋模型 BOW：基于单词计数的简单文本特征提取 TF-IDF：结合词频与全局权重的进阶文本特征提取，工业级常用方案 💻 二、课堂完整实战代码123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657# 导入需要的库# pandas：数据处理工具（本次辅助使用）import pandas as pd# CountVectorizer：实现词袋模型，统计单词出现次数# TfidfVectorizer：实现TF-IDF算法，计算单词重要性权重f ...

机器学习实战复盘：线性回归作业与5个新手避坑指南 -w2

发表于2023-01-07 | 更新于 2026-04-25 | 技术笔记机器学习实战 | 机器学习 • 线性回归 • 实战项目 • 避坑指南 | 条评论

本篇通过加州房价预测线性回归作业，复盘新手最容易踩的5个典型坑：回归任务误用分层抽样、评估指标传参错误、变量逻辑顺序颠倒、占位符未替换、特征标准化流程混乱。犯错是最好的学习，这篇帮你把弯路走直。 💻 一、作业完整代码（修正后最终版）12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273import pandas as pdimport numpy as npimport matplotlibmatplotlib.use('Agg') # 设置非交互式后端import matplotlib.pyplot as pltfrom sklearn.datasets import fetch_california_housingfrom sklearn.model_selection import train_test_splitfrom sklea ...

机器学习实战：不平衡数据集与准确率陷阱 -w2

发表于2023-01-03 | 更新于 2026-04-25 | 技术笔记机器学习实战 | 机器学习 • 分类 • 不平衡数据 • 模型评估 | 条评论

真实场景中，数据集99%都是不平衡的（欺诈检测、疾病诊断、故障检测）。本篇带你认识：准确率的巨大陷阱、混淆矩阵、精确率、召回率、F1分数，学会正确评估分类模型。 🎯 一、本篇核心目标理解数据不平衡是什么（正负比例 1:19）看清准确率（Accuracy）的陷阱学会使用混淆矩阵、精确率、召回率、F1正确评估模型掌握 stratify=y 分层抽样的重要性学会生成模拟不平衡数据 💻 二、完整代码（详细注释版）123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263# 不平衡数据集实战# 重点：准确率不能信！必须看精确率、召回率、F1# ======================# 1. 导入库# ======================from sklearn.datasets import make_classificationfrom sklearn.model_selection ...