课程大纲
掌握AI深度学习,开启大模型研发实战之旅!
课程特色
本课程深入讲解自然语言处理(NLP)的基础、技术和应用,同时特别关注人工智能生成内容(AIGC)和大模型的研发。课程内容从NLP的基本定义到其在现实世界的应用,探讨面临的挑战和限制,并详细介绍文本预处理和清洗技术。特别强调语言模型,如n-gram和神经网络语言模型,及其在文本分类、情感分析和文本生成等领域的应用。课程深入词嵌入技术,包括Word2Vec和GloVe算法,并探讨其应用。重点关注深度学习在NLP中的应用,尤其是卷积神经网络(CNN)、循环神经网络(RNN)、Transformer模型和BERT及其变体的研究和应用,强调这些技术在AIGC和大模型研发中的核心地位。此外,课程涵盖向量数据库技术和LangChain的先进应用,以及QLORA和RAG等模型的详细介绍,展示它们如何优化语言模型查询和检索性能,提高生成内容的质量和准确性。
通过结合理论学习和实战案例,本课程旨在培养学员使用最新NLP技术和深度学习框架开发和应用AIGC大模型的能力,为学员提供全面的知识结构,以解决实际问题并推动NLP和AIGC技术的发展。
学员对象
本课程适合对AI深度学习、自然语言处理(NLP)、大模型开发感兴趣的开发者、数据分析师等人群。本课程能为你提供全面的指导和帮助。通过本课程的学习,你将能够更好地应对实际工作中的挑战,提升自己的职业竞争力。
学员需要具备python编程能力,熟悉python核心语法,python数据分析的方法。学员同时需要具备统计学理论基础,对于机器学习、深度学习以及自然语言处理的基本概念有一定的了解。
课程安排:8天课程(64课时)
授课形式
小班精讲(面授/直播)、案例分析、操作演示、练习实践、课堂即时互动交流答疑;
课后服务(1年内):课程答疑,课件资料升级分享,录播回看,免费重修
课程大纲
第一天
初识NLP
NLP定义
NLP在现实世界中的应用
NLP的挑战和限制
文本预处理
文本清洗
语言模型概述
n-gram语言模型
神经网络语言模型
语言模型的应用
词嵌入部分
词向量概述
Word2Vec算法
GloVe算法
词向量的应用
文本分类
文本分类概述
朴素贝叶斯分类器
第二天
深度学习与PyTorch简介
使用基于神经网络的机器学习技术,处理复杂数据。
PyTorch简介:深度学习框架,动态计算图。
卷积神经网络(CNN)简介
CNN简介:用于图像处理的神经网络,特点是能够捕捉空间特征。
一维卷积神经网络(CNN1D)简介
基本概念:1D CNN是一种专门处理序列数据的神经网络,类似于2D CNN处理图像数据。它在数据的一维序列上应用卷积。
主要用途:广泛应用于时间序列分析、自然语言处理等领域。
CNN1D的工作原理
卷积层:通过一维卷积核在输入数据上滑动,提取序列特征。
池化层:减少计算量,同时保持特征的重要信息。
全连接层:将卷积和池化层的输出转化为最终的输出(如分类结果)。
CNN1D的网络架构
层的堆叠:通常包括多个卷积层和池化层,可以根据任务需求调整深度和宽度。
激活函数:ReLU或其他非线性激活函数用于引入非线性。
PyTorch实现CNN1D
模型定义:使用PyTorch定义1D CNN的结构,包括卷积层(torch.nn.Conv1d)、池化层(如torch.nn.MaxPool1d)和全连接层(torch.nn.Linear)。
数据处理:将数据格式调整为1D CNN接受的形式,即[批大小, 通道数, 序列长度]。
训练和评估:定义损失函数和优化器,进行模型的训练和评估。
第三天
使用PyTorch创建和训练RNN,用于语言建模等任务。
PyTorch深度学习实战
实践应用:通过实际案例学习PyTorch,如自然语言处理。
PyTorch GPU安装:安装支持GPU的PyTorch版本。
单GPU环境配置
使用工具如nvidia-smi:监控GPU性能和健康状况。
深度学习在NLP中的应用介绍
使用深度学习框架(如Keras或PyTorch)实现文本分类和情感分析
文本生成Transformer和深度学习模型
文本生成概述
语言模型生成
基于神经网络的文本生成
文本生成的应用
机器翻译
Transformer模型详细知识点介绍
Transformer模型简介
在自然语言处理中的应用
与传统序列模型(如RNN、LSTM)的比较
输入表示
词嵌入
词嵌入的概念
词嵌入与one-hot编码的对比
位置编码器
位置编码的重要性
位置编码的实现方式
Transformer架构
编码器-解码器结构
编码器的作用和结构
解码器的作用和结构
自注意力机制
注意力机制的概念
自注意力的计算过程
第四天
注意力机制
多头注意力
多头注意力的定义和作用
多头注意力的实现细节
注意力算法
Q(Query)、K(Key)、V(Value)的概念
计算注意力权重的过程
Softmax函数在注意力机制中的作用
Softmax的定义
如何使用Softmax计算注意力分数
Transformer编码器
编码器层的组成
自注意力层和前馈神经网络层
层归一化和残差连接
Transformer解码器
解码器层的组成
掩码自注意力
编码器-解码器注意力
前馈网络、层归一化和残差连接
训练过程
损失函数的选择
优化器和学习率调整
正则化技术
Transformer的应用
机器翻译
文本生成
语言理解任务
BERT模型概览
BERT模型简介
BERT与传统Transformer的区别
BERT的双向特性
BERT的创新点
双向表示的重要性
如何实现真正的双向上下文
预训练任务
掩码语言模型(MLM)
下一句预测(NSP)
预训练过程详解
掩码语言模型(MLM)
MLM的原理和实现
MLM的训练过程
下一句预测(NSP)
NSP的原理
NSP在BERT中的作用
第五天
BERT的架构
BERT的网络结构
输入表示:词嵌入、片段嵌入和位置嵌入
输出层的设计
BERT的训练策略
预训练的概念
训练数据的选择和处理
训练过程中的技术细节
BERT在下游任务中的应用
文本分类、问答系统、命名实体识别等
Tune BERT以适应特定任务
实例分析和案例研究
BERT的变体和进展
如RoBERTa、ALBERT和DistilBERT
BERT在其他领域的应用
最新的研究和发展动态
实践练习和项目
BERT的实现和使用
实际数据集上的练习
在自然语言处理中的作用和应用场景
向量数据库简介
向量数据库的作用和重要性
常见的向量数据库技术概述
向量数据库详细介绍
Pinecone
特点和优势
应用场景
Chroma
功能和使用场景
其他向量数据库
如Weaviate, Milvus, 和Faiss
它们的特点和比较
第六天
LangChain概览
LangChain简介
LangChain的核心模块
LlamaIndex的提示词模板
结构化输出
LlamaIndex不同层次的多种模块
数据管理,提供了现成的非结构化文档摘要索引来增强检索。
与LangChain集成:LlamaIndex可以集成到LangChain中,以优化检索能力
评估模块评估文档检索和响应合成的质量,专注于生成响应与给定上下文的一致性
可定制存储,提供了一个用户友好的界面,用于摄取、索引和查询外部数据
回调特性,提供了一个回调功能,用于调试、跟踪和跟踪内部操作
LangChain整合
提示词工程实用工具
LangChain包括提示词模板、输出解析、记忆和检索模型集成的实用工具
代理和链开发
LangChain的agent代理和“链”开发跟上了LLM应用的最新改进
LlamaIndex与LangChain对比
检索和有效的数据结构化
Agently智能体开发框架介绍
1. 智能体/LLM应用的定义与作用
什么是智能体?智能体与大模型的关系是什么样的
智能体概念的演进过程,基本架构与功能
2. 智能体的决策和反思
如何让智能体进行决策与任务执行
实战:基于本地部署Deepseek模型开发一个能够进行决策与任务执行的智能体模块
如何让智能体进行反思
实战:翻译Agent的复现
3. 智能体的应用场景
探讨智能体在行业场景中的落地情况
探讨智能体系统/LLM应用的常见分类
进一步理解LLM应用的设计思想
讨论LLM应用的构成关键要素
梳理智能体概念和LLM应用之间的关系
进一步梳理工作流的设计思想
讨论为什么LLM应用需要工作流
讨论“使用工作流就会限制灵活度,就不智能了吗?”
实战:自规划
解读早期AutoGPT项目的核心工作原理
自规划应用的关键执行思路设计
动手做一个自规划方案
讨论自规划方案的能力扩展方式
QLORA优化模型数据
QLORA简介:
描述:QLORA(Query Language Optimized for Retrieval and Annotation)是一种用于增强语言模型查询和检索性能的方法。
实现细节:它通过优化查询的语言表示来提高检索系统的准确性和效率。
数据预处理:
描述:对原始数据集进行清洗和格式化,以适应QLORA模型。
实现细节:包括去除噪声,标准化文本格式,以及确保数据质量。
查询优化:
描述:对查询语句进行优化,使其更加符合模型的处理方式。
实现细节:使用自然语言处理技术,如同义词替换、关键词提取,优化查询表达。
模型训练与调整:
描述:使用优化后的数据训练QLORA模型。
实现细节:选择合适的训练参数,如学习率和批处理大小,进行模型训练。
性能评估:
描述:对优化后的模型进行性能评估。
实现细节:使用标准化的测试数据集,评估模型在各项指标上的表现。
RAG常见步骤过程
RAG简介:
描述:RAG结合了神经检索和生成模型,以提高回答生成的质量和准确性。
实现细节:它先从一个大型文档集合中检索相关信息,然后基于这些信息生成回答。
数据索引构建:
描述:为文档集合创建索引,以便高效检索。
实现细节:使用向量化方法将文档转换成向量,并建立索引,如使用Elasticsearch或FAISS。
检索相关文档:
描述:基于用户的查询,从索引中检索最相关的文档。
实现细节:计算查询向量与文档向量间的相似度,返回得分最高的文档,生成回答:
描述:使用检索到的文档作为上下文,生成回答。
实现细节:将检索到的文本与查询合并,输入到生成模型(如GPT),产生回答。
回答优化和校验:
描述:对生成的回答进行优化和校验,确保其准确性和可信度。
实现细节:运用后处理技术,如语句平滑和事实校验,提高回答的质量。
第七天:Huggingface库介绍与cursor开发工具介绍
与其他NLP工具和框架的集成Hugging Face生态系统概览
安装Hugging Face Transformers库
模型加载与分词器使用
加载预训练Transformer模型
使用Hugging Face Model Hub
安装和配置
如何安装Transformer类库
环境配置和依赖管理
使用在线Hub
Hugging Face Hub的介绍
如何浏览和查找模型
模型下载和使用方法
获取和使用API Key
API Key的作用和获取方法
如何在代码中配置和使用API Key
安全性和权限管理
Tokenization过程
Tokenizer的作用和原理
1. Cursor的安装与配置
安装Cursor编辑器
配置工作空间和扩展
基础快捷键
2. 小牛试刀:用Cursor写一个浏览器插件-划词翻译
需求定义:Prompt描述
用Cursor创建初始项目
用Chrome浏览器加载项目
通过Cursor完善项目细节和修复问题
打包分享自己的作品
3. Cursor高级技巧
代码库索引
AI审查和代码重构
隐私模式
模型选择
自定义Curosr Rules
将外部文档作为知识库进行问答
配置 MCP Servers
4. 综合实战:用Cursor写一个取名字的AI应用
Curosr Rules设置
项目Prompt描述
项目初始化
AI编程和调试
发布自己的应用
第八天:模型训练与实战案例分析
大语言模型微调训练(一)
掌握模型训练/微调/小参数量微调的操作过程
掌握模型微调/小参数量微调关键「超参」
掌握训练数据的选择、准备、清洗等方法与思路
训练一个垂直领域的大模型
大语言模型微调训练(二)
模型训练(Training)
预训练基本概念(Pre-Training)
微调(Fine-Tuning)
轻量化微调(注入参数训练)(Parameter Efficient Fine-Tuning, PEFT)
实战案例分析
基于Deepseek与AI知识库的智能营销推荐系统
基于QA问答知识库和多模态大模型的AI数字人陪练系统