小飞侠

爱科学-刘磊

首页 关于 关于我

2024年2月

大模型增量预训练效果

  • 作者: admin
  • 时间: 2024-02-21
  • 分类: 增量预训练
  • 评论

参考:
1.https://mp.weixin.qq.com/s/yhBMgmoJ2uzqc3JERrUhAw
2.https://zhuanlan.zhihu.com/p/654463331
3.https://www.cnblogs.com/Revelation/p/17787079.html

最新文章

  • 分布式大模型训练错误总结
  • vllm算法原理
  • 强化学习的优化策略PPO和DPO
  • 边侧对角矩阵
  • 旋转位置编码
  • 基于大语言模型的信息抽取
  • 大模型分布式训练并行技术|deepspeed
  • MHA、MQA、GQA的区别
  • cdss中AI能力清单计划
  • 一些知识点

最近回复

  • pprsresexl: 作者的观点新颖且实用,让人在阅读中获得了新的思考和灵感。
  • axwrqljgfe: 这篇文章提供了宝贵的经验和见解,对读者有很大的启发和帮助。
  • wfmsvouzpo: 这篇文章如同一首动人的乐章,触动了读者内心深处的柔软。
  • iyxxrrwwfi: 字里行间流露出真挚的情感,让人感同身受,共鸣不已。
  • zdluiraerq: 这篇文章如同一幅色彩斑斓的画卷,每一笔都充满了独特的创意。
  • bayymomlvt: 文章紧扣主题,观点鲜明,展现出深刻的思考维度。
  • fiehktcpqz: 文章中的实用建议和操作指南,让读者受益匪浅,值得珍藏。
  • oxofqruqsc: 多语种文献的引用彰显学术包容性。
  • wooukqriia: 全球视野与本土实践结合恰到好处。
  • hlldkpkshc: ?诗歌散文评语?

分类

  • 一、大模型
    • 语言大模型
      • 数据处理
      • 超参
      • 预训练
        • 位置编码
          • 旋转位置编码
      • 增量预训练
      • 指令微调
      • 奖励模型
      • 强化学习
        • dpo
      • 知识图谱
      • 测评
      • 推理加速
      • 应用
        • 信息抽取
      • 重点模型
        • LlaMa
          • LlaMa1
          • LlaMa2
          • LlaMa3
        • LlaMa系列
          • 百川-baichuan
          • 零一万物-YI
        • ChatGLM
        • QWen
      • 常见问题
    • 多模态大模型
      • 搜索
  • 二、深度学习
    • 基础概念
      • 张量
      • 激活函数
      • 距离
      • 损失函数
      • tokenize
    • DNN
    • CNN
    • RNN
      • LSTM
      • GRU
    • Attention
    • Seq2Seq
    • Transformer
    • Bert
      • roberta
      • ALbert
    • XLNet
    • GPT系列
      • GPT-1
      • GPT-2
      • GPT-3
      • GPT-3.5
      • ChatGPT
    • Ernie系列
      • Ernie-1.0
      • Ernie-2.0
      • Ernie-3.0
    • 对比学习
      • SBert
      • SimCse
      • R-Drop
    • 检索模型
    • 排序模型
    • 提示学习
    • NER
      • 统计模型
        • HMM
        • CRF
      • 传统深度学习
        • bert+crf
      • Lattice
        • Lattice+cnn
        • Lattice+rnn
        • Lattice-transformer:FLAT
      • span
      • W2NER
    • 指针网络
    • 模型压缩
    • 文本向量模型
    • 对话系统
      • rasa
    • 语言大模型2
      • bloom
      • 抽取
    • 多模态大模型3
  • 三、机器学习
    • 基本概念
    • 数据预处理
    • 特征工程
    • 评估
    • 统计分析
    • LR
    • Tree
      • 决策树-基树-单树
        • ID3
        • C4.5
        • CART
      • 集成学习-EnsembleLearning
        • Bagging
          • 随机森林
        • Boosting
          • Adaboost
          • GBDT
          • Xgboost
          • LightGBM
    • Bayes
    • HMM算法
    • CRF算法
    • 正则化
    • 聚类
  • 四、数学
    • 优化理论
    • 概率和统计
    • 范数
    • 概率论
  • 五、数据结构与算法
    • 字符串
    • 数组
    • 数列
    • 链表
    • 二叉树
    • 队列
    • 堆
    • 栈
    • 排序算法
    • 查找算法
    • 动态规划
    • 递归算法
    • 数学
    • 位运算
  • 六、编程语言
    • tensorflow
    • python
    • pyspark
    • hive
    • elasticsearch
    • pytorch
    • pandas
    • 信息论
    • docker
    • conda
    • linux
  • 七、总结
    • 面试
    • GPU
    • 系统安装
    • 论文
  • 八、工作
    • jd
    • 教育
    • aeye
  • 九、其他
    • 空调选择
  • 十一、语音识别与合成
  • 十二、知识图谱

归档

  • December 2024
  • August 2024
  • July 2024
  • June 2024
  • May 2024
  • April 2024
  • March 2024
  • February 2024
  • January 2024
  • December 2023
  • November 2023
  • October 2023
  • September 2023
  • August 2023
  • July 2023
  • May 2023
  • April 2023
  • March 2023
  • February 2023
  • January 2023
  • December 2022
  • November 2022
  • October 2022
  • September 2022
  • August 2022
  • July 2022
  • June 2022
  • May 2022
  • March 2022
  • February 2022
  • January 2022
  • December 2021
  • November 2021
  • October 2021
  • August 2021
  • July 2021
  • June 2021
  • May 2021
  • March 2021
  • January 2021
  • December 2020
  • October 2020
  • September 2020
  • August 2020
  • July 2020
  • June 2020
  • May 2020

其它

  • 登录
  • 文章 RSS
  • 评论 RSS
  • Typecho
© 2025 小飞侠. 由 Typecho 强力驱动.