admin 发布的文章

spark基本名词介绍

作者: admin
时间: 2022-03-20
分类: pyspark
评论

一、基本流程

对spark里面一些基本名词介绍一下

master和worker节点：
master节点常驻master守护进程，负责管理worker节点，我们从master节点提交应用。
worker节点常驻worker守护进程，与master节点通信，并且管理executor进程。

1，Application

application（应用）其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分：从数据源（比方说HDFS）取数据形成RDD，通过RDD的transformation和action进行计算，将结果输出到console或者外部存储（比方说collect收集输出到console）。

2，Driver

Spark中的driver感觉其实和yarn中Application Master的功能相类似。主要完成任务的调度以及和executor和cluster manager进行协调。有client和cluster联众模式。client模式driver在任务提交的机器上运行，而cluster模式会随机选择机器中的一台机器启动driver。从spark官网截图的一张图可以大致了解driver的功能。

3，Job

Spark中的Job和MR中Job不一样不一样。MR中Job主要是Map或者Reduce Job。而Spark的Job其实很好区别，一个action算子就算一个Job，比方说count，first等。

4, Task

Task是Spark中最新的执行单元。RDD一般是带有partitions的，每个partition的在一个executor上的执行可以任务是一个Task。

5, Stage

Stage概念是spark中独有的。一般而言一个Job会切换成一定数量的stage。各个stage之间按照顺序执行。至于stage是怎么切分的，首选得知道spark论文中提到的narrow dependency(窄依赖)和wide dependency（宽依赖）的概念。其实很好区分，看一下父RDD中的数据是否进入不同的子RDD，如果只进入到一个子RDD则是窄依赖，否则就是宽依赖。宽依赖和窄依赖的边界就是stage的划分点

模型压缩总结

作者: admin
时间: 2022-03-19
分类: 模型压缩
评论

一、模型压缩的几种方式

1.模型量化

2.模型剪枝

3.模型蒸馏(知识蒸馏)

Bert系列模型的蒸馏方法分预训练的阶段、Finetune阶段的蒸馏：

(1)预训练的阶段

针对Bert系列模型的蒸馏方法，有distillbert和tinybert，这些模型都是直接作用在bert预训练的阶段，然后把训练好的模型应用到下游任务，这样的压缩蒸馏方法对一般人来说不太友好

(2)Finetune阶段的蒸馏方法有如下两种方式：

1)基于FastBert的蒸馏：（https://arxiv.org/pdf/2004.02178.pdf）
2)基于bert-of-theseus方式进行蒸馏（https://arxiv.org/pdf/2002.02925.pdf）
```
可以把Bert按照module replacing的方式来做压缩。
```

4.模型其他方案

(1)权重共享

RoBERTa 和 ALBERT中介绍的 ALBERT 也是一种 BERT 压缩方法，主要是用了参数共享和矩阵分解的方法压缩 BERT

二、英伟达模型硬加速

介绍：
目前针对预训练模型推理加速，在模型不掉点情况下实现精度无损加速，目前尝试有效的方案：
1、TensortRT-Fp32加速
2、FasterTransformer-Fp32加速
注意：
1、针对Bert系列模型：在P40卡只能使用低版本TRT(<8)，经过测试低版本trt加速效果不如FT的加速效果，如果是高算力的卡优先建议使用高版本TRT来加速。
2、针对基于Transformer+beamSearch这类生成模型：这里建议直接使用FT来实现加速，TRT在此类模型的加速收益不如FT。

https://blog.csdn.net/HUSTHY/article/details/115174978

字符串

作者: admin
时间: 2022-02-28
分类: 字符串
评论

一、题目列表

题目1、第一个只出现一次的字符

题目2、替换空格 JZ5

题目3、整数中1出现的次数（从1到n整数中1出现的次数）

- 阅读剩余部分 -

层次聚类 agglomerative

作者: admin
时间: 2022-02-10
分类: 聚类
评论

常用激活函数

作者: admin
时间: 2022-01-28
分类: 激活函数
评论

一、sigmoid 函数

1.公式

$y(x) = \frac{1}{1+e^{-x}}$

2.图像

3.性质

(1)$y'= y*(1-y)$
(2)$y'$导数的最大值为：1/4

4.作用

一般做神经网络最后一层的二分类来用
这个函数非常适合将输入分为两类。它的形状很缓和，因此它的梯度能得到很好的控制。
主要的缺点是，在极端情况下，函数输出变得非常平坦。这意味着它存在梯度消失的问题。

二、softmax函数

1.公式

$y(x)=\frac{e^xi}{\sum_{i=1}^m e^xi}$

2.图像

softmax没有图像，刻画的是百分比，解释图像为
aHR0cHM6Ly9pbWFnZXMyMDE4LmNuYmxvZ3MuY29tL2Jsb2cvMTE4MDEyMC8yMDE4MDUvMTE4MDEyMC0yMDE4MDUyMDE5MDYzNTg5MS0xNTM3MzA5MDQ4LnBuZw.png

4.作用

一般做神经网络最后一层的多分类来用

三、tanh函数

1.定义

$y(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}}$

2.图像

3.性质

(1)$y'= 1- y^2$
(2)$y'$导数的最大值为：1

4.作用

它与Sigmoid非常相似。函数曲线更陡峭，因此它的输出也将更强大。缺点与Sigmoid类似。

四、RELU函数

1.定义

线性整流函数（Linear rectification function），又称修正线性单元，是一种人工神经网络中常用的激活函数（activation function），通常指代以斜坡函数及其变种为代表的非线性函数。
公式：
微信截图_20240522112114.png

f(x)=max(0,x)

2.图像

3.作用

它的输出范围从0到无穷大。这意味着它的输出可能会变得非常大，可能存在梯度爆炸问题。它还有个问题是左侧完全平坦，可能导致梯度消失。

ReLU计算简单，是神经网络内层最常用的激活函数。

参考文献
1.https://blog.csdn.net/u014665013/article/details/86600489

五、swish

1、定义

Swish是一个非线性激活函数，定义如下:

 Swish(x) = x*sigmoid(ßx)

微信截图_20240527170410.png
σ是sigmoid函数，β betaβ是可学习的参数或者一个固定超参数。

其中，ß 为可学习参数。Swish可以比ReLU激活函数更好，因为它在0附近提供了更平滑的转换，这可以带来更好的优化。

2、图像

微信截图_20240527165254.png

六、GLU系列

1、原生 GLU

(1).定义

 GLU(x) = (Vx+c)⊗sigmoid(W1x+b)

⊗ ：代表对应元素位分别相乘，是矩阵间的按元素乘。

2、GLU的各种变体

主要是将sigmoid换成 Relu、Gelu、swish等

(1) SwiGLU

SwiGLU可以看做采用Swish作为激活函数的GLU变体

(2) ReGLU

ReGLU是采用ReLU函数作为激活函数的GLU变体

(3) GeGLU

GEGLU则可以看做采用GELU作为激活函数的GLU变体
GLM-130B 大模型使用的是GEGLU。

admin 发布的文章

spark基本名词介绍

一、基本流程

1，Application

2，Driver

3，Job

4, Task

5, Stage

模型压缩总结

一、模型压缩的几种方式

1.模型量化

2.模型剪枝

3.模型蒸馏(知识蒸馏)

(1)预训练的阶段

(2)Finetune阶段的蒸馏方法有如下两种方式：

4.模型其他方案

二、英伟达模型硬加速

字符串

一、题目列表

题目1、第一个只出现一次的字符

题目2、替换空格 JZ5

题目3、整数中1出现的次数（从1到n整数中1出现的次数）

层次聚类 agglomerative

常用激活函数

一、sigmoid 函数

1.公式

2.图像

3.性质

4.作用

二、softmax函数

1.公式

2.图像

4.作用

三、tanh函数

1.定义

2.图像

3.性质

4.作用

四、RELU函数

1.定义

2.图像

3.作用

五、swish

1、定义

2、图像

六、GLU系列

1、原生 GLU

2、GLU的各种变体

(1) SwiGLU

(2) ReGLU

(3) GeGLU

最新文章

最近回复

分类

归档

其它