小飞侠

spark基本名词介绍

作者: admin
时间: 2022-03-20
分类: pyspark
评论
访问: 1,456 次

一、基本流程对spark里面一些基本名词介绍一下master和worker节点：master节点常驻master守护进程，负责管理worker节点，我们从master节点提交应用。worker节点常驻worker守护进程，与master节点通信，并且管理executor进程。1，Applicationapplication（应用）其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分：从数据源（比方说HDFS）取数据形成RDD，通过RDD的transformation和actio- 阅读剩余部分 -

模型压缩总结

作者: admin
时间: 2022-03-19
分类: 模型压缩
评论
访问: 1,854 次

一、模型压缩的几种方式1.模型量化2.模型剪枝3.模型蒸馏(知识蒸馏)Bert系列模型的蒸馏方法分预训练的阶段、Finetune阶段的蒸馏：(1)预训练的阶段针对Bert系列模型的蒸馏方法，有distillbert和tinybert，这些模型都是直接作用在bert预训练的阶段，然后把训练好的模型应用到下游任务，这样的压缩蒸馏方法对一般人来说不太友好(2)Finetune阶段的蒸馏方法有如下两种方式：1)基于FastBert的蒸馏：（https://arxiv.org/pdf/2004.02178.pdf）2)基于bert-of-theseus方式进行蒸馏（https://a- 阅读剩余部分 -

字符串

作者: admin
时间: 2022-02-28
分类: 字符串
评论
访问: 2,246 次

一、题目列表题目1、第一个只出现一次的字符题目2、替换空格 JZ5题目3、整数中1出现的次数（从1到n整数中1出现的次数）

层次聚类 agglomerative

作者: admin
时间: 2022-02-10
分类: 聚类
评论
访问: 2,638 次

常用激活函数

作者: admin
时间: 2022-01-28
分类: 激活函数
评论
访问: 2,757 次

一、sigmoid 函数1.公式$y(x) = \frac{1}{1+e^{-x}}$2.图像3.性质(1)$y'= y*(1-y)$(2)$y'$导数的最大值为：1/44.作用一般做神经网络最后一层的二分类来用这个函数非常适合将输入分为两类。它的形状很缓和，因此它的梯度能得到很好的控制。主要的缺点是，在极端情况下，函数输出变得非常平坦。这意味着它存在梯度消失的问题。二、softmax函数1.公式$y(x)=\frac{e^xi}{\sum_{i=1}^m e^xi}$2.图像softmax没有图像，刻画的是百分比，解释图像为4.作用一般做神经网络最后一层的多分类来用三、t- 阅读剩余部分 -

pandas中dataframe转为pyspark的dataframe

作者: admin
时间: 2022-01-12
分类: pandas
评论
访问: 2,999 次

一、二、代码##粗召回数据处理 pandas_df = pd.read_csv("./clothes_women_1356.txt",sep='\t',dtype=str) schema = StructType([StructField("item_sku_id", StringType(), True) ,StructField("item_first_cate_cd", StringType(), True) ,StructFie- 阅读剩余部分 -

python虚拟环境调用

作者: admin
时间: 2022-01-07
分类: python
评论
访问: 3,030 次

如果虚拟环境已经配置好了tf或者pytorch环境可以直接调用一、先测试环境是否可用一般路径：/home/admin/anaconda3/envs/py36_tf2_fj/bin/python注意测试的时候在bin 目录下不能用 python 需要使用./python1.tf框架import tensorflow as tftf.test.is_gpu_available()结果如果为True代表tf环境可用2.torch框架import torchtorch.cuda.is_available()

深度学习中的判别模块

作者: admin
时间: 2021-12-06
分类: 基础概念
评论
访问: 1,777 次

深度学习的几个步骤一、特征抽取二、判别模块对结果概率的判定：得到logits具体衡量为：1.通过linear层:分类2.通过欧氏距离：是否同品3.通过余弦距离：是否同品三、损失函数四、参数更新误差方向传播

多模态融合

作者: admin
时间: 2021-11-23
分类: 多模态大模型3
评论
访问: 1,924 次

http://blog.17baishi.com/11613/

伯努利分布

作者: admin
时间: 2021-11-10
分类: 概率论
评论
访问: 2,058 次

定义：伯努利分布是假设随机变量x取值要么为0，要么为1，取1发生的概率为p，那么取0的概率是1-p详细参考：https://zhuanlan.zhihu.com/p/259571672

pytorch的并行计算

作者: admin
时间: 2021-10-29
分类: 二、深度学习
评论
访问: 2,639 次

Pytorch的nn.DataParallel参考文献1.https://zhuanlan.zhihu.com/p/102697821

递归算法

作者: admin
时间: 2021-10-05
分类: 递归算法
评论
访问: 2,324 次

参考：1.https://blog.csdn.net/storyfull/article/details/102671946

centos中使用docker安装微信

作者: admin
时间: 2021-08-08
分类: docker
评论
访问: 1,559 次

sudo docker run -d --name wechat --device /dev/snd --ipc="host" \ -v /tmp/.X11-unix:/tmp/.X11-unix \ -v $HOME/WeChatFiles:/WeChatFiles \ -e DISPLAY=unix$DISPLAY \ -e XMODIFIERS=@im=ibus \ -e QT_IM_MODULE=ibus \ -e GTK_IM_MODULE=ibus \ -e AUDIO_GID=`getent group audio | cut- 阅读剩余部分 -

hive列转行

作者: admin
时间: 2021-07-29
分类: hive
评论
访问: 2,077 次

SELECT upc_y, standard_idFROM table lateral VIEW explode(split(upc, ';')) t1 AS upc_y注意这里对特殊字符要进行转义： '#\$%#' ';'(1)有的符号是特殊字符，有的不是''' select sku_name sku_name_cleans, from aa lateral VIEW explode(split(sku_name, '#\\\$%#')) t1 AS sku_name_cleans where - 阅读剩余部分 -

贝叶斯算法

作者: admin
时间: 2021-07-23
分类: Bayes
评论
访问: 1,307 次

一、基本概念1.分类原理通过某对象的先验概率，利用贝叶斯公式，计算出其后验概率。即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。2.贝叶斯公式$$P(A|B) = \frac{P(B|A)*P(A)}{P(B)}$$(1).其中P(A)为先验概率：先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为"由因求果"问题中的"因"出现的概率。；(2).其中P(B|A)为似然概率(likelihood)，条件概率：是先前统计的事件中，A事件发生情况下B事件发生的概率(3).其中P(B)为边界似然概率；(4).- 阅读剩余部分 -

空调参数选择

作者: admin
时间: 2021-06-17
分类: 空调选择
评论
访问: 1,761 次

一、定频&变频1.先说定频空调定频空调的功率是固定的，开启后以固定功率工作。比如你1500W功率，那就一直以1500W功率运行，外机达到设定温度后会停机，感温器感知室内温度变化后外机启动运行，如此反复不断。这里有一些问题，室内温度变化到外机再启动中间会有时间差，导致用户会感觉忽冷忽热；同时外机频繁启停也是定频空调更费电的原因；有一些用户睡觉比较轻，外机频繁启停对睡眠质量影响很大。。2.接着说变频空调变频空调相比定频多了一个变频器，外机工作时它的功率可以不断变化，所以除了额定功率，变频空调多了变频功率。以1.5P变频空调举例，它的额定功率一般是1000W，变频功率会在100w- 阅读剩余部分 -

hive常用sql

作者: admin
时间: 2021-05-12
分类: hive
评论
访问: 1,954 次

一、建表CREATE TABLE a like b查看hive建表语句：show create table tablename;二、复制数据set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert into table A partition (dt,data_type)select * from B WHERE dt=sysdate(-1)三、查看表结构describe tablename; 简写：desc tablename;四、排序SELE- 阅读剩余部分 -

es查询title必须包含[str1,str2],尽量包含[str3,str4]

作者: admin
时间: 2021-03-31
分类: elasticsearch
评论
访问: 1,983 次

curl -s -H "Content-Type: application/x-ndjson" -XPOST http://jiesi-777:1A8DD78DE3730A63157772E24794ED4816BE3BB7@10.194.37.171:40005/voc_pre_tag_sent_db_v3/_search?pretty -d '{"query":{"bool":{"must":[{"match":{"phrase":{"query":"退货客服","operator":"and"}}}],"should":[{"match":{"phrase":{"q- 阅读剩余部分 -

字符串-回文算法

作者: admin
时间: 2021-03-07
分类: 字符串
评论
访问: 1,266 次

一、定义

BM25算法

作者: admin
时间: 2021-01-29
分类: 搜索
评论
访问: 2,730 次

一、背景BM25算法本质上来说是tf-idf的升级版本。 tf-idf的全程是：词频-逆文档频率(term frequency–inverse document frequency),就是词频*逆文档频率。 BM25全程：best match,思想和tf-idf是一样的。二、TF-IDF公式1.TF在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里- 阅读剩余部分 -