检索baseline算法:bag of word + TFIDFn gram + TFIDFBM25LSA/pLSA/LDA参考文献:1.https://zhuanlan.zhihu.com/p/1479358512.https://tech.meituan.com/2020/08/20/mt-bert-in-document.html3.https://zhuanlan.zhihu.com/p/403223294.https://zhuanlan.zhihu.com/p/79202151
作者: admin
时间: 2021-01-25
分类: 教育
评论
访问: 2,766 次
请输入密码访问
一、查询建表语句show create table tablename
def get_sim_test(clear_stand_names_list,clear_names_list):return [float(0),0.9]
相似度计算udf_get_sim = F.udf(get_sim_test,ArrayType(FloatType()))xtl_data1 = xtl_data.withColumn('sim_max',udf_get_sim(xtl_data.stand_names_cut,xtl_data.skunames_cut))xtl_data1.select("standard_id","barndname_cn",- 阅读剩余部分 -
一、查看配置命令1.查看spark、scala版本号spark-submit --version2.
一、背景Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark作为大数据计算平台的后起之秀,在2014年打破了Hadoop保持的基准- 阅读剩余部分 -
一、定义RDD代表Resilient Distributed Dataset,它们是在多个节点上运行和操作以在集群上进行并行处理的元素。1.RDD是不可变元素,这意味着一旦创建了RDD,就无法对其进行更改。2.RDD也具有容错能力,因此在发生任何故障时,它们会自动恢复。您可以对这些RDD应用多个操作来完成某项任务 3.
一、题目列表:题目1、二叉树的深度题目2、二叉搜索树的第k个节点题目3、二叉树镜像题目4、从上往下打印二叉树题目5、二叉树中和为某一值的路径(一)题目6、重建二叉树 JZ7题目7、二叉树的下一个结点 JZ8题目8、树的子结构 JZ26定义:1.二叉树遍历二叉树的遍历分为两种方式:深度优先算法、广度优先算法(又叫层次遍历)(1)深度优先算法有三种方式:前序遍历、中序遍历、后序遍历有两种算法可以实现三种遍历:递归和迭代(非递归)【备注】:二叉树的深度优先遍历的非递归的通用做法是采用栈(2)广度优先算法有两种算法可以实现遍历:递归和迭代(非递归)广度优先遍历的非递归的通用做法是采- 阅读剩余部分 -
作者: admin
时间: 2020-10-21
分类: 数组
评论
访问: 1,412 次
一、题目列表题目1、构建乘积数组题目2、调整数组顺序使奇数位于偶数前面(一)题目3、把数组排成最小的数 JZ45题目4、丑数 JZ49题目5、数组中重复的数字 JZ3题目6、旋转数组的最小数字 JZ11题目7、打印从1到最大的n位数JZ17题目8、两数之和 leetcode1 :给定一个整数数组 nums 和一个整数目标值 target
一、题目列表
作者: admin
时间: 2020-10-20
分类: 面试
评论
访问: 1,779 次
数据不均衡解决方法
一、100G数据,1G内存如何排序思路:多路归并排序
L1 L2正则化的区别
一、算法背景1论文Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。二、算法过程TextCNN主要过程分为四部,也可以说是四个层。Embedding(文本向量化):将文本中的每个词语转换成相同维度的词向量。Convolution(卷积层):通过不同卷积核的大小kernel_size = - 阅读剩余部分 -
一、CRF模型的基本元素1、 CRF的五个基本元素HMM中,有5个基本元素:{I,O,A,B,π},我结合序列标志任务对这5个基本元素做一个介绍:(1)I:状态序列。在这里,是指每一个词语背后的标注。(2)O:观测序列。在这里,是指每一个词语本身。(3)A:转移特征函数(状态转移概率矩阵):$m_kt_k(y_{i-1},y_i,x,i)$,k为特征个数(4)B:状态特征函数(观测概率矩阵):$u_ls_l(y_i,x,i)$,$l$为特征个数2、CRF模型建模函数:$P(y|x)=\frac{1}{Z(x)} exp(\sum λ_kt_k(y_{i-1},y_i,x,i- 阅读剩余部分 -
一、HMM模型的基本元素1、 HMM的五个基本元素HMM中,有5个基本元素:{I,O,A,B,π},我结合序列标志任务对这5个基本元素做一个介绍:(1)I:状态序列。在这里,是指每一个词语背后的标注。(2)O:观测序列。在这里,是指每一个词语本身。(3)A:状态转移概率矩阵。在这里,是指某一个标注转移到下一个标注的概率。(4)B:观测概率矩阵,也就是发射概率矩阵。在这里,是指在某个标注下,生成某个词的概率。(5)π:初始概率矩阵。在这里,是指每一个标注的初始化概率。其中:$I = ({i_1,i_2,i_3...i_N})$ 状态序列$O = ({- 阅读剩余部分 -
对于CRF,直接用最大熵准则建模p(Y|X)的概率。而HMM,是在做了markov假设下去建模p(Y,X)(即一切观察量的联合概率分布)
作者: admin
时间: 2020-10-08
分类: 评估
评论
访问: 2,278 次
多模型评估的指标可以分为以下几个类别一.Accuracy,Precision,Recall要计算这几个指标先要了解几个概念:FN:False Negative,被判定为负样本,但事实上是正样本。FP:False Positive,被判定为正样本,但事实上是负样本。TN:True Negative,被判定为负样本,事实上也是负样本。TP:True Positive,被判定为正样本,事实上也是证样本。1.Accuracy (准确率)$ac=\frac {TP+TN}{TP+TN+FP+FN}$2.Precision(精确率、查准率)$P = \frac {TP}{TP+FP}$- 阅读剩余部分 -
« 前一页 1 ... 5 6 7 8 9 10 后一页 »