admin 发布的文章

一、GPU驱动安装

1.查看驱动是否安装

用下面的指令,如果返回了显卡信息说明驱动已经安装:

nvidia-smi  

或者

sudo apt-get install mesa-utils  
glxinfo | grep rendering  

https://mirrors.aliyun.com/centos-vault/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso?spm=a2c6h.25603864.0.0.365f12cfhbiLSE
参考:
1.驱动安装
https://www.jianshu.com/p/ee45d66e046c
2.cuda
https://blog.csdn.net/qq_29600137/article/details/122414416
https://blog.csdn.net/qq_43744723/article/details/119135242

cuda两个api

CUDA 有两种API,分别是 运行时 API 和 驱动API,即所谓的 Runtime API 与 Driver API。
CUDA有两个主要的API,runtime API(nvcc -V 显示的cuda)和driver API(nivdia-smi中显示的cuda),两者都有相应的版本(例如8.0、9.0等)。对driver API的必要支持(e.g. libcuda.so on linux),是由GPU驱动安装程序安装的。对runtime API(e.g. libcudart.so on linux, and also nvcc)的必要支持,是由CUDA工具包安装程序安装的(如cuda toolkit可能也捆绑安装GPU驱动程序,如下图)。

nvidia-smi 的结果除了有 GPU 驱动版本型号,还有 CUDA Driver API的型号,而nvcc的结果是对应 CUDA Runtime API

一般情况下,driver API版本与runtime API版本不相同。特别是GPU驱动程序是独立于CUDA工具包(i.e. the CUDA toolkit)下安装的。这样nvidia-smi中的cuda是由NVIDIA GPU 驱动包安装的,而不是由CUDA toolkit安装的。driver API版本的cuda,就与runtime API版本的cuda没有联系了。

因为由CUDA toolkit安装的cuda编译-驱动工具nvcc,总是会报告cuda运行时版本。nvcc不知道系统安装了什么驱动版本,甚至不知道系统是否安装了GPU驱动。

所以,这两个版本不必完全相同,因为它们反映了两种不同的cuda API。而且在大多数情况下,nvidia-smi报告的cuda版本在数值上等于或高于nvcc -V报告的cuda版本。

2、在安装CUDA 时候会安装3大组件,分别是 NVIDIA 驱动、toolkit 和 samples。NVIDIA 驱动是用来控制 GPU 硬件,toolkit 里面包括nvcc编译器等,

samples或者说SDK 里面包括很多样例程序包括查询设备、带宽测试等等。上面说的 CUDA Driver API是依赖于 NVIDIA 驱动 安装的,而CUDA Runtime API 是通过CUDA toolkit 安装的。

意图树结构.png
让机器和人类有相同的思考理解能力,并且机器可以和人类进行拟人化的交互
知识图谱的构建离不开NLP技术对于自然语言的抽取、NLP的应用离不开知识图谱的关联方分析和推理能力。

认知智能是探寻人类学习、理解、产生决策的生物能力,并将之赋予机器的技术统称,而实现机器认知,需要突破感知泛在、意识建立、低维到高维的主观概念形成、推理决策能力唤醒,以及多模态知识持续学习等能力瓶颈,其产生的价值也将使人工智能更加贴近人类的思维方式,而知识图谱作为人类意识和概念的承载体是现阶段认知智能主要的发展方向之一。

语音识别的难点

1.语音激活测验(VAD):顾名思义,指的就是判断什么时候有语音什么时候没有语音(静音),后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上去进行计算的。
2.2.语音唤醒(VT):可以理解为喊名字,引起电视这个“听者”的注意。比如苹果的“heySiri”,Google的“OK Google”,创维的“小度”等,VT的目的是告诉电视(或手机),接下来的话是对你讲的哦,认真听好了。

3.回声消除(Echo Cancelling):在近场语音的环境下,播放音乐或是语音播报的时候可以使用按键进行停止,但远场环境下想要通过语音来进行控制,就必须得实现回声消除,不然,可能会对“电视”识别造成识别重复或者是错误。

4.低信噪比(signal to noise ratio,SNR)和混响(Reverberation):远场环境下要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。这样的环境下,噪音必然会很大,从而使得语音质量变差,所以,要解决这个问题的技术点,就必须在有效的距离下进行不间断的采集有效振幅以及混响状态,达到一个稳定值并最终得到解决

深度学习降噪模型针,高噪音,

5.鸡尾酒会问题(cocktail-party problem):这个问题很有意思,说的就是这是指有多个说话人情况下的语音识别问题,比如鸡尾酒会上很多人讲话。如果你要听清一个人讲话那么像手势、口型、表情以及聊天话题这些干扰因素,就都会对你造成影响,这种环境下的语音识别是相当有挑战的。
声纹检测与跟踪,端点检测

7.方言,口音,情绪语音

6.6.关于语音识别的未来:简单来说,便是以后我们是否会实现《钢铁侠》中的智能助手贾维斯这样的故事情节,并且除了语音之外,显示屏和手势控制也是非常高效的交互手段。而对于语音助手,除家庭助手之外,就像电影《Her》中想象的一样,将来可能会成为真正的助手,与你真正形影不离。

语音识别(ASR)、声纹识别(VPR)、自然语言处理(NLP)、语音合成(TTS)、语音去噪