K8S部署GPU

准备工作

1,下载gpu驱动，目前dui环境使用的gpu驱动版本是NVIDIA-Linux-x86_64-381.22.run，由于在最新版本的驱动上使用存在内存泄漏的问题，没有使用最新版本

2,服务器安装gcc和kernel-devel，kernel-devel的版本和uname -a 查到的内核版本一致，如果内核不是最新的，可以将内核升级到最新版本，或者到网站搜索对应的rpm包。如果服务器是阿里云ECS，只能搜索对应的rpm包，不要升级操作系统版本，否则会导致ecs重启失败。

安装过程

1) 删除nouveau模块

2) 添加blacklist.conf在 /etc/modprobe.d 里面，.内容如下(请注意双引号在不同环境下的变化，切记）

3) 重建initramfs

4)重启 reboot

5)重启完成后执行./NVIDIA-Linux-x86_64-381.22.run ,所有选项使用默认值，一些warning提示可以忽略

6)驱动安装完成后，执行nvidia-smi可以查看gpu驱动是否安装成功

运行cuda

1,安装docker-1.13.1

tee /etc/yum.repos.d/docker.repo <<-'EOF'
[dockerrepo]
name=Docker Repository
baseurl=https://yum.dockerproject.org/repo/main/centos/7/
enabled=1
gpgcheck=1
gpgkey=https://yum.dockerproject.org/gpg
EOF

yum -y install docker-engine-1.13.1-1.el7.centos
systemctl enable docker.service

mkdir -p /etc/systemd/system/docker.service.d
tee /etc/systemd/system/docker.service.d/docker.conf <<-'EOF'
[Service]
ExecStart=
ExecStart=/usr/bin/dockerd -D -H tcp://0.0.0.0:27000 -H unix:///var/run/docker.sock -g /data/docker -D --insecure-registry docker.v2.aispeech.com --registry-mirror=http://33391a94.m.daocloud.io
EOF
systemctl daemon-reload

2,安装nvidia-docker-1.0.1-1.x86_64.rpm

rpm -ivh nvidia-docker-1.0.1-1.x86_64.rpm

3，启动nvidia-docker

systemctl start nvidia-docker

systemctl enable nvidia-docker

4，手动起cuda容器

执行start_cuda.sh 脚本，运行cuda服务

5，服务起来后，docker logs xxx 查看cuda容器日志，出现如下日志，表示服务正常