从头开始搭建谷歌云深度学习平台

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:紫薇星6网络

小提示:您能找到这篇{从头开始搭建谷歌云深度学习平台}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的从头开始搭建谷歌云深度学习平台内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!

< ">对于研究深度学习的朋友来说,GPU服务器是必不可少的,但是对于很多朋友来说可能没有现成的昂贵GPU服务器供使用,因此利用云服务器来训练模型成为另一个选型。谷歌云较其他云服务器(AWS,阿里云等等)的优势在于新注册账号有$300美金的免费使用额度,对于手头并不宽裕的学生党来说这可能是一个大的利好消息。今天我就来分享一下我是如何从头开始搭建基于谷歌云的深度学习平台。

< font-size: 16px;">第一步,

< font-size: 16px;">注册谷歌账号,登陆谷歌云网站,绑定visa信用卡,领取$300免费使用额度(这一步比较简单,有不清楚的地方google一下~)。PS:1.可能需要翻墙,因为我可以翻墙,没有试过不翻墙是否能完成这一步。2.听说最近好像要先花费$25才能得到免费额度。。。

< font-size: 16px;">第二步,

< font-size: 16px;">申请GPU配额。谷歌服务器提供三种GPU,分别是K80,P100和V100,大家可以根据需要申请。初学者一般K80就够用了。PS:申请提交之后需要一定的时间审核。

< font-size: 16px;">

< font-size: 16px;">第三步,

< font-size: 16px;">进入谷歌云控制台,选择computer engine,打开VM(Visual Machine),点击创建实例;

< font-size: 16px;">

< font-size: 16px;">Cpu选择4核15G内存,GPU选择K80

< font-size: 16px;">

< font-size: 16px;">系统选择Ubuntu16.04,硬盘选择200G机械硬盘。

< font-size: 16px;">防火墙流量选项都勾选上。

< font-size: 16px;">

< font-size: 16px;">完成之后点击创建按钮,等待几分钟之后,完成VM实例的创建。

< font-size: 16px;">第四步,

< font-size: 16px;">    安装深度学习的软件环境。

< font-size: 16px;">1.安装anoconda

< font-size: 16px;">    wget 

< font-size: 16px;">    bash 

< font-size: 16px;">    PS:可以选择下载安装不同的anaconda版本

< font-size: 16px;">   为了立刻使用 Anaconda,读取你的启动文件:

< font-size: 16px;">    source ~/.bashrc

< font-size: 16px;">2.安装cuda,cudnn

< font-size: 16px;">    安装CUDA运行时环境,首先确认一下系统应该至少没有安装除nvidia-common之外的任何nvidia的包:

dpkg -l | grep -i nvidia

否则使用以下命令删除多余的包及配置文件:

sudo apt-get remove --purge name_of_ package

sudo apt-get autoremove

然后我们需要下载CUDA的安装包和cuDNN:

sudo wget

sudo wget



sudo wget

接下来安装驱动和运行时:

sudo dpkg -i cuda-repo-ubuntu1604_8.0.61-1_amd64.deb

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-cublas-performance-update_8.0.61-1_amd64.deb

sudo apt-get update

查看可用的CUDA运行时版本:

sudo apt-cache policy cuda

安装CUDA8.0

< font-size: 16px;">sudo apt-get install cuda=8.0.61-1

添加源并更新到最新驱动:

sudo add-apt-repository ppa:graphics-drivers/ppa

这里记得需要敲回车键确认添加源

sudo apt-get update

sudo apt-get upgrade

sudo reboot

安装cuDNN

tar -xvf cudnn-8.0-linux-x64-v6.0.tgz

sudo cp cuda/include/cudnn.h /usr/local/cuda/include

sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64

sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

设置环境变量:

sudo vim ~/.bashrc

在文件最后添加下面内容:

< font-size: 16px;">export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"

< font-size: 16px;">export CUDA_HOME=/usr/local/cuda

< font-size: 16px;">export PATH="$CUDA_HOME/bin:$PATH"



生效更改

< font-size: 16px;">source ~/.bashrc

最后敲nvidia-smi确认驱动安装成功。

3.安装opencv3

  conda install -c  opencv3 

< font-size: 16px;">4.安装GPU版TensorFlow,keras,因为我安装的而是cuda8.0,因此需要安装对应的tensorflow和keras版本,大家可以根据自己的需求,更换不同的版本。

< font-size: 16px;">    pip install tensorflow-gpu==1.4

< font-size: 16px;">    pip install keras==2.1

< font-size: 16px;">5.安装unzip



< font-size: 16px;">    sudo apt-get install unzip

< font-size: 16px;">6.pip install imutils

< font-size: 16px;">7,查看已经安装的软件包

< font-size: 16px;"> Conda list

< font-size: 16px;">第五步,

< font-size: 16px;">    上传代码,下载数据集,开始模型训练。这一步,我向大家演示一遍利用我们搭建的谷歌云平台训练kaggle猫狗图像分类模型。

< font-size: 16px;">1.我们不需要把数据集下载到本地电商店铺运营哪家好再重新上传到谷歌云,直接利用下列指令完成数据集直接下载到服务器,简单快捷。

< font-size: 16px;">    pip install kaggle-cli

< font-size: 16px;">    kg download -u kaggle账户 -p 密码 -c dogs-vs-cats -f train.zip

< font-size: 16px;">通过上面两个指令,数据集就已经下载到服务器当前目录下了,ls查看一下吧~PS:下载数据集之前可能需要我们先登录kaggle,进入dogs-vs-cats竞赛,在Rules一栏中点击接受相关规则。 

< font-size: 16px;">

< font-size: 16px;">2.因为我是通过浏览器直接ssh到服务器的,因此在右上角就已经提供了上传和下载的功能,利用上传文件功能,将我们的代码上传到服务器吧。PS:大家也可以选择其他的方式上传代码,不会就google一下吧~

< font-size: 16px;">

< font-size: 16px;">3.开始训练,保存模型和结果。我利用了Alexnet跑了一遍,这里我向大家展示一下我的训练结果,Epoch24能达到验证集89%的准确率,训练更多的Epochs还能提高1%-4%左右的准确率。

< font-size: 16px;">

< font-size: 16px;">4.因为模型训练时间较长,ssh连接服务器的时候会因为长时间没有操作而断开,一旦连接断开,运行的训练程序也将被终止。。。

< font-size: 16px;">解决此问题有两种方法。

< font-size: 16px;">方案一:在客户端设置

< font-size: 16px;">方法很简单,只需在客户端电脑上编辑(需要root权限)/etc/ssh/ssh_config,并添加如下一行:

< font-size: 16px;">ServerAliv餐厅换菜危机公关eInterval 60

< font-size: 16px;">此后该系统里的用户连接SSH时,每60秒会发一个KeepAlive请求,避免被踢。

< font-size: 16px;">方案二:在服务器端设置

< font-size: 16px;">如果有相应的权限,也可以在服务器端设置,即编辑/etc/ssh/sshd_config,并添加:

< font-size: 16px;">ClientAliveInterval 60

< font-size: 16px;">需要注意的是在服务器端设置后需要重启该服务器以使连接生效:sudo reboot

< font-size: 16px;">重启后每一个连接到此服务器上的客户端都会受其影响。另外应注意启用该功能后,安全性会有一定下降(比如忘记登出时……)

< font-size: 16px;">第六步,

< font-size: 16px;">最后我们需要做的就是在训练完成之后,保存我们搭建深度学习的平台,下次需要直接就可以启用而不用再重新配置一遍。

< font-size: 16px;">进入GCP的磁盘一栏中,将之前创建的服务器磁盘(保存着我们的数据和代码)创建快照,完成之后,在快照一栏中查看是否已经生成快照。

< font-size: 16px;">

< font-size: 16px;">在下次需要训练的时候,重新创建实例,并在启动磁盘中选择之前保存的快照,完成创建。进入服务器之后,你会发现之前所有的数据都还保存着,然后开始你的下一次训练吧

< font-size: 16px;">

从头开始搭建谷歌云深度学习平台

上一篇:wish3款免费趋势工具,洞悉当前欧美真实消费需求
下一篇:TWITTER运营涨粉策略


版权声明:以上主题为“从头开始搭建谷歌云深度学习平台"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    从头开始搭建谷歌云深度学习平台
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“从头开始搭建谷歌云深度学习平台”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通从头开始搭建谷歌云深度学习平台的相关事宜。

关键词:从头开始搭建谷歌云深度

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号