简介:摘要面对当前互联网数据量的剧增,深度学习的训练集也随之指数增长,单台计算机的运算能力已经难以满足现状。例如,ImageNet和vgg16及vgg19模型所需要训练的参数在个人计算机的GPU上已难以完成训练。本文详细描述了通过研究机器学习的并行化计算及分布式训练来缩短训练周期,对集群的管理来合理分配训练的计算机资源,详细介绍了搭建Kubernetes集群的过程,实现在CentOS上部署Kubernetes集群,并且对云容器提高机器学习训练周期的示例做了展示。最后,对云容器分布式训练的应用价值进行了阐述。