现今,由于政策和市场的双重作用下,我国的人工智能取得了十足的进步,“言必谈AI”已经成为各个科技领域和企业间交流必不可少的话题。各家企业渴望通过AI自身的发展和创新,AI帮助企业在数字化转型的过程中取得先发优势。搭建属于自己的AI平台成为了最近两年企业的重点战略规划。
企业想要搭建一个AI平台,需要根据自身的实际情况来选择,但其大体流程都可分为四个步骤:1、从数据源把原始数据导入到数据湖,对其进行拆分、清洗等数据预处理工作;2、把数据导入AI训练集群通过算法框架进行训练;3、训练结束后将得到最优参数进行设置模型,完成智能应用的部署;4、最后把机器学习的数据进行归档。
人工智能AI平台的构建不是只需要冻得算法就可以的,算法的成熟运用并不等于解决问题,也不等于可以可以更好的解决市场问题,而追求高效率、高性能、灵活易用的基础架构才是更古不变的基础。
人工智能AI平台基础架构中至关重要的就是存储架构:存储架构主要有三种模式:基于数据块的SAN存储,基于文件的NAS存储和对象存储。首先SAN存储无法实现跨不同主机共享数据,不适用于AI平台,可以排除;其次对象存储达不到AI平台数据管道所需的高性能也可以排除,所以文件存储是一个不错的选择,但文件存储系统也要满足以下条件:1、横向扩展架构例如或者GPFS;2、HDFS,通用的大数据文件系统;3、NFS,最广泛部署的共享文件系统。4、不牺牲性能的前提下,可以保存各种结构化和非结构化数据。数据库内容要包含关系型数据库和非关系型数据库;5、邮件日志;6个人主目录;
在满足上述条件的同时还要满足随机小IO和顺序大IO的性能文件系统必须能够在两者之间保持平衡性能。拥有最大性能和数据移动的能力:能够保持高效的移动数据。此外数据的生命周期还需自动分层智能决定不同数据集的存储位置,比如高性能层,归档层等;同时满足数据分类和过滤过程的实时性能;支持最新的存储和内存介质如NVMe和SCM等,从而在性能和延迟上获得数量级的提升你的AI平台选择的文件系统和数据架构至少应该满足以上条件,这对AI平台的长久发展非常重要。