认识达内从这里开始

认真做教育专心促就业

运城软件开发原始数据的存储方法都有哪些

发布：运城达内教育官网
来源：互联网
时间：2021-05-11 08:29

我们在前几期的文章中给大家简单介绍了数据处理等知识点，而本文我们就继续来学习一下，原始数据的存储方法都有哪些。

运城软件开发原始数据的存储方法都有哪些

原始数据，也叫做数据源，也就是机器学习的燃料。平台本身并不关心原始数据是如何被收集的，只关心数据存储的方式和位置。存储的方式决定了平台是否能支持此种数据的操作。存储的位置决定了平台是否有权限、有能力去读取到此数据。按主流的情况来看，原始数据的存储一般支持四类形式：

传统的数据库，例如RDS/NoSQL。这类数据源见得比较少，因为一般在大数据场景下，通用的解决方案是将此类数据源通过一些工具导入到大数据体系中(如Sqoop)。对于此类数据源的支持也是很简单的，使用通用的Driver或者Connector即可。

以HDFS为媒介的通用大数据存储。此类数据源使用较为广泛，常见的是HDFS文件(parquet/csv/txt)和基于HDFS的HIVE数据源。另外，由于是大数据场景下的数据源，所以上层的框架支持较为完善。

NFS。NFS由于其快速的读写能力，以及悠久的历史。很多企业内部都有此基础设施，因而已有的数据也极有可能存储在上面。

OSS(对象存储)。过于流行的要属S3了。对象存储是作为数据湖的方案，使用简单，存储理论上无限，和HDFS一样具备数据高可用，不允许按片段更改数据，只能修改整个对象是其缺点。

值得注意的是，NFS和OSS一般用于存储非结构化数据，例如图片和视屏。或者用于持久化输出目的，如容器存储，业务日志存储。而HDFS和数据库里面存放的都是结构化、半结构化的数据，一般都是已经经过ETL处理过的数据。存储的数据不一样决定了后续的处理流程的区别：

NFS/OSS系数据源，基本上都是通过TensorFlow/Pytorch来处理，数据一般通过Mount或者API来操作使用。当然也有特例，如果是使用云服务，例如AWS的大数据体系的话，绝大多数场景下，是使用S3来代替HDFS使用的，这也得益于AWS本身对于S3的专属EMRFS的定制化。当然Spark本身等大数据处理框架也是支持此类云存储的。

HDFS系和传统数据库系数据源，这个大数据框架、Python系框架都是可以的。

平台一般会内嵌对以上数据源的支持能力。对于不支持的其他存储，比如本地文件，一般的解决方案是数据迁移到支持的环境。

希望这辈子，最让你无悔的事情就是来达内学习！学习向来不是件易事，但无论过程多么艰难，希望你依然热爱生活，热爱学习！永远记得，达内将与你一同前行！现在扫码，立即领取万元课程礼包，助力0基础快速入行，为你梳理行业必备技能，全方位了解岗位发展前景！

【免责声明】本文系本网编辑部分转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与管理员联系，我们会予以更改或删除相关文章，以保证您的权益!更多内容请在707945861群中学习了解。欢迎关注“达内在线”参与分销，赚更多好礼。

< 上一篇：手动测试与自动化测试之间的区别都有哪些

下一篇：运城大数据数据治理都有哪些要求 >