课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
对于程序员来说,掌握的工具越多,在日常工作过程中的效率就能够有更进一步的提升,而今天我们就通过案例分析来了解一下,数据领域常用工具都有哪些。
1、Transform(stealth):Transform旨在构建一个度量标准存储库,以确保企业能够以标准化、格式化、有组织的方式捕获标准化的度量定义,从而进行流线分析并进行决策。Transform不是数据管道框架或商业智能工具。
2、Materialize:Materialize擅长在流数据之上执行和维护PostgreSQL查询,并以毫秒级的延迟保持新状态。Materialize不是时间序列数据库或其他流式微服务平台。
3、DataHub/Linkedln:DataHub是一个由元数据支持的搜索和发现程序,旨在提高AI和数据科学的生产效率。它具有独特的分布式流优先元数据体系结构,已使其在LinkedIn的人脉和大数据上获得成功。它不是数据集成或处理工具,也不是用于运行数据质量检查的协调器。
4、Prefect:Prefect是一种工作流程编排工具,可让用户使用纯PythonAPI定义任务流,并使用可扩展基础结构轻松部署它们。Prefect可提供建立健壮管道所需的语义,例如重试,日志记录,缓存,状态转换回调,故障通知等。Prefect不是无代码工具或基础结构提供程序。
5、Marad/ProjectA:Mara旨在将SQL,Bash和Python脚本组合到管道中。从命令行或通过WebUI运行管道。Mara不是调度、数据移动或依赖关系检测工具。
6、dbt/FishtownAnalytics:dbt擅长在数据仓库中创建、维护和记录基于SQL业务逻辑的数据库可用性组(DatabaseAvailabilityGroup,DAG)。不过dbt不是通用的工作编排器。
7、Watchful:Watchful主要用于在无标注人工的情况下,快速创建大规模、高质量且带有概率标签的训练数据。通过Watchful,你可以通过反馈机制快速构建、测试和原型化模型。
8、Preset:Preset是ApacheSuperset的制造商设计的基于SaaS的数据探索和可视化平台。9、Preset用于可视化和数据消耗分析,它不是计算或编排平台。
10、Kedro:Kedro是一个针对数据和ML管道的棒的软件。Kedro使用可重现的分析工作流程,I/O抽象和管道建模,实现了从实验到生产的无缝过渡。Kedro不是工作流协调器或实验跟踪框架。
11、ToroData:Toro擅长于帮助团队在其数据上部署相应的监视,同时它还会提供建议监视的内容并使其易于执行而无需编写和部署代码。Toro不会清理或改变数据,也不会原生地控制管道或工作流流。
12、Tecton:Tecton非常适合于策划和服务产品功能。Tecton不是数据处理引擎(例如Spark)或模型管理工具。相反,它利用现有的数据处理引擎来处理原始批、流、实时数据,将其转换为功能,并部署这些功能以进行训练和提供服务。
13、Dagster/Elementl:Dagster是一个数据协调器,擅长为本地开发、测试、部署和操作构建数据应用程序。Dagster管道组件可以使用任何语言或框架进行创作,并通过通用元数据和工具组合在一起以形成统一的数据应用程序。Dagster不是处理引擎,也不是数据或对象仓库。
14、SelectStar:SelectStar是用于解决数据发现问题的数据目录和管理工具。它在帮助你理解数据方面具有独特的优势,例如提供以下这些信息:你拥有什么数据、数据的存放位置、数据结构以及使用方式。SelectStar不提供SQL客户端或ETL(Extract-Transform-Load)处理。
15、MonteCarlo(stealth):MonteCarlo是一个数据可靠性分析平台,其中包括数据监视、故障排除和事件管理。MonteCarlo不是测试框架、管道或版本控制工具。
16、Flyte/Lyft:Flyte专门用于开发可扩展的、容器原生的可复验的管道,这些管道连接不同的分布式系统,同时使数据流处于前部和中心。Flyte不是机器学习平台,但可以作为其核心组件之一。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。