为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。
AWS Glue 简介(01:54)

AWS Glue 的优势

PB 级、按使用量付费计费、不限数据大小
灵活支持 ETL、ELT、批处理、直播等,无需锁定
在一项无服务器服务中提供完整的数据集成功能
支持从开发人员到企业用户的所有数据用户

工作原理

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

  • 数据集成引擎选项
  • 在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

    显示 AWS Glue 的多个数据处理引擎选项的图表。
  • 事件驱动型 ETL
  • AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。

    显示 AWS Glue 如何在新数据到达时运行您的 ETL 作业的图表。
  • AWS Glue Data Catalog
  • 您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

    显示数据目录在不移动数据的情况下发现和搜索数据集的图表。
  • 无代码 ETL 作业
  • AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。

    显示用户如何使用拖放编辑器来编写用于移动和转换数据的 ETL 作业的图表。
  • 管理和监控数据质量
  • AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。

    显示 AWS Glue 数据质量如何自动测量、监控和管理数据湖和数据管道中的数据质量的图表。
  • 数据准备
  • 使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

    显示 DataBrew 如何为用户自动执行数据准备任务的图表。

使用案例

高效发现数据

快速识别 AWS、本地和其他云端的数据,然后立即将其用于查询和转换。

交互式探索、处理数据以及对其进行实验

借助 AWS Glue 交互式会话,数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本,以交互方式探索和准备数据。

简化 ETL 管道开发

借助自动预置和工作线程管理,不再需要管理基础设施,并且可将所有数据集成需求合并到单一服务中。

支持各种处理框架和工作负载

更轻松地支持各种数据处理框架,例如 ETL 和 ELT,同时支持各类工作负载,包括批处理、微批处理和流式处理。

最新资讯

  • 日期(最新到最老)
未找到任何结果
1

深入了解 AWS