EN 加入我们

免费下载

请填写以下信息获取免费下载资源

  • 公司名称

    *
  • 姓名

    *
  • 职务

    *
  • 电子邮箱

    *
  • 手机

    *
  • 验证码

    获取验证码
  • 公司名称

    *
  • 姓名

    *
  • 职务

    *
  • 电子邮箱

    *
  • 手机

    *
  • 验证码

    获取验证码

留言反馈

请填写以下信息反馈问题或建议

  • 公司名称

    *
  • 姓名

    *
  • 职务

  • 电子邮箱

    *
  • 手机

    *
  • 反馈内容

  • 验证码

    获取验证码

零售行业数据湖建设项目

深入挖掘数据湖价值,提供数据应用上一致的技术栈

方案背景

某品牌积累了海量的客户数据。为了提供创新的个性化服务,需要以构建数据湖的形式为这些服务提供统一的数据平台,并在此基础上实现用户画像、行为分析等目的。

为了深入的发挥出数据湖的丰富价值,同时确保该品牌在布局全球的数据应用上具有一致的技术栈,品牌方与华讯网络合作,在亚马逊云科技宁夏区构建数据湖,以替换其原先的数据湖方案。

品牌原有的数据湖方案存在以下缺陷:

* 计算实例类型单一,不利于成本优化。

* 出于安全考虑,数据湖从global数据源获取用户数据受限。新数据湖需要提升数据存储和处理的安全性,以获得对接global数据的安全等级要求。

* 缺乏易用的账单分析和成本优化工具。

* 运维复杂度高,亟需借助更全面的运维工具提升运维效率和质量。

* 架构先进性有待提高,从而实现数据分析软件开发/部署的容器化和微服务化需求,提升各类上层应用的交付敏捷性。

* 无法与品牌在全球的数据湖技术栈对齐。无法为global数据开发团队提供标准、熟悉的环境。

* 大量使用通过开源软件实现的自建服务组件,造成了较高的架构复杂度和运维难度。希望在新数据湖中逐步使用云原生的托管服务来替代自建服务组件,以降低运维成本。

上述缺陷目前已经对该品牌的业务发展产生了限制,亟待在新的数据湖环境下得以解决。此外,品牌的技术团队正在向DevOps和容器化方向做技术转型,因此,希望在新数据湖的构建过程中充分考虑DevOps和容器化建设。


方案描述

华讯网络按照亚马逊公有云的架构设计原则,并考虑到和品牌方原本的技术栈的顺利衔接,以EMR和S3为核心打造此次亚马逊云上数据湖方案,并按照客户所需的功能、性能、安全、监控、运维需求进行设计和实施。

架构中,接入的数据主要来自于各大电商平台,经由Internet到达一系列运行于EC2 Auto Scaling Group中的Apache开源数据处理组件进行前期处理后,存放到S3存储桶中。此外,新接入了一部分来自于global数据湖的用户数据,经由品牌方的内部网络到达Glue进行处理后,也存放于S3存储桶中。该S3中的数据可由Glue进行一系列ETL处理。

保存后的各项原始数据由EMR负责处理,处理过程由EMR上运行的Spark和Flink针对批量数据和流数据分别进行,处理结果将分类存储到S3、RDS和Redshift中。此外,存储桶中的数据可以使用Athena进行查询。品牌方要求的用于调度Spark数据处理任务的Airflow系统也被部署到EC2中。同时,各部门的数据分析师以及个性化应用的开发人员可按需(在其权限内)使用EMR获得所需结果。

通过上述过程,用于个性化服务的基础数据已准备就绪,接下来的数据分析和可视化等工作将由部署于EKS集群中的tableau和其他定制开发的BI应用完成,并通过API向数据湖外的其他系统开放。该部分将结合EKS以容器化管理的方式实现。且构建成DevOps体系。

为保障和提高数据湖的运维效力,方案中采用CloudWatch、CloudTrail、SNS协助监控,并部署由华讯网络基于Splunk开发的MSP服务,实现高质量的运维。采用KMS等方式管理密钥以提供系统的安全保障。采用IAM、Kerberos等提供安全认证。此外,为迎合品牌方已经成熟的的IaC技术积累,本方案可支持Terraform。

客户收益

完整保留原数据湖中的数据;数据湖分析组件及功能与原数据湖环境保持兼容;能够完整接收并实时处理来自各电商渠道的PB级用户数据;实现与Airflow系统的对接;接入品牌方的global用户数据。

能够支持双十一等业务高峰产生的大量用户数据;数据存储处理能够满足商业时效要求;各数据湖组件能够弹性适应业务波动的要求,降低数据存储和处理的成本;简化运维复杂度并提升运维效率和质量。

符合中国网络信息安全法律法规对于用户数据的安全要求;符合品牌方的企业安全合规要求;既符合亚马逊云科技的安全设计准则,同时融合品牌方过往的技术经验。

同等处理效率的情况下,采用Amazon数据湖方案相比原数据湖,节省成本超过20%;数据湖提供了丰富的数据处理和数据存储组件,并提供容器环境,由此可满足品牌方的各类个性化服务应用开发需求;利用DevOps设计和EKS,可快速部署和调整整个数据湖环境,以及基于数据湖的业务系统。

立即获得帮助

让我们针对您的需求,为您打造专属解决方案

  • 公众号

  • 服务号

  • 视频号

我们随时准备为您提供帮助

  • 咨询热线

    400-820-5-820