为了客户当前现状及未来全球化发展需要,根据AWS Well-Architected Framework中的框架设计,帮助客户基于安全性、可靠性、性能效率、成本优化和卓越运营这五个核心方面,为其应用程序构建安全、高性能、具有弹性和高效的基础设施。运用《Architecting for the Cloud-AWS Best Practices》的指导,优化解决客户架构中的实际问题,实施应用新技术开发框架,兼顾资源的水平/纵向扩展能力,最终提升业务平台的弹性敏捷、稳定性、安全性,提高产品的质量,增强用户体验。
客户概述:
深圳市道森蒸汽科技有限公司位于深圳市宝安区,是一家集研发、生产、销售于一体的电子雾化器品牌的中小SMB企业,已成为全球电子雾化器行业尤其是北美行业知名的品牌商之一。
客户计划2021年开始拓展亚洲、非洲、欧洲市场,希望实现业务全球增长。随着业务的发展和对信息化系统的建设要求,完善企业信息化平台建设,逐步实现集团IT信息化建设和数字化转型,集团前瞻性战略对业务系统的安全性、可用性、稳定性、可拓展性提出更高的要求,依托于公有云资源的按需申请、灵活扩展,以及提供高可用的能力,有助于提高公司业务灵活性、统一化管理。
客户的电商营销业务系统已在阿里云上部署,借助云计算为企业提质增效,实现产业升级。云计算是推动信息技术能力实现按需供给、提高信息化建设利用水平的新技术、新模式、新业态,并能够为互联网、大数据、人工智能等领域发展提供重要的基础支撑,其赋能传统企业变革升级,有助于企业聚焦于核心业务,从而更快适应变化多端的市场竞争。
痛点分析
(1) 阿里云的SLA不稳定
根据客户技术团队的描述,从使用开始至今,每年都会出现一次较大规模的故障(整个基础设施被通知计划停机),每年都会出现3次以上较小规模故障(某几台虚拟机被无通知的强制重启),最严重的一次是2023年,用户收到在周六晚到周日晨进行停机维护的通知,结果用户通宵守候,阿里云并没有进行维护;并在第二周的周一~周二对用户的整个基础设施进行停机维护(事先没有通知),损失巨大;
再以23年底的全球CPU漏洞为例,阿里云先是给了1月10号之前重启服务器的窗口期,却在1月5号上午10点通知客户,11点要强制重启所有业务,这种处理方式在阿里云(中国)使用过程中每年都会发生,让客户无法再信任。
(2) 阿里云SSD磁盘空间和I/O的瓶颈
磁盘类型性能上限
• 高效云盘:基准性能较低,突发性能依赖积分(积分耗尽后性能下降)。
• ESSD云盘:性能与规格绑定(如ESSD PL0-PL3),例如:
PL1:最高50K IOPS,350MB/s吞吐
PL3:最高100万 IOPS,4GB/s吞吐
• 若业务I/O需求超过磁盘标称性能,会触发限速。
实例规格限制
ECS实例的I/O性能受实例规格限制(如网络带宽、CPU处理能力)。例如:高I/O型实例(如i4、d3c)适合ESSD云盘,通用型实例可能无法发挥磁盘性能。
应用设计问题
• 高并发小文件读写(如数据库未优化索引)、频繁随机I/O操作。
• 未合理使用缓存(如Redis、数据库Buffer Pool)。
多实例共享存储 共享存储(如NAS)可能因多实例并发访问导致I/O争抢。
(3) 基础设施及业务可用性低
客户2023年部署业务时,阿里云的产品较少,可用的产品就更少,导致客户所有业务均使用VM搭建(包括数据库、负载均衡),而数据库受限于部署时的条件,也使用了主备的方式,业务的可用性较低,耦合性高,任何一处应用发生故障都会导致业务整体出现问题;客户在了解AWS的同时,也希望能够有合作伙伴帮其优化架构,解耦应用,提高业务各个层面的可用性。
(4) 选择AWS的原因
• 每年阿里云的计划和非计划停机对客户生产业务造成影响;
• 提升业务的稳定性以确保客户访问体验,提高产品竞争力;
• 最小化迁移停机时间。
• 利用AWS,满足全球业务的敏态化扩张;
建议的解决方案
我们优化客户的系统架构,提供AWS经典的三层架构,建立多可用区部署,提高业务的可靠性和连续性。使用EC2、EKS部署业务便于快速扩缩容,提供业务的敏捷性。增加日志分析、监控告警和安全等功能,保障业务的运营。
整套系统结合AWS公有云相关的产品特点以及成熟技术手段设计如下:
(1)Global区配置Amazon Route 53映射域名到ELB,以确保外部流量可以正常进入Public VPC。
(2)配置WAF,使用AWS提供的Web应用防火墙(WAF),网站所有的公网流量都会先经过WAF,恶意攻击流量在WAF上被检测过滤,而正常流量返回给源站IP,从而确保源站IP安全、稳定、可用。
(3)配置CloudFront,加快将静态和动态 Web 内容(例如 .html、.css、.js 和图像文件)分发给用户。
(4)设置专有网络隔离,配置Public VPC 和Private VPC,数据资源托管在Private VPC,内部通过专有网络(VPC)实现网络内部逻辑隔离,防止来自内网的攻击。
(5)配置ELB,设置多副本高可用,在多个可用区内对多个目标(Amazon EC2 实例、容器、IP 地址和 Lambda 函数)之间自动分配传入的流量,并确保只有正常目标会收到流量。Elastic Load Balancing 还可以将流量路由至不同可用区内的正常目标,从而在一个区域内实现负载均衡。Amazon Elastic Load Balancing 服务等级协议的承诺是为负载均衡器提供 99.99% 的可用性。
(6)配置自动弹性扩展,在EKS worker节点设置自动扩展,使用Auto Scaling来改进负载和容错能力,结合CloudWatch来检测实例的运行状况,处理宕机实例和自动扩缩容现有实例,提高应用程序可用性,确保应用程序始终具备合适的计算容量。同时也可以降低成本。
(7)使用身份合规访问控制:使用AWS提供访问控制(IAM)功能,为用户配置资源权限,以满足协同操作需求,避免多个用户共享云账号密钥,从而降低企业信息安全风险。
(8)开通审计日志服务,使用AWS提供的操作审计CloudTrail功能结合S3,将审计记录以日志的形式存储在S3中。以此实现安全分析、资源变更追踪以及合规性审计的要求。
(9)开通CloudWatch资源监控,配置对所有可用资源的监控,解决面向云上资产提供安全事件检测、漏洞扫描、基线配置核查等需求服务。
(10)开通秘钥管理KMS服务,使用KMS创建和管理加密密钥,结合CloudTrail来控制其在各种 AWS 服务和应用程序中的使用。同时追踪所有密钥的使用记录,满足监管和合规性要求。
项目成果和成功指标
(1)减小运维压力:通过采用AWS托管服务,使用EKS、RDS等,减少数据库上的运维压力;使用Amazon EKS服务,可以实现快速部署应用服务,从而将重心放在业务创新上。
(2)安全性:采用Amazon IAM、Amazon WAF、VPC、安全组等服务,完善满足业务系统安全可靠,并符合国际监管要求。
(3)业务敏捷性:通过AWS EKS等产品,实现了服务快速审批与开通,动态展示各产品线的费用信息,以及随时查看服务资源使用情况。便于及时调整,降低成本的使用,同时大幅提升了运维效率。后期RI的购买将进一步缩减成本。云上发布功能部署时间从周缩短到天。
(4)性能效率:
最佳计算架构:容器是实现操作系统虚拟化的一种方法,让您能够在资源隔离的进程中运行应用程序及其依赖项。在 AWS 上运行容器时,根据客户需求,推荐选择是使用 Amazon Elastic Container Service (ECS) 和 Amazon Elastic Kubernetes Service (EKS) 作为容器编排工具。
最佳存储架构:在本案例,选择使用Amazon S3 可以实现 99.999999999% 的强持久性,降低延迟和提高吞吐量。还选择从使用固态硬盘 (SSD),可实现在几秒内轻松地完成虚拟驱动器从一个实例到另一个实例的迁移。
最佳数据库架构:本案例中,客户使用的数据库包括:关系型数据库-MySQL、文档型数据库-MongoDB、以及内存中存储数据库-Redis。在AWS云中与之对应的服务是 Amazon RDS for MySQL、Amazon Documentdb复制组由一个主副本和最多五个只读副本组成。Amazon DocumentDB 可达到现有MongoDB 托管服务吞吐量的两倍。Amazon DocumentDB 架构将存储和计算进行分离,允许各自独立扩展,这使您能够通过在几分钟内在三个可用区中添加多达 15 个低延迟只读副本来轻松地将读取容量增至每秒数百万个请求,不管数据大小如何都是如此。Amazon DocumentDB 采用一种有容错能力和自我修复能力的分布式存储系统,每个数据库集群可自动扩展至 64TB。Amazon RDS 多可用区域部署可以让 MySQL 数据库实现更强的可用性和持久性,使其成为生产型数据库工作负载的理想之选。Amazon RDS 只读副本可以轻松实现弹性扩展,超越单个数据库实例的容量限制,满足读取密集型数据库工作负载的需求。MySQL集群采用预配置3000 IOPS稳定性能。
(5)可靠性:通过使用AWS全球多区域(Region)和多可用区(Availability Zone),满足客户海外市场的业务拓展与布局,并能够让整体产品架构更为稳定,并促进公司与用户的黏性。依据客户应用场景、业务形式,规划设计较高的可用性架构,我们设计需要30分钟决定执行恢复,并在30分钟内完成恢复。基于此,我们的可用性设计目标为 99.95%。
(6)成本优化:通过应用Amazon Route53、Amazon CloudFront、Amazon S3的整体技术架构的优化改改善全球区域网络流量成本减低,并且实现业务产品在AWS云中无单点,无耦合,花更少的钱,性能提高。利用AmazonS3,灵活应用数据、备份数,以及归档数据,从而降低总体成本低。