AWS 네트워크 딥다이브

AWS re:Invent 2022 (NET402)
이민석's avatar
Aug 05, 2024
AWS 네트워크 딥다이브

Introduction

Infrastructure Networking

Amazon EC2 Networking

Edge Networking

Routers/Switches

Virtual Private Network
(VPC)

Amazon Route53

Copper/optical cables

Elastic Network Interfaces

AWS Global Accelerator

Data centers

AWS Hyperplane

Amazon CloudFront

Inter-Region Backbone

Elastic Fabric Adaptor
(EFA)

AWS Dirrect Connect

Internet peering/transit

Placement groups

AWS Cloud WAN

Tenets(원칙)

Amazon이 새로운 것을 만들기 전, Tenets에 대해서 먼저 생각합니다.

이 문서에서는 Secure, Availbility, Scalability, Performant라는 Tenets을 다룹니다.

Secure

Amazon에서는 atypical 조치들이 추가되고 있습니다.
그 중 가장 대표적인 2가지에 대해서 소개하겠습니다.

  • Link Level Encryption

  • Sanitize

Amazon 그들이 통제할 수 없는 모든 링크를 암호화하는 Link Level Encryption을 사용하고 있으며, 해당 암호화 수명은 존재하는 모든 TLS*위에서 추가로 작동합니다.

  • TLS(Translation Layer Secure: 전송 계층 암호화)

만약 Transit Encryption으로 EC2를 사용하고 있다면, Link Level Encryption이 추가로 이루어집니다. 아무도 그것이 무엇을 의미하는지 알아낼수 없을 정도로 뒤죽박죽인 비트가 됩니다.

S# Sanitize

또한 Amazon의 Red Zone*을 벗어나는 모든 장비에 대해서 Sanitize를 실행합니다.
Sanitize는 고객 데이터, 운영 데이터, 소프트웨어, 인증서 등의 고객데이터가 존재가능한 모든 제거하는 작업을 의미합니다.

이 과정에서 하드웨어에 장애가 발생할 수 있고 때로는 3개월 이상의 수리가 필요할 수 있습니다.

  1. Red Zone : 실제로 악용되고 있을 우선순위가 높은 보안취약점을 의미하며 OpenCVE, ActiveCVE를 비교하여 계산합니다.

  2. OpenCVE : 앤드포인트의 오픈 공격으로 OpenCVE라고 부릅니다.

  3. ActiveCVE : 공격자가 악용하고 있는 CVE로 ActiveCVE라고 부릅니다.

The Benefits of Red Zone Threat Intelligence

Availability

Network에서 Availability는 매우 중요한 요소입니다.

  1. Network Redundant

  2. Backup System

A# Network Redudant

Network 자체는 Redundant Switch와 link로 구현되어 있습니다.
모든 계층에 걸쳐서 Redundant Capacity를 프로비저닝합니다.
또한 네트워크가 기대치를 충족하는지 확인하기 위해서 Capacity를 모니터링합니다.

A# Backup System

Network는 항상 많은 종류의 위험에 열려있습니다.
따라서 Backup System을 갖추고 있어야 합니다.

A# SRLG*

Network Traffic을 전송하기 위해 Fiber*가 사용되며, 이를 Fiber Path*라고 부릅니다. 이런 Fiber Path는 계곡이 모여 하나의 거대한 강을 이루는 것과 같이, 최종적으로 하나의 Fiber Path로 모이고 잠시 후 흩어지는 구조를 띄고 있습니다.

이런 구조를 SRLG(Share Risk Link Group, 공유 위험 링크 집단)이라고 부릅니다.

SRLG(Share Risk Link Group, 공유 위험 링크 집단)
Many Path → Little Path → Many Path

Amazon에서는 모든 Fiber Path와 Geolocation 별로 흩어진 Fiber Lay*들을 모니터링하고 있습니다. 이 과정에서 중앙 집중화된 데이터 센서는 존재하지 않습니다.
모든 과정은 격리된 센터에서 처리되고 있습니다.

따라서 이 과정들로 인해 높은 수준의 Network Availability를 보장합니다.

Fiber : 통신용 섬유를 의미하는 것 같습니다.
Fiber Path : 통신용 섬유로 구축한 길을 의미하는 것 같습니다.
Fiber Lay : Goelocation 별로 흩어진 섬유들의 배치를 의미하는 것 같습니다.

Scalable

Amazon에서는 고객이 제약 없이 서비스를 만들 수 있도록 높은 수준의 Scalable을 추구합니다. 이를 위해서 Amazon에서는 자체적으로 Network Tech를 개발하며, PCB*, Networking Systems on a Chip, ASICs* 등이 여기에 포함됩니다.

PCB(Printed Circuit Boards, 인쇄 회로 기판)
ASICs(Application-Specific Integrated Circuits, 응용 맞춤형 집적 회로)
PCB Wikipedia
ASICs Clouds: Specializing the Datacenter for Planet-Scale Application
ASICs Architecture

이런 작은 기판들에 대한 기술들로 Amazon이 고객 니즈를 충족할 수 있습니다.
예를들어 COVID 혹은 2021 반도체 공급량 부족 사태에서도 Amazon은 큰 문제 없이 요구사항을 충족할 수 있었습니다.

Performant

더 높은/많은 Performant를 제공하기 위해서는 2가지 방법이 있을 것입니다.

  1. 더 빠른 길을 만드는 것

  2. 더 많은 길을 만드는 것

Amazon에서는 수많은 Traffic Engineering을 활용하고 있습니다.
수많은 서비스에 대해서 무한에 가까워보이는 Network Bandwidth를 제공하고자 합니다.

Network

Amazon의 Tenets들을 알게 되었으니, 이를 기반으로 Network Architecture에 대해서 봅시다.

Ideal Network

이상적인 Network는 포트가 무한히 존재하고 대기시간이 0인 BusBar 일 것입니다.

하지만 각 고객별로 서로의 네트워크 상황이 궁금하지 않을 것이기 때문에 Amazon은 Multi Tenancy* 환경에서 이를 구축해야 할 것입니다.

Tenancy : 한 사용자나 고객을 위한 독립된 환경을 제공
Multi Tenancy : 여러 사용자나 고객이 하나의 시스템을 공유

Real Network

하지만 현재 이런 기술이 개발되지 않았기 때문에, 비슷하게 구현해야 했습니다.
Amazon의 수많은 서비스들은 수천개의 Router와 Switcher들로 연결되어 있습니다.

그리고 이런 환경 위에서 실행되며 Multi Tenancy를 제공하는 다양한 Overlay System이 존재합니다. 가장 대표적인 서비스가 Virtual Private Network입니다.

이 부분에 대해서 더 자세한 내용은 Amazon Web Services | AWS re:Invent 2015 | (NET403) Another Day, Another Billion Packets을 을 참고해주세요.

이제 구성된 Network 위에서 아래 작업이 지속적으로 행해져야 합니다.

  1. Configuration Updates

  2. Software Upgrades

  3. Tooling Enhancements

  4. Network Scaling

또한 아래와 같은 문제들이 지속적으로 발생했습니다.

  1. Device Failures

  2. Link Cuts

  3. Software Faults

12:00 부터 다시 볼 것

References

Share article

Unchaptered