TIL

TIL 2024-08-14 대규모 시스템

wonow_ 2024. 8. 14. 17:20

 

대규모 시스템

  • 개발을 하다보면 수백만 명의 사용자가 동시에 접속하고 상호작용 할 수 있는 시스템을 구축해야 하는 상황이 생길 것이다.
  • 여기서 시스템의 안정성, 신뢰성을 유지하며 고성능의 어플리케이션을 제공해야한다.
  • 여기서는 대규모 스트림 처리로 해결하는 방법을 설명할 예정이다.

 

대규모 시스템 기준

  • TPS(Transactions Per Second)
    • 초당 처리되는 트랜잭션 수
  • 일간 평균 접속량이 아닌 가장 많이 접속한 시간대의 최대값을 기준으로 대규모 시스템을 구축해야한다.
  • 접속량은 일정하지 않고 특정 시간대에 몰리는 현상이 잦다.

 

 

 

DB IO 최적화

서버에서 데이터 제공 및 저장에서 대부분의 Database 에서 일어난다.

  • Input:
    • InMemoryDB Cache 사용
      • DB 부하 감소
      • 빠른 응답으로 사용자 경험 향상
      • 데이터 일관성이 중요
        • 주기적 데이터 유효성 검사, Cache에서 데이터 손실 시DB에서 다시 가져와 Cache 갱신해주는 로직이 필요
    • DB 사용 최적화
      • Indexing
        • 읽기 작업에 대한 Indexing 설정, 인덱스가 너무 많으면 오히려 성능이 저하 될 수 있다. 쓰기 작업 시 성능 저하
      • Reflication
        • Regilcation DB 론
        • 읽기 전용 DB 생성, DB들의 부하를 전체적으로 줄일 수 있다.
        • 이것도 데이터 일관성이 중요하다.
      • Shading
        • 데이터베이스 샤딩
        • 데이터베이스를 여러 샤드로 나눠 각각의 샤드가 독립적으로 쿼리를 처리하게 하는 방법
        • ex: table partition
      • 쿼리 최적화
        • 음 이건 뭐~
  •  Output:
    • 비동기 처리
      • 응답 속도 감소
      • DB에 바로 올리지 않고 Queue에 넣어 놓은 다음 나중에 처리 하는 방법
      • 비동기 처리 시 데이터 소실이나 오류를 방지하기 위해 큐에 데이터를 넣을 때 적절한 검증을 수행하고, 큐에 쌓인 데이터를 지속적으로 모니터링하여 실패한 요청을 재시도할 수 있는 메커니즘을 마련해야 한다.
      • 또한, 데이터의 순서를 보장하고, 중복 처리를 방지하기 위한 고유 식별자(ID)를 사용해야 한다.
    • 배치 처리
      • 쿼리를 모았다가 일정 시간마다 한번에 처리 하는 방법
      • Queue에 모았다가 쓸 수도 있다.
      • 배치 처리 시 데이터 손실을 방지하기 위해, 오류 로그 및 오류 난 부분 재시도 로직을 작성해야한다.
      • 배치 처리 모니터링 및 로그 작업 완료를 확인할 수있는 프로세스를 마련해야한다.

 

분산 트랜잭션

분산환경에서 트랜잭션을 일관되게 유지하는 방법

 

분산 트랜잭션 종류

  • 2PC
    • 분산 트랜잭션 프로토콜 
    • 모든 트랜잭션이 준비가 되면 메인 노드가 Commit 명령을 내리는 방식
  • Saga Pattern
    • 각각 Commit 을 따로하다가 실패 시 트랜잭션 보상 패턴을 실행하는 방법
  • 이벤트 소싱
    • 이벤트 스토어 라는 저장소에 데이터 변화 순서를 모두 기록해두었다가 해당 이벤트를 순차적으로 재생하여 현재 상태를 파악하는 방식
    • 전통적인 방법과 다르게 데이터 변경을 저장하는 게 아닌 변경 이벤트를 저장
    • 복잡성이 증가할 수 있다

 

CQRS 와 모니터링도 있는데

CQRS 레퍼런스 보면서 공부할 예정..

읽기 쓰기 모델 나눠 놓는 건 알겠는데 개념적으로만 알아서 레퍼런스를 찾아봐야할 거 같당

 

모니터링은 나중에~