TIL 2024-08-14 대규모 시스템

TIL

TIL 2024-08-14 대규모 시스템

wonow_ 2024. 8. 14. 17:20

대규모 시스템

개발을 하다보면 수백만 명의 사용자가 동시에 접속하고 상호작용 할 수 있는 시스템을 구축해야 하는 상황이 생길 것이다.
여기서 시스템의 안정성, 신뢰성을 유지하며 고성능의 어플리케이션을 제공해야한다.
여기서는 대규모 스트림 처리로 해결하는 방법을 설명할 예정이다.

대규모 시스템 기준

TPS(Transactions Per Second)
- 초당 처리되는 트랜잭션 수
일간 평균 접속량이 아닌 가장 많이 접속한 시간대의 최대값을 기준으로 대규모 시스템을 구축해야한다.
접속량은 일정하지 않고 특정 시간대에 몰리는 현상이 잦다.

DB IO 최적화

서버에서 데이터 제공 및 저장에서 대부분의 Database 에서 일어난다.

Input:
- InMemoryDB Cache 사용
  - DB 부하 감소
  - 빠른 응답으로 사용자 경험 향상
  - 데이터 일관성이 중요
    - 주기적 데이터 유효성 검사, Cache에서 데이터 손실 시DB에서 다시 가져와 Cache 갱신해주는 로직이 필요
- DB 사용 최적화
  - Indexing
    - 읽기 작업에 대한 Indexing 설정, 인덱스가 너무 많으면 오히려 성능이 저하 될 수 있다. 쓰기 작업 시 성능 저하
  - Reflication
    - Regilcation DB 론
    - 읽기 전용 DB 생성, DB들의 부하를 전체적으로 줄일 수 있다.
    - 이것도 데이터 일관성이 중요하다.
  - Shading
    - 데이터베이스 샤딩
    - 데이터베이스를 여러 샤드로 나눠 각각의 샤드가 독립적으로 쿼리를 처리하게 하는 방법
    - ex: table partition
  - 쿼리 최적화
    - 음 이건 뭐~
Output:
- 비동기 처리
  - 응답 속도 감소
  - DB에 바로 올리지 않고 Queue에 넣어 놓은 다음 나중에 처리 하는 방법
  - 비동기 처리 시 데이터 소실이나 오류를 방지하기 위해 큐에 데이터를 넣을 때 적절한 검증을 수행하고, 큐에 쌓인 데이터를 지속적으로 모니터링하여 실패한 요청을 재시도할 수 있는 메커니즘을 마련해야 한다.
  - 또한, 데이터의 순서를 보장하고, 중복 처리를 방지하기 위한 고유 식별자(ID)를 사용해야 한다.
- 배치 처리
  - 쿼리를 모았다가 일정 시간마다 한번에 처리 하는 방법
  - Queue에 모았다가 쓸 수도 있다.
  - 배치 처리 시 데이터 손실을 방지하기 위해, 오류 로그 및 오류 난 부분 재시도 로직을 작성해야한다.
  - 배치 처리 모니터링 및 로그 작업 완료를 확인할 수있는 프로세스를 마련해야한다.

분산 트랜잭션

분산환경에서 트랜잭션을 일관되게 유지하는 방법

분산 트랜잭션 종류

2PC
- 분산 트랜잭션 프로토콜
- 모든 트랜잭션이 준비가 되면 메인 노드가 Commit 명령을 내리는 방식
Saga Pattern
- 각각 Commit 을 따로하다가 실패 시 트랜잭션 보상 패턴을 실행하는 방법
이벤트 소싱
- 이벤트 스토어 라는 저장소에 데이터 변화 순서를 모두 기록해두었다가 해당 이벤트를 순차적으로 재생하여 현재 상태를 파악하는 방식
- 전통적인 방법과 다르게 데이터 변경을 저장하는 게 아닌 변경 이벤트를 저장
- 복잡성이 증가할 수 있다

CQRS 와 모니터링도 있는데

CQRS 레퍼런스 보면서 공부할 예정..

읽기 쓰기 모델 나눠 놓는 건 알겠는데 개념적으로만 알아서 레퍼런스를 찾아봐야할 거 같당

모니터링은 나중에~

저작자표시