Kafka in Docker 설치 Docker 에 Kafka, Zookeeper 설치는 이전 포스팅을 참고바란다. https://devfunny.tistory.com/429?category=820624 docker로 Kafka, Zookeeper 설치 (with docker-compose) Docker 이미지 설치 1) Kafka 설치 docker pull wurstmeister/kafka 2) zookeeper 설치 docker pull wurstmeister/zookeeper docker-compose 파일 생성 1) docker-compose.yml 파일 생성 (local PC에 경로는 자유.. devfunny.tistory.com 프로젝트 구조 1) Producer 역할의 Service - Pro..
들어가며 컨슈머가 poll()을 호출할 때마다 컨슈머 그룹은 카프카에 저장되어있는 아직 읽지않은 메시지를 가져온다. 이렇게 동작할 수 있는 것은 컨슈머 그룹이 메시지를 어디까지 가져왔는지를 알 수 있기 때문이다. 컨슈머 그룹의 컨슈머들은 각각의 파티션에 자신이 가져간 메시지의 위치 정보를 기록하고 있다. 커밋 카프카는 각 컨슈머 그룹의 파티션 별로 오프셋 정보를 저장하기 위한 저장소가 별도로 필요하다. 만약 특정 컨슈머가 갑자기 다운되거나 컨슈머 그룹에 새로운 컨슈머를 추가하게된다면 컨슈머 그룹 내에서 리밸런스가 발생한다. 리밸런스가 일어난 후 각 컨슈머들은 이전에 처리했던 토픽의 파티션이 아닌 다른 새로운 파티션에 할당된다. 이때 컨슈머는 이전의 컨슈머가 가져간 데이터의 이후 시점부터 읽어들여야 한다...
컨슈머 그룹 카프카에는 프로듀서가 전달한 데이터를 저장하는 데이터 저장소인 토픽이 있다. 컨슈머는 해당 토픽에서 데이터를 가져오는데, 여러 컨슈머들은 컨슈머 그룹을 이루어 동시에 접속하여 메시지를 가져올 수 있다. 프로듀서가 토픽에 보내는 메시지 속도가 갑자기 증가하게되어, 컨슈머가 처리하지 못한 메시지들이 생기게된다. 해당 메시지들을 가져오는 컨슈머를 확장할 필요성이 생겼다. 만약 컨슈머만 확장한다면 기존과 신규 컨슈머의 오프셋(데이터의 저장 위치; 파티션별로 유니크한 순차적인 증가값을 위치로 가진다)가 뒤섞이면서 메시지들이 뒤죽박죽 될 것이다. 이를 해결하기 위해 카프카는 동일한 토픽에 대해 여러 컨슈머가 메시지들을 가져갈 수 있도록 컨슈머 그룹의 기능을 제공한다. 컨슈머 리밸런스 컨슈머 그룹 안에서..
들어가며 리플리케이션의 이해가 먼저 필요하다. devfunny.tistory.com/380?category=829528 카프카의 토픽과 파티션, 오프셋 토픽 카프카에서는 프로듀서가 전달하는 메시지를 '토픽'에 저장하고, 컨슈머가 해당 '토픽'에서 메시지를 가져온다고 하였다. 메시지의 저장소 역할을 하는 토픽은 데이터베이스의 '테이블'의 devfunny.tistory.com 팩터 리플리케이션의 팩터(Replication Factor)를 지정할 수 있는데, 팩터의 개수는 리플리케이션의 수와 같다. 리플리케이션 팩터는 default 값이 1개인데, 이를 2개로 수정하면 리플리케이션의 수가 2개가 된다. 카프카 클러스터 내에 3개의 브로커가 존재할 경우, 리플리케이션 팩터 수를 수정하지 않았을 때 default..
토픽 카프카에서는 프로듀서가 전달하는 메시지를 '토픽'에 저장하고, 컨슈머가 해당 '토픽'에서 메시지를 가져온다고 하였다. 메시지의 저장소 역할을 하는 토픽은 데이터베이스의 '테이블'의 역할과 같다. 또한 회원 테이블에서는 회원의 정보를 가져오고, 주문 테이블에서는 주문 정보를 가져오듯이 토픽도 특정 주제의 데이터들을 저장하는 저장소로 분류할 수 있고, 마찬가지로 컨슈머는 회원 토픽에서는 회원의 정보를, 주문 토픽에서는 주문의 정보를 가져온다. 따라서 토픽은 데이터를 구분하기 위한 단위로도 사용된다. 메시지를 받을 수 있도록 논리적으로 묶은 개념으로 데이터를 저장하는 데이터 저장소 파티션 카프카의 토픽은 분할된다. 이렇게 토픽을 분할한 것을 파티션이라고 한다. 만약 여러 프로듀서가 같은 토픽에 데이터를 ..
카프카의 기능 카프카의 높은 처리량, 빠른 메시지 전송, 운영 효율화 등을 위해 구현되어있는 기능을 알아보자. 1) 분산 시스템 분산 시스템이란, 같은 역할을 하는 여러 대의 서버로 이루어진 서버 그룹을 뜻한다. - 단일 시스템보다 더 높은 성능을 얻을 수 있다. - 분산 시스템 중 하나의 서버/노드 등에 장애가 발생하면 다른 서버/노드가 대신 처리한다. - 시스템 확장에 용이하다. 2) 페이지 캐시 OS의 페이지 캐시란, 메모리 중 남은 잔여 메모리의 일부를 페이지 캐시로 이용함으로써 처리 속도를 높이고 전체적인 성능을 향상시키는 것이다. 디스크에 읽기/쓰기를 하지 않고 페이지 캐시를 통해 읽고 쓰는 방식을 통해 전체적인 성능 향상을 높이게 되는데 카프카는 이를 이용하도록 디자인되었다. 3) 배치 전송..
카프카의 개념 카프카는 메시징 서버로 동작한다. 메시징 시스템이 무엇인지 먼저 알아보자. 메시징 시스템 메시징 시스템이란, 프로듀서(producer)와 컨슈머(consumer)가 서로 메시지를 전달할 때 직접 전달하는 것이 아닌 중간의 메시징 시스템을 거친 후 전달하는 것을 말한다. 프로듀서 (publisher/producer) 메시지라고 불리는 데이터 단위를 보내는 측 컨슈머 (subscriber/consumer) 데이터를 가져가는 측 카프카에서 프로듀서가 보내는 데이터가 토픽에 저장되고, 토픽(메시지 저장소)에 저장된 데이터를 가져가는 컨슈머는 원하는 토픽에서 데이터를 가져간다. 펍/섭(pub/sub) 모델 중앙에 메시징 시스템 서버를 두고 이렇게 메시지를 보내고 받는 형태의 통신 펍/섭 모델 이전에..