컨슈머 그룹 토픽의 파티션으로부터 데이터를 가져가기 위해 컨슈머를 운영하는 방법은 2가지다. 1) 1개 이상의 컨슈머로 이루어진 컨슈머 그룹을 운영 2) 토픽의 특정 파티션만 구독하는 컨슈머를 운영 1개 이상의 컨슈머로 이루어진 컨슈머 그룹을 운영 컨슈머를 각 컨슈머 그룹으로부터 격리된 환경에서 안전하게 운영할 수 있도록 도와주는 방식이다. 컨슈머 그룹으로 묶인 컨슈머들은 토픽의 1개 이상 파티션들에 할당되어 데이터를 가져갈 수 있다. 컨슈머 1개로 이루어진 컨슈머 그룹이 4개의 파티션에 할당 컨슈머 그룹으로 묶인 컨슈머가 토픽을 구독해서 데이터를 가져갈때, 1개의 파티션은 최대 1개의 컨슈머에 할당 가능하다. 그리고 1개 컨슈머는 여러개의 파티션에 할당될 수 있다. 이러한 특징으로 컨슈머 그룹의 컨슈머..
Read more프로듀서 실행 바로가기 https://devfunny.tistory.com/746?category=829528 [아파치 카프카 어플리케이션 프로그래밍] 4. 프로젝트 생성하여 카프카 프로듀서 실행 Topic 생성 1) docker kafka 컨테이너 접속 docker container exec -it kafka bash 2) 토픽 생성 토픽명 : test kafka-topics.sh --create --topic test --bootstrap-server localhost:9092 --partitions 1 예제파.. devfunny.tistory.com Topic 생성 1) docker kafka 컨테이너 접속 docker container exec -it kafka bash 2) 토픽 생성 토픽명 :..
Read more특정 파티션 설정 프로듀서 사용환경에 따라 특정 데이터를 가지는 레코드를 특정 파티션으로 보내야할 때가 있다. 예를 들어, Pangyo라는 값을 가진 메시지 키가 0번 파티션으로 들어가야 한다고 가정하자. 기본 설정 파티셔너를 사용할 경우 메시지 키의 해시 값을 파티션에 매칭하여 데이터를 전송하므로 어느 파티션에 들어가는지 알 수 없다. 이때 Partitioner 인터페이스를 사용하여 사용자 정의 파티셔너를 생성하면 Pangyo라는 값을 가진 메시지 키에 대해서 무조건 파티션 0번으로 지정하도록 설정할 수 있다. 이렇게 지정할 경우 토픽의 파티션이 변경되더라도 Pangyo 라는 메시지 키를 가진 데이터는 파티션 0번에 적재된다. CustomPartitioner.java public class Custom..
Read more프로듀서 프로듀서는 카프카 브로커로 데이터를 전송할때 내부적으로 파티셔녀, 배치 생성 단계를 거친다. 전송하고자 하는 데이터는 ProducerRecord 인스턴스를 생성하여 설정한다. 필수 파라미터는 토픽과 메시지 값이다. ProducerRecord 생성시 추가 파라미터를 사용하여 오버로딩하여 ProductRecord의 내부 변수를 선언할 수 있다. 파티션 번호를 직접 지정하거나 타임스탬프를 설정, 메시지 키를 설정할 수도 있다. KafkaProducer 인스턴스가 send()를 호출하면 ProducerRecord는 파티셔녀(partitioner)에서 토픽의 어느 파티션으로 전송될 것인지 정해진다. Properties configs = new Properties(); configs.put... Kafka..
Read moreTopic 생성 1) docker kafka 컨테이너 접속 docker container exec -it kafka bash 2) 토픽 생성 토픽명 : test kafka-topics.sh --create --topic test --bootstrap-server localhost:9092 --partitions 1 예제파일 만들기 build.gradle dependencies { implementation 'org.springframework.boot:spring-boot-starter' implementation 'org.springframework.kafka:spring-kafka' runtimeOnly 'com.h2database:h2' } SimpleProducer.java import lombo..
Read more카프카 브로커 카프카 클라이언트와 데이터를 주고받기 위해 사용하는 주체이자, 데이터를 분산 저장하여 장애가 발생하더라도 안전하게 사용할 수 있도록 도와주는 애플리케이션이다. 하나의 서버에는 한 개의 카프카 브로커 프로세스가 실행된다. 데이터를 안전하게 보관하고 처리하기 위해 3개 이상의 브로커 서버를 1개의 클러스터로 묶어서 운영한다. 카프카 클러스터로 묶인 브로커들은 프로듀서가 보낸 데이터 를 안전하게 분산 저장하고 복제하는 역할을 수행한다. 카프카 브로커가 프로듀서로부터 데이터를 전달받았을때 프로듀서가 요청한 토픽의 파티션에 데이터를 저장하고, 컨슈머가 데이터를 요청하면 파티션에 저장된 데이터를 전달한다. 프로듀서로부터 전달된 데이터는 파일 시스템에 저장된다. 카프카는 메모리나 데이터베이스에 저장하지..
Read more"책으로 공부하는 Apache Kafka" 카프카 설치 교재에서는 AWS EC2를 사용하여 설치하고 있지만, Docker를 사용하여 실습해보자. https://devfunny.tistory.com/429 docker로 Kafka, Zookeeper 설치 (with docker-compose) Docker 이미지 설치 1) Kafka 설치 docker pull wurstmeister/kafka 2) zookeeper 설치 docker pull wurstmeister/zookeeper docker-compose 파일 생성 1) docker-compose.yml 파일 생성 (local PC에 경로는 자유.. devfunny.tistory.com Mac Docker 설치 https://docs.docker.co..
Read more"책으로 공부하는 Apache Kafka" 아파치 카프카 (Apache Kafka) 아파치 카프카란, 대용량 또는 대규모 메시지 데이터를 빠르게 처리할 수 있도록 개발된 분산 메시징 플랫폼이다. 카프카는 각각의 애플리케이션끼리 연결하여 데이터를 처리하는 것이 아니라 한곳에 모아 처리할 수 있도록 중앙집중화했다. 카프카를 통해 데이터 스트림을 한 곳에서 실시간으로 관리할 수 있다. 카프카 내부에 데이터가 저장되는 파티션의 동작은 FIFO(First In First Out) 방식의 큐 자료구조와 유사하다. 프로듀서 (Producer) : 큐에 데이터를 보낸다. 컨슈머 (Consumer) : 큐에서 데이터를 가져간다. 카프카 특징 카프카를 통해 전달할 수 있는 데이터 포맷은 제한이 없다. 직렬화, 역직렬화를 ..
Read more지노드란? 서로 연결되어있는 서버들이 상태 정보 등을 주고받는데, 이때 key-value 형식으로 카프카 지노드에 저장된다. 지노드에 저장된 key-value 를 사용하여 분산 애플리케이션이 서로 데이터를 주고받고, 이러한 지노드에 접속하여 상태 정보를 확인할 수 있는 명령어에 대해 더 자세히 알아보자. 지노드 경로 설정 카프카의 환경설정 파일에서 지노드 경로를 설정할 수 있다. vi /usr/local/kafka/config/server.properties 환경 설정 파일에서 아래 부분을 수정하자. zooleeper.connect=servername/test-kafka # test-kafka 경로로 설정 지노드 접속 /usr/local/zookeeper/bin/zkCli.sh 접속한 후, 아래 명령어를..
Read moreKafka in Docker 설치 Docker 에 Kafka, Zookeeper 설치는 이전 포스팅을 참고바란다. https://devfunny.tistory.com/429?category=820624 docker로 Kafka, Zookeeper 설치 (with docker-compose) Docker 이미지 설치 1) Kafka 설치 docker pull wurstmeister/kafka 2) zookeeper 설치 docker pull wurstmeister/zookeeper docker-compose 파일 생성 1) docker-compose.yml 파일 생성 (local PC에 경로는 자유.. devfunny.tistory.com 프로젝트 구조 1) Producer 역할의 Service - Pro..
Read more들어가며 컨슈머가 poll()을 호출할 때마다 컨슈머 그룹은 카프카에 저장되어있는 아직 읽지않은 메시지를 가져온다. 이렇게 동작할 수 있는 것은 컨슈머 그룹이 메시지를 어디까지 가져왔는지를 알 수 있기 때문이다. 컨슈머 그룹의 컨슈머들은 각각의 파티션에 자신이 가져간 메시지의 위치 정보를 기록하고 있다. 커밋 카프카는 각 컨슈머 그룹의 파티션 별로 오프셋 정보를 저장하기 위한 저장소가 별도로 필요하다. 만약 특정 컨슈머가 갑자기 다운되거나 컨슈머 그룹에 새로운 컨슈머를 추가하게된다면 컨슈머 그룹 내에서 리밸런스가 발생한다. 리밸런스가 일어난 후 각 컨슈머들은 이전에 처리했던 토픽의 파티션이 아닌 다른 새로운 파티션에 할당된다. 이때 컨슈머는 이전의 컨슈머가 가져간 데이터의 이후 시점부터 읽어들여야 한다...
Read more컨슈머 그룹 카프카에는 프로듀서가 전달한 데이터를 저장하는 데이터 저장소인 토픽이 있다. 컨슈머는 해당 토픽에서 데이터를 가져오는데, 여러 컨슈머들은 컨슈머 그룹을 이루어 동시에 접속하여 메시지를 가져올 수 있다. 프로듀서가 토픽에 보내는 메시지 속도가 갑자기 증가하게되어, 컨슈머가 처리하지 못한 메시지들이 생기게된다. 해당 메시지들을 가져오는 컨슈머를 확장할 필요성이 생겼다. 만약 컨슈머만 확장한다면 기존과 신규 컨슈머의 오프셋(데이터의 저장 위치; 파티션별로 유니크한 순차적인 증가값을 위치로 가진다)가 뒤섞이면서 메시지들이 뒤죽박죽 될 것이다. 이를 해결하기 위해 카프카는 동일한 토픽에 대해 여러 컨슈머가 메시지들을 가져갈 수 있도록 컨슈머 그룹의 기능을 제공한다. 컨슈머 리밸런스 컨슈머 그룹 안에서..
Read more들어가며 리플리케이션의 이해가 먼저 필요하다. devfunny.tistory.com/380?category=829528 카프카의 토픽과 파티션, 오프셋 토픽 카프카에서는 프로듀서가 전달하는 메시지를 '토픽'에 저장하고, 컨슈머가 해당 '토픽'에서 메시지를 가져온다고 하였다. 메시지의 저장소 역할을 하는 토픽은 데이터베이스의 '테이블'의 devfunny.tistory.com 팩터 리플리케이션의 팩터(Replication Factor)를 지정할 수 있는데, 팩터의 개수는 리플리케이션의 수와 같다. 리플리케이션 팩터는 default 값이 1개인데, 이를 2개로 수정하면 리플리케이션의 수가 2개가 된다. 카프카 클러스터 내에 3개의 브로커가 존재할 경우, 리플리케이션 팩터 수를 수정하지 않았을 때 default..
Read more토픽 카프카에서는 프로듀서가 전달하는 메시지를 '토픽'에 저장하고, 컨슈머가 해당 '토픽'에서 메시지를 가져온다고 하였다. 메시지의 저장소 역할을 하는 토픽은 데이터베이스의 '테이블'의 역할과 같다. 또한 회원 테이블에서는 회원의 정보를 가져오고, 주문 테이블에서는 주문 정보를 가져오듯이 토픽도 특정 주제의 데이터들을 저장하는 저장소로 분류할 수 있고, 마찬가지로 컨슈머는 회원 토픽에서는 회원의 정보를, 주문 토픽에서는 주문의 정보를 가져온다. 따라서 토픽은 데이터를 구분하기 위한 단위로도 사용된다. 메시지를 받을 수 있도록 논리적으로 묶은 개념으로 데이터를 저장하는 데이터 저장소 파티션 카프카의 토픽은 분할된다. 이렇게 토픽을 분할한 것을 파티션이라고 한다. 만약 여러 프로듀서가 같은 토픽에 데이터를 ..
Read more카프카의 기능 카프카의 높은 처리량, 빠른 메시지 전송, 운영 효율화 등을 위해 구현되어있는 기능을 알아보자. 1) 분산 시스템 분산 시스템이란, 같은 역할을 하는 여러 대의 서버로 이루어진 서버 그룹을 뜻한다. - 단일 시스템보다 더 높은 성능을 얻을 수 있다. - 분산 시스템 중 하나의 서버/노드 등에 장애가 발생하면 다른 서버/노드가 대신 처리한다. - 시스템 확장에 용이하다. 2) 페이지 캐시 OS의 페이지 캐시란, 메모리 중 남은 잔여 메모리의 일부를 페이지 캐시로 이용함으로써 처리 속도를 높이고 전체적인 성능을 향상시키는 것이다. 디스크에 읽기/쓰기를 하지 않고 페이지 캐시를 통해 읽고 쓰는 방식을 통해 전체적인 성능 향상을 높이게 되는데 카프카는 이를 이용하도록 디자인되었다. 3) 배치 전송..
Read more