kafka

파일 > 카프카 > 스파크 > 엘라스틱 서치로 데이터 옮겨보기
(참고: https://www.youtube.com/watch?v=1kMcBH4apao&list=PL589M8KPPT1YP2lN8nXbqfheRwAnzdDLx&index=7 ) 모듈 설치 이 프로젝트를 하려면 필요한 모듈이 많다. 모듈을 다운받을 루트 홈의 library 폴더로 간다 cd ~/library 필요한 모듈은 다음과 같다 l spark-streaming l spark-streaming-kafka l spark-sql-kafka l kafka-clients l kafka-streams l kafka maven repository (https://mvnrepository.com/ )에서 검색 후 다운받을 수 있다 아래 명령어로 쭉 다운받자 spark-streaming wget https://rep..

주키퍼 & 카프카 설치하고 써보기
주키퍼 설치 (출처: https://needjarvis.tistory.com/605 ) 주키퍼 다운로드 사이트에서 다운로드 경로 확인 (다운로드 사이트 : https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz ) 루트 홈(~)에서 wget 명령어로 압축 파일 다운로드 cd ~ wget https://mirror.navercorp.com/apache/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz ls 명령어로 제대로 다운로드 되었는지 확인 ls | grep *zookeeper* Tar 명령어로 압축 풀기 tar -xvf apa..

Apache Kafak 개념정리 (feat. Streaming processing)
Kafak는 알다시피 분산 데이터 스트리밍 플랫폼이고 event-driven 아키를 짜는데 많이 사용된다. 이전에 사용되어온 스트리밍 아키텍처는 동기식 방식으로 시스템을 더할수록 기하급수적으로 네트워크가 복잡해지고 point-of-failuer가 많이 발생한다. 더불어 아키텍처가 복잡해지면 복잡해질수록 신뢰도가 기하급수적으로 떨어진다. 이를 해결한게 LinkedIn에서 개발, Apache Software로 넘어가 2011년 오픈소스화된 kafka이다. kafka 는 비동기식 스트리밍 플랫폼이다. 1) Kafka 기본 1-1) kafka 특징 • Source 시스템은 Kafka로 메시지를 보내고 • Destination 시스템은 Kafka로부터 메시지를 받는다 • 확장성이 있고, 장애 허용 (fault t..

Api-Gateway, Kinesis, S3 데이터 전송하기(데이터수집 on aws)
📃 프로젝트 설명 클라우드 환경에서 웹이나 앱서비스 데이터 수집을 위한 토이 프로젝트이다. 온프레미스에서 Logstash와 kafka를 이용한 수집을 클라우드 환경으로 마이그레이션하는 방법을 습득하는 것이 목표이다. 이 프로젝트의 특징은 RestAPI로 받은 데이터를 다른 AWS 서비스나 Lambda 서비스를 사용하지 않고 Velocity문법으로 데이터를 parsing하여 비용절감 효과를 가진다. 이전 블로그에서 Api-Gateway, Kinesis의 개념을 정리 해보았다. 이전 블로그 링크 : https://foot-data-engineering.tistory.com/4 현 블로그에서는 이를 활용해서 Kinesis를 사용하면 데이터가 S3 또는 RedShift로 전송될 수 있기에 이를 사용해 보려 한다..