개발지식 아카이브/Data - ALL
-
카프카 보안 프로토콜과 내부 메커니즘개발지식 아카이브/Data - ALL 2025. 1. 3. 16:46
오늘은 패킷 보안 및 인증에 사용되는 카프카 4가지 보안 프로토콜(Security Protocol) 타입을 정리해 보겠다. 1. PLAINTEXT설명:기본 프로토콜로, 데이터를 암호화하지 않고 전송합니다.인증 및 데이터 암호화 기능이 없습니다. 메커니즘:없음: 보안 설정이 필요하지 않고, 모든 데이터는 평문으로 전송됩니다. 2. SSL (Secure Sockets Layer)설명:데이터 전송 시 암호화를 제공하여 전송 중 데이터의 기밀성과 무결성을 보장합니다. SSL 메커니즘:암호화: 데이터 암호화.서버 인증: 클라이언트는 서버의 인증서를 확인하여 신뢰성을 보장.클라이언트 인증(옵션): 서버가 클라이언트의 인증서를 요청할 수 있음 (양방향 인증).구성 요소:ssl.keystore.location..
-
데이터 레이크하우스 아키텍처개발지식 아카이브/Data - ALL 2024. 12. 10. 16:33
데이터 레이크하우스 아키텍처를 이해하려면 먼저 데이터 레이크, 데이터 웨어하우스에 대해서도 알아야한다. 데이터 레이크 vs 데이터 웨어하우스 vs 데이터 레이크하우스데이터 레이크와 데이터 웨어하우스의 장점을 결합한 것이 발전된 방향의 데이터 레이크하우스!! ACID 트랜잭션, 오픈 포맷 기반, 저렴한 운영 비용... 데이터 레이크기술 스택저장소:Amazon S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS).온프레미스 환경에서는 Hadoop Distributed File System (HDFS) 사용. 파일 포맷:Apache Parquet, ORC, Avro (열지향 포맷 추천). 데이터 처리:Apache Spark, Apache Flink,..
-
[Kafka] 카프카의 실전 서비스 운영개발지식 아카이브/Data - ALL 2024. 9. 18. 10:22
2020.02.15 - [[IT] 공부하는 개발자/Open Source] - [Kafka] 카프카란? 개념과 디자인 [Kafka] 카프카란? 개념과 디자인차례 카프카란 카프카의 특징 카프카 데이터 모델 카프카 리플리케이션 카프카란 카프카는 서비스간에 메시지 통신을 제공하는, 메시지 큐 서비스이다. 실 서비스에서 언제 메시지 통신이 요구gem1n1.tistory.com 최근에 카프카 관련 장애를 겪고 나서, 내가 정말 수박 겉핥기로 카프카를 알고 있었다는 걸 깨닫게 되었다. 그래서 조금 더 공부해서 위의 포스팅에 이어서 2편을 쓴다. 카프카 운영 옵션클라이언트 공통 옵션metadata.max.age.ms- 클라이언트가 브로커로부터 토픽에 대한 메타데이터를 받아와 새로고침하는 시간 - default는 ..
-
[Hive] 하이브 핵심정리개발지식 아카이브/Data - ALL 2023. 10. 19. 19:30
하이브 개요하이브는 하둡의 HDFS 데이터를 SQL로 질의할 수 있게 해주는 Hadoop 생태계의 일원이다. 하이브는 테이블(Table), 파티션(Partition), 버킷(Bucket) 세 개의 구조로 분할될 수 있다. 테이블을 HDFS 디렉토리에 대응시키고, 이를 파티션으로 분할 후 파티션을 버킷으로 차례차례 나눌 수 있다. 하이브의 장점하이브의 HQL은 SQL과 문법이 비슷하다.하이브는 여러 컴퓨팅 프레임워크에서 동작할 수 있다. (MapReduce, Spark, ...)하이브는 HDFS 데이터에 Ad-hoc 질의를 할 수 있다.하이브는 UDF, 사용자 정의 I/O 포맷을 지원한다. 하이브의 구조테이블테이블 = 디렉토리에 맵핑된다고 생각하면 된다.하이브에서 salary 테이블을 생성하면 HDFS..
-
Zeppelin 과 Notebook 비교, 어떤 것을 고를까?개발지식 아카이브/Data - ALL 2023. 5. 18. 08:52
Zeppelin 은 데이터 분석과 시각화를 위한 인터랙티브한 환경을 제공하는 Web Notebook 기반의 오픈 소스 프로젝트 Zeppelin을 쓰는 이유 인터랙티브한 환경 실시간으로 코드를 실행하고 결과를 확인할 수 있는 대화형 환경 -> 분석의 효율성 다중 언어 지원 다양한 언어로 코드를 작성하고 실행할 수 있음 -> 사용자가 선호하는 언어 선택 가능 ex) HDFS에 접근하고자 할 때에 상황에 맞게 Hive query 를 작성할 수도, Presto query를 작성할 수도 있다. Python, Scala등의 다양한 언어를 섞어가며 분석 코드를 짤 수 있고, Spark, Cassandra 등 다양한 분석 도구에도 붙을 수 있다. 시각화 기능 데이터 시각화를 위한 다양한 도구와 라이브러리를 지원하여 결..
-
[Streamlit] 설치 단계에서 발생한 이슈와 해결방법 정리개발지식 아카이브/Data - ALL 2023. 4. 16. 02:11
Streamlit 이란?데이터 시각화를 지원하는 웹 애플리케이션 개발을 위한 파이썬 기반 오픈소스 라이브러리 왜 Streamlit을 써야 할까?1. 쉬움 Data scientist 들이 가장 편하게 느끼는 파이썬 언어로 작성되어 있어서 러닝 커브가 적다. 2. 시각화 지원 시각화를 지원하는 프론트엔드 라이브러리가 많지 않은데, Streamlit 은 다양하고 많은 시각화 라이브러리를 지원해서 차트, 그래프를 높은 자유도로 만들 수 있다. 3. 반응형 웹 반응형 웹을 내부적으로 구현해 주므로 개발 비용을 절약할 수 있다. 4. 비교군 중 가장 인기가 많은 시각화 오픈소스 Github contribution 을 기준으로 비교해 보면 비슷한 오픈소스인 Panel 보다 7배 이상 contribution 이 많다...
-
[R 회귀분석 예제] 야구선수 연봉에 영향을 미치는 요인 (Linear Regression)개발지식 아카이브/Data - ALL 2020. 6. 21. 11:19
목표 어떤 요소가 야구선수의 연봉에 영향을 미칠까 ? 목차 1. 데이터 분석 2. 데이터 클리닝 3. 변수 선택 3.1 Approaches 3.2 The Best Subset Approach 3.3 Stepwise Approach 과정 1. 데이터 분석 install.packages("ISLR") library(ISLR) dim(Hitters) head(Hitters) summary(Hitters) 야구선수들의 스펙정보와 연봉정보를 제공하는 통계 패키지 ISLR을 이용합니다. 패키지를 설치 후, 임포트해줍니다. 총 263개의 샘플에 20개의 예측 변수를 가진 데이터입니다. 샘플 몇 개를 볼까요. 결과에 영향을 미칠것이라고 가정하고 있는 예측 변수(Predictor Variables)들을 먼저 보면, Le..
-
[Kafka] 카프카란? 개념과 디자인개발지식 아카이브/Data - ALL 2020. 4. 11. 11:16
차례카프카란카프카의 특징카프카 데이터 모델카프카 리플리케이션 카프카란카프카는 서비스간에 메시지 통신을 제공하는, 메시지 큐 서비스이다. 실 서비스에서 언제 메시지 통신이 요구될까? 하나의 프로젝트로 기능하던 것을 여러개의 프로젝트로 쪼개서 배치되어있는 상황을 생각해보자. 이 때 각각의 도메인들은 내부에서 동적으로 요청을 처리한 후 다른 도메인에 그 결과를 전달해주어야 할 상황들이 있을 것이다. 즉 카프카와 같은 메시지 큐는 마이크로 서비스 아키텍쳐(MSA)를 구현하는 아키텍쳐 및 대량 데이터를 처리하는 분산시스템과 잘 어울린다. 카프카의 특징디스크에 메시지 저장카프카가 기존의 메시징 시스템들과의 다른 특징 중 하나는 디스크에 메시지를 저장하고 유지한다는 것이다. 카프카는 정해져 있는 보관 주기 동안 디..