-
[스파크 스트리밍] Structured Streaming 구조적 스트리밍 개발하기 (기본)
스파크 구조적 스트리밍 Structured Streaming은 스파크 엔진에 구축되어, 대용량 데이터에 대한 스트리밍 애플리케이션과 파이프라인을 구축할 수 있도록 개발되었으며 다음과 같은 특징이 있다. DataFrame과 Dataset API 기반으로 설계되었다. 즉, Input Data를 정해진 스키마에 맞게 구조화하여 처리한다는 뜻이다.이를 통해 SQL 쿼리나 DataFrame 연산을 스트리밍 데이터에도 동일하게 적용할 수 있다. 마이크로배치 + 연속 처리 모드를 지원.마이크로배치는 일정 시간 단위로 데이터를 배치처럼 처리하고 연속 처리 모드를 사용하면 거의 실시간에 가까운 처리를 함 End-to-End Exactly-once 보장데이터 유실, 중복 없이 정확히 한 번만 처리 Structu..
-
[빅데이터 전문가의 하둡관리] 하둡 로깅 이해하기
하둡 로깅 이해하기 하둡 로깅 이해하기 하둡에서 중요한 로그 2가지는 다음과 같다!애플리케이션 로그데몬 로그 로그 종류stdoutSystem.out.println()으로 출력되는 모든 메시지가 여기에 속한다!ex) println("my log...")stderrSystem.err.println()으로 출력되는 모든 메시지가 여기에 속한다.syslogLog4j로 생성된 로그들이 여기에 속한다.ex) logger.info("my info...") 그러면 생성된 로그를 확인하는 방법은?리소스매니저 웹 UI yarn 커맨드 로그 저장 위치HDFS잡 실행파일을 저장하는 스테이징 디렉토리/user/. staging/job_1453654767_8797과 같이 스테이징 디렉토리를 생성하고 하둡 JAR, jo..
-
[빅데이터 전문가의 하둡관리] 하둡 클러스터의 리소스 할당
하둡 클러스터의 리소스 할당 하둡의 리소스 할당 리소스 배정은 하둡 관리자에게 있어 핵심적인 업무라고 할 수 있다클러스터의 가장 중요한 리소스인 메모리와 CPU는 한정되어 있기 때문하둡 관리자는 조직 그룹 간에 적절하게 리소스를 할당해 각각의 SLA 수준을 만족시키도록 해야 한다! 클러스터의 작업량 관리하기 => 리소스 스케줄러를 이용한다!리소스 스케줄링이란? = 태스크에 우선순위를 부여, 얀 컨테이너에 태스크를 할당하는 것이다 하둡의 리소스 스케줄러는 3개가 있다.FIFO 스케줄러Capacity 스케줄러Fair 스케줄러 하나씩 간단히 알아보자. FIFO 스케줄러 task가 제출된 순서대로 1개씩 실행되며, 동시 실행되지 않는다.운영 환경에서는 사용이 권장되지 않는다. 왜냐하면... ..
-
[디자인패턴] 개방-폐쇄 원칙 OCP, Open-Closed Principle
Open-Closed Principle, OCP 저는 오늘 회사에서 OCP 원칙을 위반하는 코드를 찾아서 수정 제안을 드렸습니다. 그래서 오랜만에 SOLID 패턴 복습하면서, 디자인 패턴 포스팅을 작성합니다! 개방-폐쇄 원칙은 SOLID 원칙 중 하나로, "소프트웨어 개체(클래스, 모듈, 함수 등)는 확장에는 열려 있어야 하고, 변경(수정)에는 닫혀 있어야 한다"는 개념입니다.즉, 기존 코드를 수정하지 않고 새로운 기능이나 동작을 추가할 수 있도록 설계해야 한다는 뜻입니다. 이 원칙을 잘 지키면 시스템을 확장할 때 기존에 안정적으로 동작하던 부분을 변경할 필요가 없어 유지보수가 쉬워집니다. 개방-폐쇄 원칙의 필요성프로젝트가 커지면서 기능을 추가하거나 수정해야 할 일이 많아지면, 기존 코드에 직접..
-
[metastore] 하이브 메타스토어 VS 유니티 메타스토어 비교하기
데이터 카탈로그 솔루션 비교 데이터 카탈로그는 메타데이터를 사용하여 조직의 데이터 자산을 관리하는 플랫폼을 말한다. 데이터 카탈로그를 통해서 데이터 자산을 중복을 피하고 재사용할 수 있으며, 데이터 검색과 액세스를 효율적으로 해결할 수 있다. 예를 들어 Spark는 Spark Catalog API를 통해 메타스토어에서 얻은 스키마를 통해, Spark SQL으로 데이터에 접근할 수 있어진다. (쿼리 계획도 개선할 수 있고!) Hive 메타스토어와 Unity 메타스토어는 데이터 레이크에서 사용할 수 있는 데이터 카탈로그 솔루션이다. 이 둘을 비교해 보자..! 1. 메타데이터 관리 및 거버넌스 기능HiveUnity메타데이터 관리- 테이블, 파티션 등 기본 메타데이터 관리- Hadoop 에코시스템..
리스트 : 콘텐츠가 있으면 최근 5건을 불러옵니다.
-
[스파크 스트리밍] Structured Streaming 구조적 스트리밍 개발하기 (기본)Data - Spark 2025.02.26 07:00
스파크 구조적 스트리밍 Structured Streaming은 스파크 엔진에 구축되어, 대용량 데이터에 대한 스트리밍 애플리케이션과 파이프라인을 구축할 수 있도록 개발되었으며 다음과 같은 특징이 있다. DataFrame과 Dataset API 기반으로 설계되었다. 즉, Input Data를 정해진 스키마에 맞게 구조화하여 처리한다는 뜻이다.이를 통해 SQL 쿼리나 DataFrame 연산을 스트리밍 데이터에도 동일하게 적용할 수 있다. 마이크로배치 + 연속 처리 모드를 지원.마이크로배치는 일정 시간 단위로 데이터를 배치처럼 처리하고 연속 처리 모드를 사용하면 거의 실시간에 가까운 처리를 함 End-to-End Exactly-once 보장데이터 유실, 중복 없이 정확히 한 번만 처리 Structu..
-
[디자인패턴] 개방-폐쇄 원칙 OCP, Open-Closed PrincipleAlgorithms 2025.02.17 07:00
Open-Closed Principle, OCP 저는 오늘 회사에서 OCP 원칙을 위반하는 코드를 찾아서 수정 제안을 드렸습니다. 그래서 오랜만에 SOLID 패턴 복습하면서, 디자인 패턴 포스팅을 작성합니다! 개방-폐쇄 원칙은 SOLID 원칙 중 하나로, "소프트웨어 개체(클래스, 모듈, 함수 등)는 확장에는 열려 있어야 하고, 변경(수정)에는 닫혀 있어야 한다"는 개념입니다.즉, 기존 코드를 수정하지 않고 새로운 기능이나 동작을 추가할 수 있도록 설계해야 한다는 뜻입니다. 이 원칙을 잘 지키면 시스템을 확장할 때 기존에 안정적으로 동작하던 부분을 변경할 필요가 없어 유지보수가 쉬워집니다. 개방-폐쇄 원칙의 필요성프로젝트가 커지면서 기능을 추가하거나 수정해야 할 일이 많아지면, 기존 코드에 직접..
-
[metastore] 하이브 메타스토어 VS 유니티 메타스토어 비교하기Data - ETC 2025.02.12 07:00
데이터 카탈로그 솔루션 비교 데이터 카탈로그는 메타데이터를 사용하여 조직의 데이터 자산을 관리하는 플랫폼을 말한다. 데이터 카탈로그를 통해서 데이터 자산을 중복을 피하고 재사용할 수 있으며, 데이터 검색과 액세스를 효율적으로 해결할 수 있다. 예를 들어 Spark는 Spark Catalog API를 통해 메타스토어에서 얻은 스키마를 통해, Spark SQL으로 데이터에 접근할 수 있어진다. (쿼리 계획도 개선할 수 있고!) Hive 메타스토어와 Unity 메타스토어는 데이터 레이크에서 사용할 수 있는 데이터 카탈로그 솔루션이다. 이 둘을 비교해 보자..! 1. 메타데이터 관리 및 거버넌스 기능HiveUnity메타데이터 관리- 테이블, 파티션 등 기본 메타데이터 관리- Hadoop 에코시스템..
-
[빅데이터 전문가의 하둡관리] 하둡 로깅 이해하기Data - Hadoop 2025.02.24 07:00
하둡 로깅 이해하기 하둡 로깅 이해하기 하둡에서 중요한 로그 2가지는 다음과 같다!애플리케이션 로그데몬 로그 로그 종류stdoutSystem.out.println()으로 출력되는 모든 메시지가 여기에 속한다!ex) println("my log...")stderrSystem.err.println()으로 출력되는 모든 메시지가 여기에 속한다.syslogLog4j로 생성된 로그들이 여기에 속한다.ex) logger.info("my info...") 그러면 생성된 로그를 확인하는 방법은?리소스매니저 웹 UI yarn 커맨드 로그 저장 위치HDFS잡 실행파일을 저장하는 스테이징 디렉토리/user/. staging/job_1453654767_8797과 같이 스테이징 디렉토리를 생성하고 하둡 JAR, jo..
-
[빅데이터 전문가의 하둡관리] 하둡 클러스터의 리소스 할당Data - Hadoop 2025.02.19 07:00
하둡 클러스터의 리소스 할당 하둡의 리소스 할당 리소스 배정은 하둡 관리자에게 있어 핵심적인 업무라고 할 수 있다클러스터의 가장 중요한 리소스인 메모리와 CPU는 한정되어 있기 때문하둡 관리자는 조직 그룹 간에 적절하게 리소스를 할당해 각각의 SLA 수준을 만족시키도록 해야 한다! 클러스터의 작업량 관리하기 => 리소스 스케줄러를 이용한다!리소스 스케줄링이란? = 태스크에 우선순위를 부여, 얀 컨테이너에 태스크를 할당하는 것이다 하둡의 리소스 스케줄러는 3개가 있다.FIFO 스케줄러Capacity 스케줄러Fair 스케줄러 하나씩 간단히 알아보자. FIFO 스케줄러 task가 제출된 순서대로 1개씩 실행되며, 동시 실행되지 않는다.운영 환경에서는 사용이 권장되지 않는다. 왜냐하면... ..