개발지식 아카이브/Data - ETC
-
[metastore] 하이브 메타스토어 VS 유니티 메타스토어 비교하기개발지식 아카이브/Data - ETC 2025. 2. 12. 07:00
데이터 카탈로그 솔루션 비교 데이터 카탈로그는 메타데이터를 사용하여 조직의 데이터 자산을 관리하는 플랫폼을 말한다. 데이터 카탈로그를 통해서 데이터 자산을 중복을 피하고 재사용할 수 있으며, 데이터 검색과 액세스를 효율적으로 해결할 수 있다. 예를 들어 Spark는 Spark Catalog API를 통해 메타스토어에서 얻은 스키마를 통해, Spark SQL으로 데이터에 접근할 수 있어진다. (쿼리 계획도 개선할 수 있고!) Hive 메타스토어와 Unity 메타스토어는 데이터 레이크에서 사용할 수 있는 데이터 카탈로그 솔루션이다. 이 둘을 비교해 보자..! 1. 메타데이터 관리 및 거버넌스 기능HiveUnity메타데이터 관리- 테이블, 파티션 등 기본 메타데이터 관리- Hadoop 에코시스템..
-
데이터 레이크하우스 아키텍처개발지식 아카이브/Data - ETC 2024. 12. 10. 16:33
데이터 레이크하우스 아키텍처를 이해하려면 먼저 데이터 레이크, 데이터 웨어하우스에 대해서도 알아야한다. 데이터 레이크 vs 데이터 웨어하우스 vs 데이터 레이크하우스데이터 레이크와 데이터 웨어하우스의 장점을 결합한 것이 발전된 방향의 데이터 레이크하우스!! ACID 트랜잭션, 오픈 포맷 기반, 저렴한 운영 비용... 데이터 레이크기술 스택저장소:Amazon S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS).온프레미스 환경에서는 Hadoop Distributed File System (HDFS) 사용. 파일 포맷:Apache Parquet, ORC, Avro (열지향 포맷 추천). 데이터 처리:Apache Spark, Apache Flink,..
-
[Hive] 하이브 핵심정리개발지식 아카이브/Data - ETC 2023. 10. 19. 19:30
하이브 개요하이브는 하둡의 HDFS 데이터를 SQL로 질의할 수 있게 해주는 Hadoop 생태계의 일원이다. 하이브는 테이블(Table), 파티션(Partition), 버킷(Bucket) 세 개의 구조로 분할될 수 있다. 테이블을 HDFS 디렉토리에 대응시키고, 이를 파티션으로 분할 후 파티션을 버킷으로 차례차례 나눌 수 있다. 하이브의 장점하이브의 HQL은 SQL과 문법이 비슷하다.하이브는 여러 컴퓨팅 프레임워크에서 동작할 수 있다. (MapReduce, Spark, ...)하이브는 HDFS 데이터에 Ad-hoc 질의를 할 수 있다.하이브는 UDF, 사용자 정의 I/O 포맷을 지원한다. 하이브의 구조테이블테이블 = 디렉토리에 맵핑된다고 생각하면 된다.하이브에서 salary 테이블을 생성하면 HDFS..
-
Zeppelin 과 Notebook 비교, 어떤 것을 고를까?개발지식 아카이브/Data - ETC 2023. 5. 18. 08:52
Zeppelin 은 데이터 분석과 시각화를 위한 인터랙티브한 환경을 제공하는 Web Notebook 기반의 오픈 소스 프로젝트 Zeppelin을 쓰는 이유 인터랙티브한 환경 실시간으로 코드를 실행하고 결과를 확인할 수 있는 대화형 환경 -> 분석의 효율성 다중 언어 지원 다양한 언어로 코드를 작성하고 실행할 수 있음 -> 사용자가 선호하는 언어 선택 가능 ex) HDFS에 접근하고자 할 때에 상황에 맞게 Hive query 를 작성할 수도, Presto query를 작성할 수도 있다. Python, Scala등의 다양한 언어를 섞어가며 분석 코드를 짤 수 있고, Spark, Cassandra 등 다양한 분석 도구에도 붙을 수 있다. 시각화 기능 데이터 시각화를 위한 다양한 도구와 라이브러리를 지원하여 결..
-
[Streamlit] 설치 단계에서 발생한 이슈와 해결방법 정리개발지식 아카이브/Data - ETC 2023. 4. 16. 02:11
Streamlit 이란?데이터 시각화를 지원하는 웹 애플리케이션 개발을 위한 파이썬 기반 오픈소스 라이브러리 왜 Streamlit을 써야 할까?1. 쉬움 Data scientist 들이 가장 편하게 느끼는 파이썬 언어로 작성되어 있어서 러닝 커브가 적다. 2. 시각화 지원 시각화를 지원하는 프론트엔드 라이브러리가 많지 않은데, Streamlit 은 다양하고 많은 시각화 라이브러리를 지원해서 차트, 그래프를 높은 자유도로 만들 수 있다. 3. 반응형 웹 반응형 웹을 내부적으로 구현해 주므로 개발 비용을 절약할 수 있다. 4. 비교군 중 가장 인기가 많은 시각화 오픈소스 Github contribution 을 기준으로 비교해 보면 비슷한 오픈소스인 Panel 보다 7배 이상 contribution 이 많다...
-
[R 회귀분석 예제] 야구선수 연봉에 영향을 미치는 요인 (Linear Regression)개발지식 아카이브/Data - ETC 2020. 6. 21. 11:19
목표 어떤 요소가 야구선수의 연봉에 영향을 미칠까 ? 목차 1. 데이터 분석 2. 데이터 클리닝 3. 변수 선택 3.1 Approaches 3.2 The Best Subset Approach 3.3 Stepwise Approach 과정 1. 데이터 분석 install.packages("ISLR") library(ISLR) dim(Hitters) head(Hitters) summary(Hitters) 야구선수들의 스펙정보와 연봉정보를 제공하는 통계 패키지 ISLR을 이용합니다. 패키지를 설치 후, 임포트해줍니다. 총 263개의 샘플에 20개의 예측 변수를 가진 데이터입니다. 샘플 몇 개를 볼까요. 결과에 영향을 미칠것이라고 가정하고 있는 예측 변수(Predictor Variables)들을 먼저 보면, Le..
-
[쉽게 설명하는 머신러닝] 머신러닝 문제 정의, 알고리즘 선택 방법개발지식 아카이브/Data - ETC 2019. 5. 26. 16:39
이전 포스팅 2019/05/25 - [[IT] 공부하는 개발자/Machine Learning] - [쉽게 설명하는 머신러닝] 개념 정리 [쉽게 설명하는 머신러닝] 개념 정리 머신러닝 개념정리 1. 기계학습이란 2. 인간의 경험학습 3. 기계의 경험 학습 4. 학습시 고려할 것 4.1 데이터 4.2 알고리즘 1. 기계학습이란? 머신러닝이란, 말 그대로 기계를 학습시켜(Machine Lear gem1n1.tistory.com 이전 포스팅에서 예측력이 좋은 모델을 개발하기 위해서는 데이터만큼이나 알고리즘의 선택이 중요하다고 이야기했었다. 이번 포스팅에서는 머신러닝 문제를 정의하고, 그에 따라 알고리즘을 선택하는 방법에 대해 알아볼 것이다. 목차 1. 머신러닝 문제 정의 1.1 지도학습 1.2 비지도학습 1.3..
-
[쉽게 설명하는 머신러닝] 개념 정리개발지식 아카이브/Data - ETC 2019. 5. 25. 20:57
머신러닝 개념정리 1. 기계학습이란 2. 인간의 경험학습 3. 기계의 경험 학습 4. 학습시 고려할 것 4.1 데이터 4.2 알고리즘 1. 기계학습이란? 머신러닝이란, 말 그대로 기계를 학습시켜(Machine Learning), 의사결정을 할 수 있게 하는 것이다(Decision Making). 기계의 학습에 대해 논하기 전에, 먼저 인간의 학습에 대해 생각해보자. 2. 인간의 경험학습 지금부터 당신의 '강아지vs고양이 분별 모델'의 성능을 체크해 볼것이다. Q1. 아래에 동물 사진 3장이 있다. 강아지는 몇 마리, 고양이는 몇 마리인가? 정답은 강아지 2마리, 고양이 1마리이다. 순서대로 강아지, 고양이, 강아지다. 당신은 아마 100% 정답을 맞췄을 것이다. 그런데, 당신은 어떻게 1번이 강아지이고,..