-
Zeppelin 과 Notebook 비교, 어떤 것을 고를까?[IT] 공부하는 개발자/Data engineering 2023. 5. 18. 08:52
Zeppelin 은
데이터 분석과 시각화를 위한 인터랙티브한 환경을 제공하는 Web Notebook 기반의 오픈 소스 프로젝트
Zeppelin을 쓰는 이유
- 인터랙티브한 환경
실시간으로 코드를 실행하고 결과를 확인할 수 있는 대화형 환경 -> 분석의 효율성 - 다중 언어 지원
다양한 언어로 코드를 작성하고 실행할 수 있음 -> 사용자가 선호하는 언어 선택 가능
ex) HDFS에 접근하고자 할 때에 상황에 맞게 Hive query 를 작성할 수도, Presto query를 작성할 수도 있다. Python, Scala등의 다양한 언어를 섞어가며 분석 코드를 짤 수 있고, Spark, Cassandra 등 다양한 분석 도구에도 붙을 수 있다. - 시각화 기능
데이터 시각화를 위한 다양한 도구와 라이브러리를 지원하여 결과를 직관적으로 시각화 -> 데이터의 패턴 & 인사이트를 빠르게 파악 - 공유와 협업
Zeppelin은 노트북 형식으로 작업을 저장하고 공유할 수 있으며, 다른 사용자와 협업하여 분석 작업을 진행할 수 있다.
-> 팀 프로젝트나 지식 공유에 유용하게 활용
Apache Zeppelin VS Jupyter Notebook
Zeppelin 이 선호되는 경우
- 팀 프로젝트나 협업 작업
- 다중 언어 지원이 필요함
- 보안 인증 기능의 구현이 필요함
- 사용자의 개인정보 구성이 없는 주피터와 달리 제플린은 유연한 보안구성이 가능
Jupyter Notebook 이 선호되는 경우
- 개인적인 데이터 분석 작업이나 학습
- Scalable 한 인프라 구축이 필요한 경우
- Docker, k8s 를 지원함 - 커뮤니티의 지원이 필요한 경우
- 제플린보다 더 오래되었고 사용자수가 더 많음
Reference
https://www.intelligencelabs.tech/69dd1f0e-67c9-4969-8615-a810d74056ca
https://analyticsindiamag.com/jupyter-vs-zeppelin-a-comprehensive-comparison-of-notebooks/
'[IT] 공부하는 개발자 > Data engineering' 카테고리의 다른 글
[Hive] 하이브 핵심정리 (1) 2023.10.19 [Streamlit] 설치 단계에서 발생한 이슈와 해결방법 정리 (0) 2023.04.16 스파크 - 성능 최적화하기, 리팩토링 practice (0) 2023.02.26 스파크는 무엇이고 왜 쓰는지? 스파크에 대해 알아보기 (0) 2023.02.26 [R 회귀분석 예제] 야구선수 연봉에 영향을 미치는 요인 (Linear Regression) (3) 2020.06.21 - 인터랙티브한 환경