-
[빅데이터 전문가의 하둡관리] 하둡 로깅 이해하기개발지식 아카이브/Data - Hadoop 2025. 2. 24. 07:00
하둡 로깅 이해하기
하둡 로깅 이해하기
- 하둡에서 중요한 로그 2가지는 다음과 같다!
- 애플리케이션 로그
- 데몬 로그
- 로그 종류
- stdout
- System.out.println()으로 출력되는 모든 메시지가 여기에 속한다!
- ex) println("my log...")
- stderr
- System.err.println()으로 출력되는 모든 메시지가 여기에 속한다.
- syslog
- Log4j로 생성된 로그들이 여기에 속한다.
- ex) logger.info("my info...")
- stdout
- 그러면 생성된 로그를 확인하는 방법은?
- 리소스매니저 웹 UI << 보통은 이걸로 많이들 본다. 가장 일반적인 방법이라고 생각된다.
- yarn 커맨드
- 로그 저장 위치
- HDFS
- 잡 실행파일을 저장하는 스테이징 디렉토리
- /user/. staging/job_1453654767_8797과 같이 스테이징 디렉토리를 생성하고 하둡 JAR, job.xml과 같은 설정 프로퍼티 파일들을 임시 저장한다.
- 노드매니저 로컬 디렉토리
- yarn.nodemanager.local.dirs 설정으로 관리한다
- 스크립트 파일들
- ex) 맵 리듀스 스크립트 mapper.sh reducer.sh
- ex) 스파크 스크립트 spark-executor-launch.sh
- 노드매니저 로그 디렉토리
- <name>yarn.nodemanager.log-dirs</name> 설정으로 관리한다
- (중요) 이곳은 노드매니저가 애플리케이션 로그 파일을 저장하는 곳으로 실제 애플리케이션 로그 파일이 있는 곳이다!
- stderr, stdout, syslog 파일들이 만들어진다.
- 기본 유지 시간은 default 3시간이다.
- log-aggregation은 애플리케이션이 완료된 후 실행 로그가 노드매니저에서 즉시 HDFS로 옮겨지도록 하는 설정인데, 이 경우 로그를 더 오래 유지할 수 있다.
- 프로덕션 환경이라면 대부분 활성화되어 있다.
- <name>yarn.log-aggregation-enable</name> 그리고 <name>yarn.nodemanager.log.retain-seconds</name> 이 설정되어 있다면, 로그 파일이 HDFS로 이동한 후에 그 시간만큼 더 유지된다.
- HDFS
예시 (복습)
Q. Running App log는 어디에서 볼 수 있을까요?
예시 화면 A. 실행 중인 애플리케이션 로그는 Resource manager UI에서 (노드매니저 로그에 접근하여 보여줌) 볼 수 있다.
Q. Finished app log는 어디에서 볼 수 있을까요?
예시 화면 A. 일정 시간이 지난, 종료된 앱 로그는 Log aggregation이 완료되었다면 하둡 jobHistory 서버에서 볼 수 있다.
Q. 위에서 설명한 것들은 모두 MR (Map Reduce) 로그에요. 스파크 로그는 어디에서 볼 수 있죠?
예시 화면 A. 스파크 로그는 따로 관리된다. Spark JobHistory 서버에서 스파크 로그를 볼 수 있다.
이 포스팅은 빅데이터 전문가의 하둡관리 17장을 공부한 후 일부를 포스팅으로 작성하였습니다.
'개발지식 아카이브 > Data - Hadoop' 카테고리의 다른 글
[빅데이터 전문가의 하둡관리] 하둡 클러스터의 리소스 할당 (0) 2025.02.19 [빅데이터 전문가의 하둡관리] 네임노드 오퍼레이션, 고가용성 그리고 페더레이션 (0) 2025.02.10 [빅데이터 전문가의 하둡관리] HDFS 명령, 퍼미션, 스토리지 (0) 2025.02.04 [빅데이터 전문가의 하둡관리] HDFS의 동작 알고리즘 (1) 2024.12.18 [빅데이터 전문가의 하둡관리] Hadoop 아키텍처 (1) 2024.12.16 - 하둡에서 중요한 로그 2가지는 다음과 같다!