[빅데이터 전문가의 하둡관리] 하둡 로깅 이해하기

개발지식 아카이브/Data - Hadoop 2025. 2. 24. 07:00

하둡 로깅 이해하기

로그 종류
- stdout
  - System.out.println()으로 출력되는 모든 메시지가 여기에 속한다!
  - ex) println("my log...")
- stderr
  - System.err.println()으로 출력되는 모든 메시지가 여기에 속한다.
- syslog
  - Log4j로 생성된 로그들이 여기에 속한다.
  - ex) logger.info("my info...")

그러면 생성된 로그를 확인하는 방법은?
1. 리소스매니저 웹 UI << 보통은 이걸로 많이들 본다. 가장 일반적인 방법이라고 생각된다.
2. yarn 커맨드

로그 저장 위치
1. HDFS
  - 잡 실행파일을 저장하는 스테이징 디렉토리
  - /user/. staging/job_1453654767_8797과 같이 스테이징 디렉토리를 생성하고 하둡 JAR, job.xml과 같은 설정 프로퍼티 파일들을 임시 저장한다.
2. 노드매니저 로컬 디렉토리
  - yarn.nodemanager.local.dirs 설정으로 관리한다
  - 스크립트 파일들
    - ex) 맵 리듀스 스크립트 mapper.sh reducer.sh
    - ex) 스파크 스크립트 spark-executor-launch.sh
3. 노드매니저 로그 디렉토리
  - <name>yarn.nodemanager.log-dirs</name> 설정으로 관리한다
  - (중요) 이곳은 노드매니저가 애플리케이션 로그 파일을 저장하는 곳으로 실제 애플리케이션 로그 파일이 있는 곳이다!
  - stderr, stdout, syslog 파일들이 만들어진다.
  - 기본 유지 시간은 default 3시간이다.
  - log-aggregation은 애플리케이션이 완료된 후 실행 로그가 노드매니저에서 즉시 HDFS로 옮겨지도록 하는 설정인데, 이 경우 로그를 더 오래 유지할 수 있다.
    - 프로덕션 환경이라면 대부분 활성화되어 있다.
    - <name>yarn.log-aggregation-enable</name> 그리고 <name>yarn.nodemanager.log.retain-seconds</name> 이 설정되어 있다면, 로그 파일이 HDFS로 이동한 후에 그 시간만큼 더 유지된다.

Q. Running App log는 어디에서 볼 수 있을까요?

A. 실행 중인 애플리케이션 로그는 Resource manager UI에서 (노드매니저 로그에 접근하여 보여줌) 볼 수 있다.

Q. Finished app log는 어디에서 볼 수 있을까요?

A. 일정 시간이 지난, 종료된 앱 로그는 Log aggregation이 완료되었다면 하둡 jobHistory 서버에서 볼 수 있다.

Q. 위에서 설명한 것들은 모두 MR (Map Reduce) 로그에요. 스파크 로그는 어디에서 볼 수 있죠?

A. 스파크 로그는 따로 관리된다. Spark JobHistory 서버에서 스파크 로그를 볼 수 있다.

이 포스팅은 빅데이터 전문가의 하둡관리 17장을 공부한 후 일부를 포스팅으로 작성하였습니다.

[빅데이터 전문가의 하둡관리] 하둡 클러스터의 리소스 할당 (0)	2025.02.19
[빅데이터 전문가의 하둡관리] 네임노드 오퍼레이션, 고가용성 그리고 페더레이션 (0)	2025.02.10
[빅데이터 전문가의 하둡관리] HDFS 명령, 퍼미션, 스토리지 (0)	2025.02.04
[빅데이터 전문가의 하둡관리] HDFS의 동작 알고리즘 (1)	2024.12.18
[빅데이터 전문가의 하둡관리] Hadoop 아키텍처 (1)	2024.12.16