NAVER CLOUD PLATFORM

Monitoring

컴퓨팅 자원의 상태를 모니터링하고 이벤트가 발생하면 사용자에게 통보합니다

IT 장비에 대한 신속한 장애 대응 및 효율적인 리소스 성능 개선 계획 수립 가능

서비스를 운영하는 리소스의 상태를 모니터링하고, 임의로 설정된 임계치를 초과할 때는 이벤트 상황을 통보합니다. 이를 통해 신속하게 장애에 대응할 수 있고 리소스 용량 및 성능 개선 계획을 마련할 수 있으며, 궁극적으로 사용자가 제공하는 서비스의 연속성을 확보할 수 있게 도와줍니다.

컴퓨팅 자원의 안정적인 운영 가능
기본 모니터링 기능을 통해 CPU 사용률, 디스크 사용률, 메모리 사용률 등 시스템 관련 지표를 확인할 수 있습니다. 이벤트 설정, 컴퓨팅 자원별 비교 기능 등의 상세 모니터링 기능을 활용하면 효과적인 장애 분석과 빠른 대응이 가능합니다.
다양한 정보 수집 및 세분화된 설정 항목
10개 분류 내 83개의 세부 항목에 대한 모니터링 성능 정보를 수집하고, 13개 분류 내 60개의 세부 항목과 관련된 이벤트 경보를 설정할 수 있습니다. 이를 통해 보다 세밀한 모니터링이 가능합니다.
그래프 및 통계 활용
RESTful API 방식의 HTTP GET/POST 메소드를 통해 모니터링 데이터를 다양한 형태로 활용할 수 있습니다. 사용자가 직접 API를 활용하여 실시간 데이터를 수집하거나 일 단위의 통계 데이터를 분석할 수 있어 비즈니스 목적에 맞게 활용할 수 있습니다.
다양한 서비스에 대한 모니터링
NAS, CDN, Storage, Auto Scaling 등 네이버 클라우드 플랫폼에서 제공하는 다양한 서비스의 컴퓨팅 자원 상태를 살필 수 있습니다. 추후 애플리케이션 로그 및 사용자 지정 메트릭 연동, 모바일 앱에서도 빠른 대응이 가능하도록 부가 기능을 제공할 예정입니다.
사용자 맞춤형 모니터링
사용자가 원하는 형태로 차트와 대시보드를 직접 생성하여 운영할 수 있습니다. 또한, 서버를 그룹별로 분류하여 모니터링하는 기능을 통해 관심 자원에 대한 상태를 빠르게 확인하고 장애에 신속하게 대응할 수 있습니다.
손쉬운 이벤트 설정
몇 번의 클릭만으로 간편하게 이벤트와 관련된 다양한 설정을 할 수 있는 템플릿을 제공합니다. 직관적인 UI로 설계된 이벤트 설정 템플릿은 임계치 및 통보 대상 등을 빠르고 쉽게 관리할 수 있도록 도와드립니다.

상세기능

효과적인 모니터링을 위한 다양한 기능을 제공합니다

모니터링 항목 및 주기 설정

CPU, 메모리, 디스크, Load Average, 네트워크, 디스크 I/O, 파일 감시, 파일 시스템, 로그 감시, 프로세스, Ping Fail, 포트 다운 등 다양한 항목에 대해 모니터링 정보를 수집하고, 발생하는 이벤트에 대한 통보 설정을 할 수 있습니다. 이 중 Ping Fail, 서버 다운, 로그 감시, 포트 다운 등 일부 항목은 이벤트 통보 설정 기능만 제공되며, 이벤트 통보 항목은 최대 20개까지 설정할 수 있습니다. 선택한 기간에 따라 1분, 5분, 2시간, 1일 주기로 모니터링 결과를 제공합니다. 특히, 최근 8일 동안은 1분 주기로 모니터링 결과를 보관해 효율적인 대응이 가능합니다. 현재 모니터링 정보는 최대 1년까지 1일 주기 정보를 제공합니다.

수집하는 모니터링 정보 및 이벤트 통보 설정 항목
수집하는 모니터링 정보 및 이벤트 통보 설정 항목
수집하는 모니터링 정보이벤트 통보 설정 항목
항목세부항목항목세부항목
CPUUsed(%), System(%), User(%), Idle(%), iowait(%), nice(%), irq(%), softirq(%), privileged time(%), dpc time(%), interrupt time(%), processor time(%)CPUUsed(%), System(%), User(%), Idle(%), iowait(%), nice(%), irq(%), softirq(%), privileged time(%), dpc time(%), interrupt time(%), processor time(%)
MemoryUsed(%), Total/Used/Free/Buffer/Cached/Shared(Bytes), pgin/sec(MB), pgout/sec(MB)MemoryUsed(%), Total/Used/Free/Buffer/Cached/Shared(Bytes), pgin/sec(MB), pgout/sec(MB)
File SystemFimeSystem 명칭, Size(MB), Used(MB/%), Avail(MB), MountFile SystemUsed/iuse(%), 가용량/사용량(MB), 마운트 상태
NICOutput(bps/pps/error), Input(bps/pps/error)NICOutput(bps/pps/error), Input(bps/pps/error), collision
Disk I/ORead Bytes/Count, Write Bytes/CountDisk I/ORead Bytes/Count, Write Bytes/Count
SwapUsed(%), Total/Used/Free(Bytes)SwapUsed(%), Total/Used(Bytes)
Load Average1분, 5분, 15분Load Average1분, 5분, 15분
파일 감시변경, 크기, 존재 여부, 무변경
사용자수사용자수
로그 감시파일로그
Ping FailPing Fail
포트 다운다운
프로세스Process 명칭, PID, CPU(%), 메모리(%/KB), Prior, Thread, CPU Time프로세스프로세스 다운, CPU(%), 메모리(%/KB), Thread 수, 전체 프로세스 수, 프로세스 재시작

모니터링 대시보드

운영 효율성 향상을 위해 원하는 정보를 한 화면에서 확인할 수 있는 대시보드를 제공합니다. 대시보드는 모니터링 설정을 완료한 서버에 대해서 하루 동안 발생 및 종료된 이벤트, 최근 1주일 동안 발생한 이벤트 현황, 항목별 TOP 5 서버 현황을 한 화면에 제공합니다. 이를 통해 사용자는 운영 중인 서버의 최근 현황을 파악할 수 있고, 특정 서버의 상태를 편리하게 확인할 수 있습니다. 또한, 대시보드 화면과 상세 화면을 바로 연결해 이슈를 상세하게 추적할 수 있어 운영 효율성을 크게 높일 수 있습니다.

모니터링 현황 항목 설정

모니터링 현황 메뉴에서 이벤트 확인 목적의 일부 항목을 제외한 14개 항목 60개 세부 항목에 대해 모니터링 정보를 제공합니다. 특히, 60개 세부 항목 중 집중적으로 확인해야 하는 10개 항목에 대해 상태 정보를 기본으로 제공합니다. 집중적으로 확인할 10개 항목은 목적에 따라 변경할 수 있습니다. 또한, 비교를 원하는 특정 서버를 선택해 항목별로 비교할 수 있는 ‘차트 비교’ 기능을 제공합니다. 서버 간 차이를 확인해 문제점이나 이슈를 확인할 때 유용합니다. 또한 특정 항목에서 다른 서버에 비해 모니터링 지표 차이가 많은 서버를 확인할 때 편리합니다.

사용자 맞춤형 대시보드

‘My Chart’ 기능을 통해 사용자가 원하는 형태의 차트 및 대시보드를 직접 생성하여 실시간으로 인스턴스의 성능 정보를 살펴볼 수 있습니다. ‘My Group’ 기능은 인스턴스를 그룹 단위로 분류하여 주요 및 관심 서버를 효율적으로 모니터링하고 장애 발생 시 신속하게 대응할 수 있도록 합니다. 또한, 사용자가 생성한 차트 및 대시보드를 위젯 형태로 제공하여 사용자가 보고 싶어 하는 정보들을 효과적으로 확인할 수 있습니다.

이벤트 설정 로그

이벤트 설정 로그 기능을 사용해 최근 1개월 동안의 이벤트 설정 이력을 확인할 수 있습니다. 고객이 설정한 이벤트 설정 일시, 설정 내역, 작업자, 접속 IP로 모니터링 사용 현황을 확인할 수 있어 부주의한 사용을 방지할 수 있습니다.

이벤트 설정 템플릿

자주 사용하는 이벤트 및 통보 대상 정보 등을 템플릿 형태로 손쉽게 관리할 수 있습니다. 새롭게 추가된 인스턴스에 미리 저장해둔 템플릿을 적용하면 해당 자원에 대한 이벤트 관련 설정을 간단하게 완료할 수 있습니다.

Auto Scaling 그룹 모니터링

Auto Scaling 모니터링은 그룹으로 설정된 여러 대 서버의 평균값을 기준으로 모니터링 서비스를 제공합니다.
CPU, 메모리, Load Average, 네트워크, 디스크 I/O, 파일 시스템 등 6개 항목 15개 세부 항목에 대해 이벤트 설정이 가능합니다.

API 사용

API를 사용하려면 OAuth 인증 방식의 인증키를 발급 받아야 합니다. API 인증키는 포털의 마이페이지에서 발급받고 관리할 수 있습니다. API는 RESTful API 방식의 HTTP GET/POST 메소드 호출로 실행하며, API를 사용해 원하는 형태의 모니터링 관리 기능을 만들 수 있습니다.

Monitoring 감시 설정 항목

Monitoring 감시 설정 항목 표
모니터링 항목상세항목이벤트 발생 조건설정 항목비고
CPUUsed(%)CPU 사용량(%)의 1분 평균값이 임계치 이상으로 지정한 시간만큼 지속된다.1. 사용량 ▲▲ %
2. 이상
3. 지속 시간 OO분
CPU 사용량이 ▲▲% 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.- CPU 코어별 감시 설정이 아니라 전체 CPU 코어의 합산값을 대상으로 감지합니다.
iowait(%)CPU iowait(%) 1분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
CPU iowait가 ▲▲% 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
MemoryUsed(%)메모리 사용량(%)의 1분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
메모리 사용량이 ▲▲% 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
SwapUsed(%)Swap 사용량(%)의 1분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
Swap 사용량이 ▲▲% 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
Disk I/Oread bytes디스크의 초당 read byte 값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. ▲▲▲bytes/sec
2. 이상
3. 지속 시간 OO분
디스크의 초당 read byte 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
write bytes디스크의 초당 write byte 값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. ▲▲▲bytes/sec
2. 이상
3. 지속 시간 OO분
디스크의 초당 write byte 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
Networkbps inNIC의 초당 inbound byte 값이 임계치 이상으로 지정한 시간만큼 지속된다.1. 전송 속도 ▲▲▲bytes/sec
2. 이상
3. 지속 시간 OO분
해당 NIC의 초당 inbound byte 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.- 감시하려는 Network Interface의 이름을 명시해야 합니다(예: eth0, bond0 등)
bps outNIC의 초당 outbound byte 값이 임계치 이상으로 지정한 시간만큼 지속 될 때 발생한다.1. 전송 속도 ▲▲▲bytes/sec
2. 이상
3. 지속 시간 OO분
해당 NIC의 초당 outbound byte 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
pps inNIC의 초당 inbound packet 값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 전송 속도 ▲▲▲packets/sec
2. 이상
3. 지속 시간 OO분
해당 NIC의 초당 inbound packet값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
pps outNIC의 초당 outbound packet 값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 전송 속도 ▲▲▲packets/sec
2. 이상
3. 지속 시간 OO분
해당 NIC의 초당 outbound packet 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
파일 감시크기설정 시점부터 파일의 크기가 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 파일 크기 ▲▲▲KB
2. 이상
3. 지속 시간 OO분
4. 파일의 전체 경로
(예) /tmp/abc.ext
/tmp/abc.ext 파일의 크기가 ▲▲▲KB 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.- 감시하려는 파일에 nbpmon user가 접근할 수 있는 권한이 있어야 합니다.
변경설정 시점부터 지정한 시간 동안 매 분마다 파일이 수정될 때 발생한다.1. 지속 시간 OO분
2. 파일의 전체 경로
(예) /tmp/abc.ext
/tmp/abc.ext 파일이 OO분 동안 매 분마다 연속적으로 파일이 수정되면 이벤트를 발생시킨다. 예를 들어 0분으로 설정했다면 파일이 수정됐을 때 바로 이벤트를 발생시킨다. 2분으로 설정했다면 설정한 시점부터 1분 내에 파일이 수정되고 연속적으로 다음 1분 내에도 파일이 수정됐을 때 이벤트를 발생시킨다.
무변경설정 시점부터 지정한 시간 동안 파일이 수정되지 않을 때 발생한다.1. 지속 시간 OO분
2. 파일의 전체로
(예) /tmp/abc.ext
/tmp/abc.ext 파일이 OO분 동안 수정되지 않으면 이벤트를 발생시킨다.
파일 존재 여부파일의 존재하지 않을 때 발생한다.1. 파일의 전체 경로
(예) /tmp/abc.ext
/tmp/abc.ext 파일이 존재하지 않으면 이벤트를 발생시킨다.
파일 시스템Used(%)파일 시스템의 사용량(%)이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
4. 마운트된 디렉터리
(예) /home
마운트된 /home 디렉터리의 사용량(%)이 ▲▲% 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.- 네트워크로 마운트된 파일 시스템은 감시할 수 없습니다.
(예)NFS, fuse
Load Average로드 평균(1분)Load Average의 1분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. Load Average 1분 평균 ▲▲
2. 이상
3. 지속 시간 OO분
Load Average의 1분 평균값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.- Linux 서버에서만 감시 기능을 설정할 수 있습니다.
로드 평균(5분)Load Average의 5분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. Load Average 5분 평균 ▲▲
2. 이상
3. 지속 시간 OO분
Load Average의 5분 평균값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
로드 평균(15분)Load Average의 15분 평균값이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. Load Average 15분 평균 ▲▲
2. 이상
3. 지속 시간 OO분
Load Average의 15분 평균값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
로그 감시파일 로그설정 시점부터 감시하려는 파일에 지정한 시간 동안 매 분마다 문자열이 포함(또는 비포함)될 때 발생한다.1. 로그 매칭 문자열
(예) Exception
2. 포함/비포함
3. 지속 시간 OO분
4. 파일의 전체 경로
(예) /tmp/abc.log
/tmp/abc.log 파일에 OO분 동안 매 분마다 연속적으로 문자열 'Exception'이 포함(또는 비포함)되면 이벤트를 발생시킨다. 0분으로 설정했다면 매칭 문자열이 포함(또는 비포함)될 때 바로 이벤트를 발생시킨다. 2분으로 설정했으면 설정한 시점부터 1분 내에도 매칭 문자열이 포함(또는 비포함)됐고, 연속적으로 다음 1분 내에도 매칭 문자열이 포함(또는 비포함)됐을 때 이벤트를 발생시킨다.- 감시하려는 파일에 nbpmon user가 접근할 수 있는 권한이 필요합니다.
- 인코딩은 UTF-8을 사용합니다.
- 대소문자를 구별합니다.
- 정규 표현식을 사용할 수 있습니다.
프로세스프로세스 다운프로세스가 다운됐을 때 발생한다.1. 프로세스 매칭 문자열
(예) snmp
문자열 "snmp"가 있는 프로세스의 개수가 0이면 이벤트를 발생시킨다. (예) /home1/nbpmon/noms/nsight/bin/noms_nsight -start 프로세스와 /usr/sbin/snmp -start 프로세스가 있고 매칭 문자열을 "start"로 설정했다면, 프로세스 개수는 2개로 인식된다. 두 프로세스가 모두 다운되면 개수를 0으로 인지해 이벤트를 발생시킨다- 단일 프로세스를 감시하려면 프로세스 전체 이름으로 설정합니다.
(예) ps -ef로 추출되는 프로세스 이름에 전부 문자열 매칭
CPU(%)프로세스의 CPU 사용량(%)이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
4. 프로세스 매칭 문자열
(예) snmp
문자열 "snmp"가 있는 프로세스가 점유한 CPU 사용량(%)이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
(예)/home1/nbpmon/noms/nsight/bin/noms_nsight -start 프로세스와 /usr/sbin/snmp -start 프로세스가 있고 매칭 문자열을 "start"로 설정했다면, 프로세스 개수는 2개로 인식된다. 두 프로세스가 점유하고 있는 CPU의 사용량(%)을 모두 합산한 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
mem(%)프로세스의 메모리 사용량(%)이 임계치 이상으로 지정한 시간만큼 지속될 때 발생한다.1. 사용량 ▲▲%
2. 이상
3. 지속 시간 OO분
4. 프로세스 매칭 문자열
(예) snmp
문자열 "snmp"가 있는 프로세스가 점유한 메모리의 사용량(%)이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
(예)/home1/nbpmon/noms/nsight/bin/noms_nsight -start 프로세스와 /usr/sbin/snmp -start 프로세스가 있고 매칭 문자열을 "start"로 설정했다면, 프로세스 개수는 2개로 인식된다. 두 프로세스가 점유하고 있는 메모리의 사용량(%)을 모두 합산한 값이 ▲▲ 이상으로 OO분 이상 지속되면 이벤트를 발생시킨다.
Ping FailPing Fail모니터링이 연속적으로 3분 이상 작동하지 않고, Collector 서버가 해당 서버로 Ping을 송신했을 때 3초 간격으로 연속 10번 이상 실패할 때 발생한다.-모니터링이 연속적으로 3분 이상 작동하지 않고, Collector 서버가 해당 서버로 Ping을 송신했을 때 3초 간격으로 연속 10 번 이상 실패하면 이벤트를 발생시킨다.- Collector 서버가 해당 서버로 Ping 패킷을 송수신 할 수 있어야 합니다.
포트 다운포트 다운설정된 TCP 포트가 다운돼 Collector 서버가 전송하는 SYN 패킷에 대한 SYN+ACK 응답이 오지 않을 때 발생한다.1. TCP 포트 번호
(예) 8080
8080 TCP 포트가 다운돼 Collector 서버가 전송하는 SYN 패킷에 대한 SYN+ACK 응답이 오지 않으면 이벤트를 발생시킨다.- Collector 서버가 해당 서버의 설정된 포트로 ICMP 패킷을 송수신할 수 있어야 합니다.

요금 안내

상황에 따라 유연하게 사업을 운용할 수 있도록 실용적인 서비스 구성과 요금제를 제공합니다

모니터링 요금 표
구분이용 요금
기본 모니터링무료
상세 모니터링 (이벤트 및 통보 서비스 포함)무료