NAVER CLOUD PLATFORM

Platform 2.0 전용

TensorFlow Cluster Update

CLI를 사용하여 TensorFlow 분산병렬 처리 환경을 클라우드에서 간편하고 쉽게 구성합니다.

TensorFlow Cluster 구성을 쉽고 간편하게 구성

대용량 TensorFlow 배치 실행은 많은 연산량 때문에 많은 HW리소스와 긴 프로세싱 타임이 소요됩니다. 이제 CLI기반으로 TensorFlow 분산병렬 처리 환경을 클라우드에서 간편하고 쉽게 구성해보세요.

CLI 기반의 간편한 클러스터 구성
마스터 서버(클러스터 관리용도의 작은 VM서버)를 생성 후 CLI 명령어로 TensorFlow등의 라이브러리가 설치된 서버노드를 자동으로 구성하고, 워커 서버, 파라미터 서버 노드들을 자유롭게 추가/삭제 할 수 있습니다.
TensorFlow 코드와 학습 데이터의 배포와 실행
기본으로 제공되는 CLI 명령어로 NAS 볼륨을 생성/삭제 등 관리하고 서버 노드들간의 TensorFlow 학습코드와 데이터를 동시에 쉽게 마운트하여 공유함으로써 배포와 실행을 쉽게 처리 할 수 있습니다.
TensorFlow 코드 수정의 최소화
자동으로 구성된 클러스터 정보를 사용자 코드에서 입력 받을 수 있어 TensorFlow 코드의 수정은 최소화 됩니다.
인텔 MKL(Math Kernel Library) 적용
Intel Xeon 프로세서에서 딥 러닝, 머신 러닝 성능 향상을 위해 Intel의 MKL(Math Kernel Library)을 적용한 Tensorflow 버전을 적용하여, 여러 딥 러닝, 머신 러닝 워크로드에서 200% 이상 향상된 성능을 제공합니다.

상세기능

TensorFlow Cluster를 쉽게 구성하기 위한 다양한 CLI 명령어를 제공합니다.

서버 노드의 다양한 오퍼레이션 기능 제공

웹 콘솔에 접근하지 않고 마스터 서버에서 CLI 명령으로 클러스터에 서버 노드를 바로 생성하거나, 전체 서버노드를 모두 정지, 재시작 혹은 개별로 정지하거나 재시작이 가능합니다. 또한 서버노드의 부분삭제, 부분증설, 반납을 쉽게 진행 할 수 있습니다.

공용 스토리지를 활용한 손쉬운 배포 기능 제공

웹 콘솔에 접근하지 않고 마스터 서버에서 CLI 명령으로 NAS 스토리지를 생성 및 증설합니다. 1회 명령으로 모든 노드에서 동시에 마운트, 언마운트가 가능하여 사용자의 코드와 학습데이터를 안전하게 보호하고 클러스터의 의존성을 줄였으며 동시에 코드, 데이터 등의 배포 및 공유 문제를 해결 합니다. 기본 생성시 500GB를 제공하고 추가로 증설할 수 있으므로 TB급의 학습 데이터도 처리가 가능합니다.

클러스터 Job 제출(Submit) 기능

클러스터 정보를 클라우드에서 파라미터로 넘겨주거나 Job Submit시에 환경변수로 사용할 수 있게끔 서버노드에 자동 구성합니다. 따라서 사용자는 기존 싱글 머신에서 돌리던 코드에 최소한의 수정으로 TensorFlow Cluster 환경을 사용할 수 있습니다. 또한 작업서버들의 작업이 모두 종료된 뒤에는 파라미터 서버 응답을 자동으로 정지시켜 주는 기능을 포함하고 있기때문에 재작업시 별도의 클린징(PROCESS KILL) 작업이 불필요 합니다.

클러스터 Job 로그 조회 기능

클러스터에서 수행되는 Job들은 백그라운드로 실행되며, 로그들은 마스터 서버에 Redirection되어 통합됩니다. CLI 모니터 명령어로 서버 노드들의 로그들을 실시간 조회가 가능하며 CLI 히스토리 명령으로 그동안 수행했던 작업 리스트를 조회할 수 있습니다.

다양한 스펙의 서버 노드를 제공

아래 5가지의 서버 스펙이 기본으로 제공되며 선택 가능합니다. (GPU 서버타입은 향후 지원 예정)

  • MINI (vCpu 4개, Mem 16GB, HDD 50GB) – 클러스터 테스트 용도나 적은 워크로드 처리에 적합한 서버 유형입니다.
  • BASIC (vCpu 8개, Mem 32GB, HDD 50GB) – 중간 규모의 워크로드 처리에 적합한 서버 유형입니다.
  • HIGH (vCpu 16개, Mem 32GB, HDD 50GB) – 큰 규모의 워크로드 처리에 적합한 서버 유형입니다.
  • GPU1 (GPU 1개, GPU Mem 24GB, vCpu 4개, Mem 30GB, SSD 50GB) – 단일 GPU를 클러스터 노드수 만큼 확장하여 사용합니다.
  • GPU2 (GPU 2개, GPU Mem 48GB, vCpu 8개, Mem 60GB, SSD 50GB) – 듀얼 GPU를 클러스터 노드수 만큼 확장하여 매우 큰 워크로드 처리가 가능합니다.
    (단 노드들은 동일한 스펙타입으로 구성되며, 모든 노드가 워커 서버노드로 인식되고, 파라미터 서버노드의 개수는 지정이 가능합니다)

요금 안내

TensorFlow Cluster는 Cluster를 구성하는 Server의 사용요금 외 별도의 추가 비용이 발생하지 않습니다.
(단 클러스터 Job 제출을 하지 않는 경우 과도한 과금을 막기위해 서버 노드들을 정지하여 주십시오)

운영체제제공 버전이용 요금(월)
Ubuntu 16.04
(추후 GPU 서버노드 추가 예정)
❖ 단 신속한 서버 생성을 위해 마스터노드에는 TensorFlow가 설치되어 있지않아 필요한 경우 사용자 설치가 필요 – 매뉴얼 참조
Tensorflow 1.3 (Stable Latest)
(TensorFlow 버전업 속도에 따라 배포되는 패키지의 버전은 유동적일 수 있습니다.)
❖ 클러스터 테스트 용도나 적은 워크로드 처리를 위한 권장 스펙: vCpu 4, Mem 16G인 경우 서버 노드당 월 205,000원

현재 보고 계신 페이지 내용이 도움이 되셨나요?

아쉬운 점이 있다면 이야기해 주세요.
0/5000
내용을 입력해 주세요
의견 보내기