[플레이데이터 빅데이터 부트캠프]하드둡 설치(궁금한 점 및 용어 정리)

대략적인 흐름 살피기

완전분산 형식 : 최소 구성은 3대이고, 반장(name node)이면 죽으면 부반장(data1)이 관리해줘야 한다.

이부분은 설치 말미에, hdfs-site.xml 파일에서 secondary manager를 지정해 준다.

하드둡의 구성은 name node, data1 node, data2 node, data3 node 총 4대로 구성되어 있다.

그래서 우리는 하드둡 설치를 위하여, 버츄어박스를 다운 받은 뒤, 리눅스(우분투 windows 64bit)를 총 4개를 설치하였다.

네트워크 설정

하드둡의 포트번호는 9000번으로 넣는다.(보통 하드둡 포트번호는 9000번이다.)

가상 아이피 주소는 192번 대로 만들면 된다. (내가 ip 매니저이기 때문에, 192번 대로 임의로 만든다.)

DNS 주소는 KT가 배포하는 주소를 사용한다.(도메인 주소 시스템을 의미한다.)

나머지 부분

나머지 Data 노드들도 죽을 것을 대비하여서, 복제해 놓는다.

hadoop-env.sh 파일 수정 ->하드둡이 쓰는 언어가 자바인 것을 알려준다.

SSH 패키지 설치->인증된 애들만, 서로 안정적으로 데이터를 주고 받을 수 있도록 한다.

SSH 기반 보안 프로토콜을 통해 서로 데이터를 주고 받는다.

하드둡은 네임노드에서만 설치한다.

네임노드가 공개키와 나머지 부분 수정하여서, 다른 노드에 배포해준다.

그리고 동작 확인이 잘되는지 jps 명령어를 사용하여 확인해 본다.

용어 정리

게이트웨이 : 지금 컴퓨터에서 서버로 내보내는 주소

xml : 태그들을 누구든지 만들 수 있도록 만들었다.(프로그램 설정 파일에도 쓰인다.)

.template : 볼 수 있도록 양식을 보여준다.

yarn : 여러 컴퓨터들의 리소스들을 관리하기 위한 전용 모듈이다.(리소스 매니저이다.)

hdfs : 하나하나 나눠서 저장하는 법을 말한다.

MapReduce : 저장하고 갖고오는 병렬 프로그래밍을 말한다.

map->각 노드마다 병렬 처리 reduce->취합하는 과정

시각화도 할 수 있지만, 뒷단은 R이나 파이썬을 사용한다.