과정상세
[Live] 빅데이터 분산 병렬 처리 시스템 및 분석 입문

교재제공 초급
[Live] 빅데이터 분산 병렬 처리 시스템 및 분석 입문
과정요약
학습시간 | 34시간 | 난이도 | 초급 |
---|---|---|---|
교육비 지원 | 고용보험 비환급 | 평가항목 | 출석률 100% |
수료기준 | 총점 80점 이상시 수료 | 정원 | 24 명 |
교재정보 |
과정소개

본 과정은 빅데이터 이해부터 빅데이터 주요 처리 및 분석에 필요한 다양한 시스템 및 관련 기술들을 학습하는 과정입니다.
1. 빅데이타 주요 관련 시스템 및 관련 기술들의 이해를 통해 효율적인 빅데이터 분산 병렬 처리를 할 수 있는 과정
: 데이터 수집, 저장, 처리, 분석, 시각화에 필요한 시스템 및 기술들을 이해하고, 작동원리를 알 수 있습니다.
2. 빅데이터 분석 관점에서 배우는 과정
: 빅데이터를 분석 및 시각화할 수 있는 프로그래밍 언어들을 이해하고 기초를 탄탄하게 형성할 수 있습니다.
3. 빅데이터 응용 및 활용 대한 인사이트
: 빅데이터 처리 및 분석에 필요한 전체적인 기술 아키텍처를 알아보고 향후 빅데이타 응용 및 활용시 필요한 주요 고려사항들에 대해 인지할 수 있습니다.
※ 아래의 사전 지식 중 1개 이상을 충족한다면 본 과정을 매우 효과적으로 수강하실 수 있습니다.
. 데이터베이스에 대한 기본적인 지식이 있다.
. 리눅스 및 쉘명령어 사용이 가능하다.
. Python 혹은 R 사용 경험은 없으나, 타 프로그래밍 언어는 사용하고 있다.
. 빅데이터 관련 공부를 해본적이 있다.
※ 라이브과정 수강을 위한 학습자 환경 안내
1. 필요 학습자 PC 사양
- 운영체제 : Window 10 64비트
- RAM 16GB , HDD 여유공간 300 GB 이상
- MSOffice 2013 설치
2. 접속 사이트 (사무실에서 학습 시 아래 사이트 접속 가능한지 방화벽 확인 필요 必)
- 비대면 화상강의 tool : classnow.webex.com
- 학습자료 및 실습 파일 다운로드 : drive.google.com
- 파이썬/R 프로그램 설치(강의 시 접속하여 함께 설치 예정) : www.python.org / cran.r-project.org
학습목표
- 빅데이터 관련 기술 및 활용 분야를 정형 데이터를 다루는 데이터베이스와 비교하여 알 수 있다.
- 빅데이터 분산 병렬 처리를 위한 플랫폼을 구축 및 환경설정을 할 수 있다.
- 빅데이터의 수집, 저장, 처리, 분석, 시각화 등 그 처리 과정에서 필요한 핵심 기술들 대해 알 수 있다.
- 빅데이터의 각 처리 기술에 대해 하둡 에코시스템 내 도구들을 통해 알 수 있다.
학습대상
- 데이터 엔지니어로서(혹은 데이터 엔지니어가 되기 위해) 탄탄한 기초가 필요한 사람
- 빅데이터에 대해 알고는 있으나 빅데이터의 수집/저장/처리/분석/시각화 일련의 과정을 거쳐 서비스로 만들어지는 전체 프로세스에 대한 이해가 필요한 사람
- 빅데이터 주요 핵심 기술 아키텍처가 알고 싶은 사람
과정목차 34
-
1 일차
-
1. 빅데이터 이해
- 빅데이터 개념 이해
-
1. 빅데이터 이해
-
1. 빅데이터 이해
- 빅데이터 관련 수집, 저장, 처리, 분석, 시각화 기술 이해
-
하둡 아키텍처
하둡의 HDFS 저장구조 및 Mapreduce 동작 원리
- 완전분산 모드형 하둡 설치
- 하둡 설정 파일 구성 및 클러스터링 구축
- 하둡의 HDFS 명령어
- 하둡의 Mapreduce
-
5. 가상화
- 홀튼웍을 이용한 가상 분산 환경 구성
- Flume 설치 및 응용
- MySQL 설치 및 SQL
- Sqoop 설치 및 응용
- mysql과 하둡간의 데이터 import/export
- 온라인 신문 기사 Crawling
- 네이버 영화 후기 내용 Crawling
-
9. Pig
- Pig 설치
- Pig 기초 문법
- pig를 이용한 데이터 필터링
- pig를 이용한 데이터 그룹핑 및 조인
- Hive 설치
- Hive 기초 문법
- Hive를 이용한 데이터 추출 및 검색
-
11. R
- R과 Rstudio 설치 및 사용법
- R 프로그래밍 자료구조
- R을 이용한 데이터 조작
- R 라이브러리 활용
- R 기반 교통사고 데이터 분석 및 시각화
- R 기반 도서관 데이터 분석 및 시각화
- R 기반 네트워크 트래픽 데이터 분석 및 시각화
-
12. Python
- Python 설치 및 사용법
- Python 프로그래밍 자료구조
- Python을 이용한 데이터 조작
- Python 라이브러리 활용
- Python 기반 워드클라우드
- Python 기반 주유소 가격 정보 분석 및 시각화
수강후기 3
-
3정*선
2022.06.24
실습위주의 수업이라는 점을 유의히고 수강신청 요망. -
4이*진
2022.06.24
좋은 강의 잘 들었습니다. -
5이*하
2021.12.24
빅데이터 전반적인 유익한 교육이었습니다