과정상세
[Shift+AI] 실습으로 배우는 파이썬 텍스트 분석 with ChatGPT

교재제공 중급
[Shift+AI] 실습으로 배우는 파이썬 텍스트 분석 with ChatGPT
카테고리
- 학습유형별 대면
- AI 머신러닝/딥러닝
- AI 자연어처리
- 데이터 사이언스 데이터 분석
과정요약
학습시간 | 09:30 ~ 17:30 ( 14시간 ) | 난이도 | 중급 |
---|---|---|---|
교육비 지원 | 고용보험 비환급 | 평가항목 | 출석률 100% |
수료기준 | 총점 80점 이상시 수료 | 정원 | 32 명 |
교재정보 | |||
강사명 | 박조은 |
과정소개
또한 효율도 엄청 좋아 텍스트 분석에 대한 관심이 높아지고 있습니다.
하지만 작은 텍스트라도 내 텍스트를 다뤄보려고 하면 어디에서부터 시작해야 할지 막막합니다.
거대 언어 모델도 텍스트를 나누고 전처리하는 과정에서 시작되었는데요,
그렇다면 나의 업무에서 자주 맞딱드리게 되는 각종 보고서, 레포트 등 어떻게 활용할 수 있을까요?
업무에서 사용하는 텍스트, 논문 등을 불러와서 정제하고 전처리하는 과정을 통해
키워드를 추출하고 인사이트를 얻어 의사결정에 활용할 수 있는 방안을 배워볼 수 있는 과정입니다.
뉴스기사분류, 국민청원데이터분류, 120다산콜센터데이터 등 다양한 주제의 데이터로 실습이 진행되며
연구, 마케팅, 금융, 의료, 교육 등 다양한 분야에 적용할 수 있습니다.
(실습 주제는 일부 상이할 수 있음)
1. 데이터 전처리: 정규표현식, 불용어, 형태소 분석기에 대한 필요성을 이해하고 사용법을 익혀 텍스트를 정제하고 구조화하여 분석에 적합한 형태로 가공하는 방법을 학습합니다.
2. 유사도 분석: 텍스트 간의 유사도를 측정하여 관련성을 평가하고 비교하여 관련 문서 찾기, 표절 문서 찾기, 추천시스템 등에 활용할 수 있습니다.
3. 토픽 모델링: 텍스트 데이터에서 의미 있는 주제를 추출하여 토픽별 키워드를 추출하고 시각화하여 분석합니다.
4. 군집화: 유사한 특성을 가진 텍스트를 그룹화하여 패턴을 찾고 분류합니다.
5. 시각화: 텍스트 분석 결과를 시각적으로 표현하여 이해하기 쉽게 시각화합니다.
6. 결과 해석: 텍스트 분석 결과를 해석하여 인사이트를 도출하고 활용 가능한 정보를 추출합니다.
7. 응용 및 실무 적용 : 다양한 도메인의 텍스트가 사용되는 곳에 활용할 수 있습니다.
"모두의 한국어 텍스트 분석"을 직접 집필한 전문가의 강의를 생생하게 만나보세요!
박조은 강사
- 모두의 한국어 텍스트 분석 with 파이썬 저자
- 오늘코드 유튜브 채널 운영자
- Microsoft MVP (Python Developer Technologies)
- 네이버 커넥트 부스트코스 데이터사이언스 부분 교수자 및 코칭스터디 라이브코치
- 인프런, 패스트캠퍼스, 멋쟁이사자처럼, 서울대 빅데이터 혁신공유대학, 연세대, 한신대, 기상청, 통계청, 서울디지털재단 등 강의 및 콘텐츠 제작
- SK Telecom, 삼성전기, 현대자동차 남양연구소 등 기업강의
학습목표
- 텍스트 데이터 벡터화와 단어가방 TF-IDF를 이해한다.
- 워드클라우드로 시각화를 하고 정규표현식, 불용어, 형태소 분을 사용하여 텍스트를 정제할 수 있다.
- 유사도 분석을 통한 유사 텍스트 추출, 표절 판단, 추천시스템의 응용등에 활용할 수 있다.
- 토픽모델링 방법을 이해하고 사이킷런을 사용하여 LDA, NMF로 토픽별 키워드 추출과 시각화를 할 수 있다.
- 군집화를 통해 유사한 범주의 텍스트끼리 분류할 수 있습니다.
학습대상
- 다량의 텍스트 데이터를 주로 다루는 직군으로 대량의 텍스트에서 키워드 추출, 토픽모델링, 군집화 등의 기법을 사용하여 인사이트를 얻고자 하는 분
- 마케팅, 홍보 담당자 : 소셜 미디어 및 고객 리뷰 분석, 언론기사 분석 및 경쟁사 기사 분석
- 인사 담당자 : 텍스트 분석을 활용하여 이력서, 지원서 등을 분석
- 비즈니스 애널리스트 : 기업 재무 보고서, 금융 뉴스 등의 텍스트 분석
- 연구원 : 논문이나 저널의 텍스트 분석 및 키워드 추출
-
-
1일차
-
파이썬 텍스트 분석 개요
- 텍스트 전처리와 정규화
텍스트 벡터화와 임베딩의 차이
감성 분석, 문서 분류, 토픽 모델링, 텍스트 요약, 문서 유사도 측정, 텍스트 군집화
텍스트 생성, 개체명 인식, 이메일 주소 추출, 날짜 추출 등에 대한 태스크 이해
텍스트 처리 도구 이해
09:30 ~ 10:30
- 텍스트 전처리와 정규화
-
워드클라우드 시각화
- 워드클라우드
텍스트 전처리
텍스트 빈도 시각화 10:30 ~ 11:30
- 워드클라우드
-
텍스트 전처리와 형태소 분석 이해
- 정규표현식 이해
특수문자나 중복되는 문자 제거
형태소 분석기와 품사 이해 11:30 ~ 12:30
- 정규표현식 이해
-
문서 단어 행렬 (Document-Term Matrix, DTM)
만들기
- 단어 가방(Bag of words)
문서 단어 행렬
n-gram
단어 빈도 분석 13:30 ~ 14:30
- 단어 가방(Bag of words)
-
문서 단어 행렬 (Document-Term Matrix, DTM) 만들기
- TF-IDF 가중치 적용 14:30 ~ 15:30
-
단어 유사도 구하기
- 코사인 유사도, 유클리드 거리 기반 유사도, 자카드 유사도의 차이 이해
유사도 측정 알고리즘과 추천 방법 소개 15:30 ~ 16:30
- 코사인 유사도, 유클리드 거리 기반 유사도, 자카드 유사도의 차이 이해
-
단어 유사도 구하기
- 유사도를 측정하는 함수를 만들어서 텍스트를 변경했을 때 유사한 문서를 반환하는 함수 만들기
유사도와 추천시스템 이해하기 16:30 ~ 17:30
- 유사도를 측정하는 함수를 만들어서 텍스트를 변경했을 때 유사한 문서를 반환하는 함수 만들기
-
파이썬 텍스트 분석 개요
-
2일차
-
토픽모델링과 군집화
- 토픽 모델링의 개념과 활용 방법 소개
토픽모델링 방법인 LDA, NMF 소개와 각 방법의 차이 이해
군집화의 개요와 토픽모델링과의 차이 이해 09:30 ~ 10:30
- 토픽 모델링의 개념과 활용 방법 소개
-
토픽모델링 LDA
- LDA (Latent Dirichlet Allocation) 모델의 개념과 동작 원리 설명
단어벡터를 활용하여 LDA 토픽모델링하기 10:30 ~ 11:30
- LDA (Latent Dirichlet Allocation) 모델의 개념과 동작 원리 설명
-
토픽모델링 NMF
- NMF (Non-Negative Matrix Factorization) 모델의 개념과 동작 원리 설명
단어벡터를 활용하여 NMF 토픽모델링하기 11:30 ~ 12:30
- NMF (Non-Negative Matrix Factorization) 모델의 개념과 동작 원리 설명
-
이벤트 댓글을 통한 군집화와 키워드 분석
- 이벤트 댓글을 통한 군집화의 필요성과 목적
군집화 방법 중 K-means 알고리즘의 개념과 동작 원리
엘보우 방법을 사용하여 최적의 클러스터 개수를 결정하는 방법
실루엣 분석을 활용하여 군집화의 품질을 평가하는 방법 13:30 ~ 14:30
- 이벤트 댓글을 통한 군집화의 필요성과 목적
-
이벤트 댓글을 통한 군집화와 키워드 분석
- K-means 알고리즘의 이론과 동작 원리
군집화를 통한 키워드 분석의 활용 방안 및 현업 적용 사례 소개 14:30 ~ 15:30
- K-means 알고리즘의 이론과 동작 원리
-
트랜스포머와 GPT
- 트랜스포머 모델의 필요성과 장점 소개 15:30 ~ 16:30
-
허깅페이스와 NLP
- 텍스트 분류, 감정 분석, 기계 번역, 질의응답, 요약 16:30 ~ 17:30
-
토픽모델링과 군집화
-
1일차
수강후기 35
-
5배*윤
2024.12.17
회사에서 보고서 쓸 때 요긴하게 쓸 방법들을 배웠다. 문과생들도 활용할 수 있는 챗GPT 코드 작성법도 유용할 것 같다. -
3.75윤*정
2024.12.17
무난했습니다만.. 강사님의 반복되는 빅데이터분석 기사 기출 얘기는 좀 당황스러웠습니다. 자격증 준비하려고 강의 신청한게 아니라.. -
5김*영
2024.12.17
실무에 필요한 팁을 알려줘서 좋았습니다. -
2.25박*연
2024.12.17
본래 가르치던 강사가 아니고 다른 분이 들어와서 교육기간이 3일이었으면 좋았을듯 싶음 -
5서*호
2024.12.17
상세한 설명 및 평소 접하기 힘든 정보에 대한 제공 감사드립니다 :)