[텍스트마이닝] 1. 텍스트 분석

📚 스터디/NLP

[텍스트마이닝] 1. 텍스트 분석

장영준 2023. 6. 17. 09:55

이번에 NLP 중 텍스트마이닝에 관한 자료들을 가지고 스터디를 해보게 되었다.

첫 주차에는 간단하게 텍스트 분석에 관해 알아보고, 코드를 작성해보았다.

자세한 코드들은 깃허브 참고하길 바란다.

1. 텍스트마이닝, 텍스트 분석, 자연어 처리의 차이

시작하기에 앞서 위 세 용어들의 차이를 알아보고 시작하자.

텍스트마이닝: 텍스트 데이터를 활용한 모든 작업
텍스트 분석: 좁은 의미의 텍스트(문서)의 특성 파악하는 것
자연어 처리: 텍스트마이닝을 위한 텍스트 처리 작업

2. 텍스트 분석의 종류

텍스트 분석의 종류는 다음과 같다:

텍스트 선별: 원하는 정보를 가진 텍스트만 추출
텍스트 정보 추출: 한 텍스트 내에서 원하는 정보를 추출
텍스트 주제 찾기: 빈도 분석, 토픽 모델링 등을 활용
텍스트 분류: Logistic Regression, Deep Learning... 등에 사용
텍스트 논조 및 관점: 감성분석, 의미 연결망(Semantic Network) 분석
텍스트 특성 파악: Word Embedding

3. 텍스트 분석 과정

텍스트 분석 과정은 수집 -> 전처리 -> 분석 -> 평가 순으로 이루어진다.

수집: 크롤링, 스크래핑 등을 통한 데이터 수집
전처리
- Cleaning: 불필요한 기호 제거
- Case Conversion: 대소문자 변환
- Lemmatizing, Stemming: 단어의 원형 또는 어간 찾기
  - has -> have / watched -> watch / flies -> fly
  - 예쁜 -> 예쁘다
- Text Tokenizing: 단어 또는 토큰 단위로 잘라주기
- Tagging: 단어 품사 태그하기
- Removing Stopwords: 불용어(Stopword) 제거하기
분석
평가

4. 실습 코드

1. 텍스트 전처리

위 개념들로, 텍스트를 전처리하고 워드클라우드를 생성해보았다.

데이터로는 it 매거진인 요즘 IT라는 매거진의 데이터를 크롤링하여 사용했다.

path = '/content/drive/MyDrive/text-mining/요즘IT_2023.04.27.csv'
df = pd.read_csv(path); df

코드를 출력하면, 위 이미지와 같이 출력되었다.

# 결측값 개수 확인
df.isnull().sum()
# 결측 데이터 확인
df[df['분류'].isnull()]
# 결측치 제거
df.dropna(inplace = True)
df.reset_index(inplace= True, drop = True)

이후 위 코드를 실행하여 데이터의 결측값을 확인하고, 해당 결측치들을 모두 제거했다.

# Text Cleaning
content_list = []

for k in range(len(df['본문'])):
    content = df['본문'][k]
    cleaned_content = re.sub(r'[^\s\w]', ' ', content) # cleaning
    content_list.append(cleaned_content)
    
# Cleaning 결과 저장하기
df['본문_전처리'] = content_list; df

이후, 본문 텍스트를 모두 re (정규표현식)으로 전처리한 후, df에 따로 셀을 만들어 저장했다.

위와 같은 예시 output이 나왔다.

2. 텍스트 토큰화

# Okt 활용하기
text = df['본문_전처리'][0]

word_list = okt.morphs(text) # morphs는 품사 없이 모든 토큰들의 결과를 보여줍니다.
stem_word_list = okt.morphs(text, stem = True) # stem을 True로 하면 단어의 원형으로 변형한 결과를 보여줍니다.

print(word_list, stem_word_list, sep = '\n')

이후, 위와 같이 Okt를 활용하여 품사가 없이 구분된 단어들과, 단어의 원형으로 바뀌어 구분된 단어들의 결과를 추출했다. 결과는 다음과 같았다.

word_list = okt.pos(text, stem = True)
pos_list = ['Noun', 'Verb', 'Adjective']

[word for word in word_list if word[1] in pos_list]

다음은 list comprehension 기법으로 pos_list 내에 존재하는 품사들만으로 필터링해보았다.

이후, 전처리했던 본문들에 대해 스테밍 작업 후 품사를 태깅하고, 품사 필터를 적용하여 noun과 alpha 품사만 골라내보았다.

해당 단어들을 word_list 라는 하나의 리스트로 저장했다.

# 품사로 필터링하여 워드 반환
def pos_filtering(word_list):
    pos_list = ['Noun', 'Alpha']
    pos_filtered_word_list = [word[0] for word in word_list if word[1] in pos_list]

    return pos_filtered_word_list
     
# 스테밍 + 품사 태그하기
df['본문_POS'] = df['본문_전처리'].map(lambda x: okt.pos(x, stem= True))

# 품사 필터 적용하기
df['본문_단어'] = df['본문_POS'].map(pos_filtering)

# 워드 리스트 병합하기
word_list = sum(df['본문_단어'], [])

최종적으로, 총 1261028개의 단어가 있었다.

3. 빈도분석

마지막으로는 단어의 빈도를 분석하기 위해 CounterVectorizer 라이브러리를 사용했다.

# 빈도분석 
c = Counter(word_list) 
num = 100 

# 상위 100개 단어만 출력 
print(c.most_common(num))

결과는 다음과 같았다.

너무 많이 등장하는 무의미한 단어들을 불용어로 설정하고, 다시 빈도분석을 하여 해당 워드들로 워드클라우드를 생성했다.

# 불용어 
stopwords = ['수', '것', '이', '때', '등', '더', '를', '그', '위', '경우', '통해', '위해', '일', '다른', '가지', '대한', '의', '대해', '중', '내', '때문']

# 불용어 제거 후 빈도분석 
word_list = [word for word in word_list if word[0] not in stopwords] 
print(c.most_common(num))

!pip install wordcloud
from wordcloud import WordCloud 
word_dict = dict(c.most_common(100)) # 딕셔너리 형태로 변환

# 워드클라우드 설정하기
wc = WordCloud(font_path = 'NanumGothic.ttf',
               background_color= 'white',
               width = 3000, height = 2000,
               min_font_size = 10)

cloud = wc.generate_from_frequencies(word_dict) # 딕셔너리 형태로 저장되어 있어야 함

최종적인 결과는 다음과 같았다.

이렇게, 텍스트마이닝의 전반적인 개념에 관해 알아보고, '요즘 IT'라는 매거진에서 크롤링한 데이터로 텍스트 전처리, 토큰화, 빈도분석하여 워드클라우드까지 만들어 보았다.