텍스트마이닝

📚 스터디/NLP

[텍스트마이닝] 2-2. 문서 유사도 - 스타벅스 네이버 문서 유사도 구하기

지난번에 배운 BoW, DTM, TF-IDF, 유클리디안 유사도, 코사인 유사도를 활용하여 직접 크롤링한 '스타벅스' 관련 기사 데이터셋으로 문서 유사도를 구하는 실습을 진행해 보았다. 자세한 코드들은 깃허브를 참고하길 바란다. 1. 데이터 확인 및 전처리 데이터를 df라는 변수에 저장하고 확인해 보았다. df.head() 제목 언론사 날짜 URL 네이버뉴스_URL 오늘(1/1) 코스트코 정상영업, 지점별 1월 휴무일·영업시간 '확인하세요' 핀포인트뉴스 2023.01.01. http://www.pinpointnews.co.kr/news/articleView... NaN 호랑이 가고 검은 토끼 온다…유통가 ‘토끼 마케팅’ 활발 인더뉴스 2023.01.01. https://www.inthenews.co.kr..

장영준
'텍스트마이닝' 태그의 글 목록