티스토리 뷰

다음 뉴스에 이어서 이번에는 구글 알리미를 이용하여뉴스를 크롤링하겠습니다.

 

[결과파일]

03_구글뉴스.xlsx
0.41MB

 

https://youtu.be/lNTP9bxiyMM

 

 

자세한 내용은 유튜브 동영상과 위키독스 교재(https://wikidocs.net/163051)를 참고해주세요.

  • Google 알리미 설정: 구글 알리미 페이지에서 키워드를 설정해 알림을 받도록 설정합니다. 예시는 '삼성전자' 키워드로 설명하며, 로그인 후 RSS 피드를 설정해야 엑셀에서 데이터를 수집할 수 있습니다.
  • 엑셀 파워쿼리로 RSS 데이터 수집: XML 형식의 데이터를 파워쿼리로 불러와 변환 작업을 거쳐 엑셀로 가져옵니다. 각 단계에서 필요한 데이터를 선택하고 불필요한 열을 제거하며, HTML 태그나 엔티티를 제거해 데이터를 정리합니다.
  • 다른 키워드 데이터 통합: '삼성전자'와 'LG전자' 데이터를 수집한 후, 이를 하나의 통합 쿼리로 합쳐서 관리합니다. 데이터 구조가 동일하기 때문에 '쿼리 추가' 기능을 사용해 데이터를 병합합니다.
  • 피벗테이블로 단어 빈도 분석: 수집한 뉴스 데이터를 피벗테이블로 분석하여 제목과 요약에서 추출한 단어의 빈도를 계산합니다. 빈도별로 정렬하고, 슬라이서를 추가하여 '삼성전자'와 'LG전자'의 뉴스 키워드를 필터링할 수 있도록 설정합니다.
  • 특수 기호 및 HTML 태그 처리: 데이터에서 불필요한 특수 기호와 HTML 태그를 제거하고, 텍스트를 공백 기준으로 분리하여 각 단어의 빈도를 계산합니다.