티스토리 뷰
다음 뉴스에 이어서 이번에는 구글 알리미를 이용하여뉴스를 크롤링하겠습니다.
[결과파일]
03_구글뉴스.xlsx
0.41MB
자세한 내용은 유튜브 동영상과 위키독스 교재(https://wikidocs.net/163051)를 참고해주세요.
- Google 알리미 설정: 구글 알리미 페이지에서 키워드를 설정해 알림을 받도록 설정합니다. 예시는 '삼성전자' 키워드로 설명하며, 로그인 후 RSS 피드를 설정해야 엑셀에서 데이터를 수집할 수 있습니다.
- 엑셀 파워쿼리로 RSS 데이터 수집: XML 형식의 데이터를 파워쿼리로 불러와 변환 작업을 거쳐 엑셀로 가져옵니다. 각 단계에서 필요한 데이터를 선택하고 불필요한 열을 제거하며, HTML 태그나 엔티티를 제거해 데이터를 정리합니다.
- 다른 키워드 데이터 통합: '삼성전자'와 'LG전자' 데이터를 수집한 후, 이를 하나의 통합 쿼리로 합쳐서 관리합니다. 데이터 구조가 동일하기 때문에 '쿼리 추가' 기능을 사용해 데이터를 병합합니다.
- 피벗테이블로 단어 빈도 분석: 수집한 뉴스 데이터를 피벗테이블로 분석하여 제목과 요약에서 추출한 단어의 빈도를 계산합니다. 빈도별로 정렬하고, 슬라이서를 추가하여 '삼성전자'와 'LG전자'의 뉴스 키워드를 필터링할 수 있도록 설정합니다.
- 특수 기호 및 HTML 태그 처리: 데이터에서 불필요한 특수 기호와 HTML 태그를 제거하고, 텍스트를 공백 기준으로 분리하여 각 단어의 빈도를 계산합니다.
'엑셀 크롤링' 카테고리의 다른 글
쉬운 엑셀 크롤링 4번째 : 네이버 금융 주가 (0) | 2024.10.04 |
---|---|
쉬운 엑셀 크롤링 2번째 : 다음뉴스 (0) | 2024.10.04 |
쉬운 엑셀 크롤링 1번째 : 롯데시네마 영화랭킹 (0) | 2024.10.04 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 국가기술
- 파워쿼리
- 모의문제
- 다비
- 국가기술시험
- TreeMap
- 합격전략
- 예상문제
- 여러행카드
- 리본차트
- 무료인강
- 실기시험
- 국가기술자격
- 실기문제
- 상공회의소
- 자격증
- datastorydavi
- PowerBI
- pbix
- power bi
- 연습문제
- 트리맵
- 무료문제
- 경영정보시각화능력
- 파워BI
- 슬라이서
- 시각화
- 경정시
- 막대차트
- dax
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함