수집한 내용을 엑셀로 정리해 보자!
https://datazzang.tistory.com/2
[크롤링(Crawling) – 02] 최신 인터넷 신문 / 기사, 제목만 추출 (BeautifulSoup / parser)
필요한 정보만 쏙쏙 뽑아서 정리하자! 이전 requests를 통해, HTML 소스를 얻었습니다. 참고 : https://datazzang.tistory.com/1 [크롤링(Crawling) - 01] 데이터 요청 하기 (requests) 크롤링 기초 데이터를 분석..
datazzang.tistory.com
이전 설명드린 [크롤링(Crawling) – 02]에서는 '인터넷 기사'를 크롤링 하였습니다. 이번에는 추출된 값을 엑셀파일로 정리해 보겠습니다.
데이터 정리시 필요한 툴은 pandas입니다.
우선, 정보를 살펴보면
['추미애 현수막 찢은 한국당… "검찰 인사는 폭거, 본회의 불참"',
'김연철 “남북 철도·도로 연결 정밀조사 준비”',
'‘호르무즈 파병’ 신중 모드…다른 이슈 연계 가능성은?',
'‘추미애 방지’ 공약낸 한국당…‘인사 추천권은 장관 아닌 총장에게’',
'추미애 "인사의견 내라 지시…윤석열 총장이 거역"',
'방산주 급등락에 개미투자자만 또 눈물',
... 등등]
리스트에 들어있습니다. 위 리스트를 보기 쉽게 가로(row)/세로(column)로 정리해 보겠습니다.
필요한 코드는 DataFrame을 이용합니다.
#판다스 불러오기, pandas를 pd로 요약하기
import pandas as pd
#판다스의 데이터프레임에 리스트 저장하기
df = pd.DataFrame(data = main_news, columns = ["메인기사"])
#출력
df
위 그림을 보면 '열(columns)'에는 메인기사가 들어가 있으며, '행('row')은 숫자가 들어가 있습니다. 기존 list에 들어있는 데이터 파일보다 시인성이 좋아졌습니다.
그리고 Dataframe의 기능으로 'to_excel'을 이용하면, 정리된 데이터를 엑셀로 저장할 수 있습니다.
#엑셀파일로 저장하기
df.to_excel("main_news.xlsx")
'프로그래밍 > 크롤링' 카테고리의 다른 글
네이버 크롤링 하기(use naver API) (2) | 2023.02.02 |
---|---|
[크롤링(Crawling) – 02] 최신 인터넷 신문 / 기사, 제목만 추출 (BeautifulSoup / parser) (0) | 2020.08.11 |
[크롤링(Crawling) - 01] 데이터 요청 하기 (requests) (0) | 2020.08.10 |
댓글