[Python] Google News Scrawling - GoogleNews
2023. 3. 26. 14:14ㆍIT
Google News를 크롤링하고자 했다. 이유는 RPA - Robotic Process Automation을 이용해서 구글 영문 뉴스를 크롤링하기 위해서다.
이유는?
키워드를 통해서 구글 뉴스를 검색하고 다시 ChatGPT를 이용해서 요약을 하고, 지메일을 통해서 지인들에게 데일리로 보내주기 위한 RPA를 위함이다. 그런데 Crawling으로 검색을 해서 레퍼런스를 살펴보니 마땅한 것이 없었다. 유튜브에서는 생각보다 마땅한걸 찾진 못했고 구글링을 조금 해 보니 RSS를 파싱하면 좀더 나은 결과가 나오겠다는 생각이 들었다. 구글에서 RSS 서비스 중이었고 RSS를 파싱하면 더 나은 결과가 나올 것은 뻔했다.
그런데 더 나은 솔루션을 찾았다. GoogleNews가 바로 그것이었다. 아주 간단하게 사용할 수 있다.
다음을 보면 이해가 아주 쉬울 듯
from GoogleNews import GoogleNews #pip install GoogleNews
googlenews = GoogleNews()
# print(googlenews.getVersion())
googlenews.enableException(True)
# 언어와 지역을 설정할 수도 있다.
googlenews = GoogleNews(lang='en')
# googlenews = GoogleNews(lang='en', region='US')
# 뉴스를 가지고올 기간
# 데일리로 공유할 것이니까, 날짜별로 기간을 줄 수도 있음
googlenews = GoogleNews(period='1d')
# googlenews = GoogleNews(start='02/01/2020',end='02/28/2020')
# googlenews = GoogleNews(encode='utf-8')
# 검색하고자 하는 주제입력
googlenews.search('RPA solution')
# 날짜별로 소팅
googlenews.results(sort=True)
texts = googlenews.get_texts()
links = googlenews.get_links()
# 뉴스 제목 / 링크 리스트 - 날짜별로 소팅이 되어 있음
print(texts)
print(links)
# 뉴스 개수를 가져올 수 있다.
print(len(texts))
소스 코드를 실행시켜보면 다음과 같이 잘 크롤링 되는 것을 볼 수 있다.
['CLPS Incorporation Releases Preliminary Research Results on Intelligent Automation, Combining RPA and AI', 'The Missing Link delivers RPA and AI for Mackay Goodwin', 'The Missing Link deploys RPA for Mackay Goodwin', 'Robotic Process Automation (RPA) Solution Market: IBM, Appian, Blue Prism', 'Finesse implements Automation Anywhere’s RPA bot at Nesto to accelerate weekly promotions', '5 "Best" RPA Certifications (March 2023)', 'Robotic Process Automation Market is anticipated to progress at a CAGR of 38.2% from 2023 to 2030, According To Contrive Datum Insights', 'How robotic process automation can revolutionize business', 'What Is Blue Prism: Architecture, Components and More', 'Top 45 RPA Interview Questions and Answers for 2023']
['https://finance.yahoo.com/news/clps-incorporation-releases-preliminary-research-123000898.html', 'https://www.crn.com.au/news/the-missing-link-delivers-rpa-and-ai-for-mackay-goodwin-591736', 'https://www.arnnet.com.au/article/706099/missing-link-deploys-rpa-mackay-goodwin/', 'https://www.openpr.com/news/2962706/robotic-process-automation-rpa-solution-market-ibm-appian', 'https://www.intelligentcio.com/me/2023/03/06/finesse-implements-automation-anywheres-rpa-bot-at-nesto-to-accelerate-weekly-promotions/', 'https://www.unite.ai/top-5-rpa-certifications/', 'https://finance.yahoo.com/news/robotic-process-automation-market-anticipated-062800986.html', 'https://www.techradar.com/opinion/how-robotic-process-automation-can-revolutionize-business', 'https://www.simplilearn.com/tutorials/rpa-tutorial/what-is-blue-prism', 'https://www.simplilearn.com/tutorials/rpa-tutorial/rpa-interview-questions']
10
Process finished with exit code 0
반응형
'IT' 카테고리의 다른 글
[Python] ChatGPT (0) | 2023.03.26 |
---|---|
[Python] eMail 보내기 (0) | 2023.03.26 |
AI로 이미지 생성하기 - sporky.ai (1) | 2023.03.25 |
[Python] 문자열 추출하기 (0) | 2023.03.18 |
[Python] PDF에서 정보 추출하기 (RPA) (1) | 2023.03.18 |