챗GPT+파이썬 : 네이버 뉴스 크롤링하기
본문 바로가기
파이썬(Python)/챗GPT+파이썬

챗GPT+파이썬 : 네이버 뉴스 크롤링하기

by 뚱구리 2024. 3. 14.

오늘은 네이버 뉴스 헤드라인에 있는
제목을 수집하는 걸 따라 해보기로 했다.
 
https://youtu.be/zLAeXWexWoM?feature=shared

 

🌈 전체 코드


상황 설명은 ㅋㅋㅋ
생략하기로 하고

이렇게 네이버 - 뉴스 - 경제에 있는
제목들을 가져와 보겠음

우선 챗GPT와 대화 ㄱㄱ

나는 ㅋㅋㅋㅋ Requests를 추천
왼손 코딩은 지난 포스팅처럼 뷰티풀숲을 추천해 줬다.

강좌대로 따라 보기로 함ㅋㅋㅋㅋ

가져올 사이트 주소와
F12를 활용해서 헤드라인 부분 class 값을 찾아서 전달함ㅋ

import requests  # 웹 페이지 요청을 위한 라이브러리
from bs4 import BeautifulSoup  # HTML 파싱을 위한 라이브러리

def get_headline_news(url, target_class):
    # HTTP GET 요청을 보내서 웹 페이지 가져오기
    response = requests.get(url)

    # 응답 받은 데이터를 파싱하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # 헤드라인 뉴스 제목을 담을 리스트 초기화
    headlines = []

    # 웹 페이지에서 해당 클래스를 가진 모든 요소를 찾기
    headline_elements = soup.find_all(class_=target_class)

    # 헤드라인 뉴스 제목이 포함된 HTML 요소가 없는 경우를 대비하여 처리
    if headline_elements:
        # 각 요소에서 텍스트 추출하여 리스트에 추가하기
        for element in headline_elements:
            headlines.append(element.get_text())

    return headlines

# 검색할 웹 사이트 URL
url = "https://news.naver.com/section/101"
# 검색할 클래스
target_class = "sa_text_strong"

# 헤드라인 뉴스 제목 가져오기
headlines = get_headline_news(url, target_class)

# 가져온 헤드라인 뉴스 제목 출력하기
if headlines:
    print("헤드라인 뉴스 제목:")
    for idx, headline in enumerate(headlines, 1):
        print(f"{idx}. {headline}")
else:
    print("헤드라인 뉴스 제목을 가져올 수 없습니다.")

진짜 ㅋㅋㅋㅋㅋㅋㅋ 주석에 설명 너무 친절하다 ㅋㅋㅋㅋㅋㅋㅋ
깃허브 전체 코드를 들어가 보면
헤드라인 제목 말고도고 내용도 같이 수집해본 코드가 같이 있음.
챗GPT에게 질문만 잘 던지면 ㅋㅋㅋㅋ 알아서 척척척
쌍따봉!!!!

728x90