728x90

해당 페이지에서 답변글이 아닌 질문들만 크롤링

자바스크립트를 껐을때 데이터가 안나오는 것을 보니 동적으로 작동하는 것을 확인
셀레니움으로 할 수 있지만 네트워크에서 데이터를 가로채오겠습니다

요청 방식을 확인해 보니 POST 요청 이네요

데이터 페이로드를 같이 보낼게요
아마 예상으로는 pageNo가 현재 페이지를 나타내는 거 같아요
예상이 맞다면 추후에 많은 페이지를 크롤링할 때 편하겠네요

아이고 더러워라,,,

바로 Json 형태로 바꿔줍니다
이제 깔끔해졌네요

잠시 속성들을 봐볼게요

경험상 ttl이 title의 약자로 쓰이는 거 같아요
step은 답변 글과 관련이 있어 보여요


빙고!
이걸 이용하면 질문글만 크롤링 할 수 있겠네요

일단 제목과 날짜 들고 와줄게요

내용까지 크롤링 완료!!
이제 점점 패킷 스니핑 방식이 익숙해 지는 거 같아요
그리고 키움증권 페이지가 보안을 강화했는지 오류페이지가 나더라구요
그럴때
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(options=chrome_options)
해당 코드 몇줄만 추가해주니 해결했어요
첫 글이라서 디자인이나 이런게 어렵네요
728x90
'크롤링' 카테고리의 다른 글
| 봇탐지 우회 (1) | 2025.03.29 |
|---|---|
| 로그인이 필요한 서비스 자동화 - 쿠키와 세션 (1) | 2025.03.26 |
| 무신사 크롤링 (0) | 2025.03.23 |
| 크롤링 - 자바스크립트 크롤링 필요한 이유 (1) | 2025.03.20 |
| 크롤링 - 키움증권 (2) (0) | 2025.03.18 |