크롤링

크롤링-키움증권 고객문의

taehyuck 2025. 3. 17. 22:37
728x90

 

해당 페이지에서 답변글이 아닌 질문들만 크롤링

 

 

 

자바스크립트를 껐을때 데이터가 안나오는 것을 보니 동적으로 작동하는 것을 확인

 

셀레니움으로 할 수 있지만 네트워크에서 데이터를 가로채오겠습니다

 

 

 

요청 방식을 확인해 보니 POST 요청 이네요

 

 

데이터 페이로드를 같이 보낼게요

 

아마 예상으로는 pageNo가 현재 페이지를 나타내는 거 같아요

예상이 맞다면 추후에 많은 페이지를 크롤링할 때 편하겠네요

 

 

 

아이고 더러워라,,,

 

 

바로 Json 형태로 바꿔줍니다

이제 깔끔해졌네요

 

 

 

잠시 속성들을 봐볼게요

 

 

경험상 ttl이 title의 약자로 쓰이는 거 같아요

 

step은 답변 글과 관련이 있어 보여요

 

질문글의 step
답변글의 step

빙고!

 

이걸 이용하면 질문글만 크롤링 할 수 있겠네요

 

 

 

일단 제목과 날짜 들고 와줄게요

 

 

내용까지 크롤링 완료!!

 

이제 점점 패킷 스니핑 방식이 익숙해 지는 거 같아요

 

그리고 키움증권 페이지가 보안을 강화했는지 오류페이지가 나더라구요

그럴때

 

from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--disable-blink-features=AutomationControlled")

driver = webdriver.Chrome(options=chrome_options)

 

해당 코드 몇줄만 추가해주니 해결했어요

 

첫 글이라서 디자인이나 이런게 어렵네요

728x90