본문 바로가기
ETC

crawling 실습

by newny 2023. 3. 29.
반응형

현재 훈련중인 학원의 사이트 크롤링

공지사항의 각 페이지 URL 상세 경로가 나오지 않는경우
 
방법1) 마우스를 각 페이지 버튼에 올려 툴팁을 확인해보면 상세경로가 나옴

 
방법2) 해당 페이지에서 개발자도구 > Network > 해당사이트의 document 파일 클릭 > payload 확인

 
[코드]

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.FileWriter;
import java.io.PrintWriter;

public class Test07 {
    public static void main(String[] args) {
        String URL = "현재 훈련중인 학원 사이트의 공지사항 페이지";
        String file = "D:/java202301/학원이름.txt";

        try (
                FileWriter fw = new FileWriter(file, false);
                PrintWriter out = new PrintWriter(fw, true)
        ) {

            for (int i=1; i<=4; i++) {

                String params = "?pageIndex=" + i;

                Document doc = Jsoup.connect(URL + params).get();

                //방법1
                Elements elements = doc.select(".bgcol01>td:nth-child(2)");
                //방법2 .bgcol01>td>a
                //방법3 .bgcol01 a
                /* 방법4
                Elements elements = doc.select(".bgcol01");
                elements.select(".ac").remove();
                */

                for (Element element : elements) {
                    out.println(element.text());
                }

            }

        } catch (Exception e) {
            System.out.println("크롤링 실패");
            e.printStackTrace();
        }
    }
}

반응형

'ETC' 카테고리의 다른 글

코딩 테스트  (0) 2023.10.03
코딩 테스트  (1) 2023.10.02
crawling 과제  (0) 2023.03.28

댓글