반응형
현재 훈련중인 학원의 사이트 크롤링
공지사항의 각 페이지 URL 상세 경로가 나오지 않는경우
방법1) 마우스를 각 페이지 버튼에 올려 툴팁을 확인해보면 상세경로가 나옴
방법2) 해당 페이지에서 개발자도구 > Network > 해당사이트의 document 파일 클릭 > payload 확인
[코드]
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.FileWriter;
import java.io.PrintWriter;
public class Test07 {
public static void main(String[] args) {
String URL = "현재 훈련중인 학원 사이트의 공지사항 페이지";
String file = "D:/java202301/학원이름.txt";
try (
FileWriter fw = new FileWriter(file, false);
PrintWriter out = new PrintWriter(fw, true)
) {
for (int i=1; i<=4; i++) {
String params = "?pageIndex=" + i;
Document doc = Jsoup.connect(URL + params).get();
//방법1
Elements elements = doc.select(".bgcol01>td:nth-child(2)");
//방법2 .bgcol01>td>a
//방법3 .bgcol01 a
/* 방법4
Elements elements = doc.select(".bgcol01");
elements.select(".ac").remove();
*/
for (Element element : elements) {
out.println(element.text());
}
}
} catch (Exception e) {
System.out.println("크롤링 실패");
e.printStackTrace();
}
}
}
반응형
'ETC' 카테고리의 다른 글
코딩 테스트 (0) | 2023.10.03 |
---|---|
코딩 테스트 (1) | 2023.10.02 |
crawling 과제 (0) | 2023.03.28 |
댓글