반응형
jsoup 라이브러리 핵심 클래스
Document 클래스 : 연결해서 얻어온 HTML전체 문서
Elements 클래스 : Element가 모인 자료형
Element 클래스 : Document의 HTML요소
과제) 웹페이지에서 공지사항 제목만 크롤링해서 공지사항.txt파일에 저장하기
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.FileWriter;
import java.io.PrintWriter;
public class Test05_egovframe {
public static void main(String[] args) {
String URL = "https://웹페이지";
String file = "D:/java202301/공지사항.txt";
try (
FileWriter fw = new FileWriter(file, false);
PrintWriter out = new PrintWriter(fw, true);
){
for (int i = 0; i < 22; i++) {
// 공지사항 페이지의 페이지번호를 변수화
String params = "pageIndex=" + (i*10);
// i번째 페이지 가져오기
Document doc = Jsoup.connect(URL+params).get();
// 페이지 소스 중 제목부분 뽑아와서 elements로 저장
Elements elements = doc.select(".lnk");
// elements 배열에 담긴 element를 하나씩 가져오기
for (Element element : elements) {
out.println(element.text()); //공지사항.txt 파일에 담기
}
}
} catch (Exception e) {
System.out.println("크롤링 실패");
e.printStackTrace();
}
}
}
반응형
'ETC' 카테고리의 다른 글
코딩 테스트 (0) | 2023.10.03 |
---|---|
코딩 테스트 (1) | 2023.10.02 |
crawling 실습 (0) | 2023.03.29 |
댓글