JSOUP

jsoup.jar 파일 은 project의 property에서 java build path에서 삽입한 뒤에
order and Export에서 사용하도록 클릭한다!

http://mainia.tistory.com/100

사용예시1)
package test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class MyTest{
public static void main(String[] args) throws Exception{
String articleURL = “http://www.imaeil.com/sub_news/sub_news_view.php?news_id=20000&yy=2015”; //신문기사 URL
Document doc = Jsoup.connect(articleURL).get(); // document 객체 생성.
Elements ele = doc.select(“div#_article”); // 아이디가 _article인 div 태그 선택
String str = ele.text(); // 값 저장
System.out.println(str);
}
}

사용예시2)
http://webnautes.tistory.com/784

사용에시3)
https://stackoverflow.com/questions/31520799/how-to-extract-content-from-html

 

<jsoup에서 포함내용 찾기>
doc.select(“div:contains(Pantry/Catering)”).get(1)
이것이 들어간 두번째 내용 찾는 방법

예제)

doc = Jsoup.connect(mAddr).get(); // cf : jsoup을 이용해서 network를 통해 내용을 긁어 온다.
Elements links = doc.select(“td.m_t_text:containsOwn(복음)”).get(1).parents().select(“.m_t_missa”);  //element를 얻어낸다. 두번째것.

<jsoup에서 텍스트 가져올때 엔터도 가져오기>
public class Test {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect(“http://daltonschool.kr/homeeng/04schoollife/040203schoollife.html&#8221;).get();
String words = doc.select(“table.cafeteria tbody tr td”).eq(3).html();
String temp = words.replace(“<br>”, “$$$”);
Document doc1 = Jsoup.parse(temp);
String text = doc1.body().text().replace(“$$$”, “\n”).toString();
System.out.println(text);

} catch (Exception e) {
e.printStackTrace();
}
}

}

예제)

Elements links = doc.select("td.m_t_text:containsOwn(복음)").get(1).parents().select(".m_t_missa");  //element를 얻어낸다. 두번째것.
for(int i=0;i<links.size();i++) {
   org.jsoup.nodes.Element pre = links.get(0); // cf : 이렇게 해주지 않으면 복음내용 이후 내용들이 다 나오게 된다.
   // cf : 아래는 줄바꿈을 적용하는 방법이다.
   String word = pre.html();
   String temp = word.replace("<br>", "$$$");
   org.jsoup.nodes.Document doc1 = Jsoup.parse(temp);
   contents = doc1.body().text().replace("$$$", "\n").toString();  //  contents = links.get(0).ownText();

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s