修复百度新闻根据标题匹配数据解析错误bug

9d3ee2e7 · zhiwei · ee34a906 · 9d3ee2e7
Commit 9d3ee2e7 authored Mar 22, 2018 by zhiwei
Hide whitespace changes
Inline Side-by-side

Showing with 26 additions and 2 deletions

src/main/java/com/zhiwei/media_data_crawler/crawler/BaiduNewsCrawlerParse.java
+26 -2

No files found.
--- a/src/main/java/com/zhiwei/media_data_crawler/crawler/BaiduNewsCrawlerParse.java
+++ b/src/main/java/com/zhiwei/media_data_crawler/crawler/BaiduNewsCrawlerParse.java
@@ -246,7 +246,6 @@ public class BaiduNewsCrawlerParse extends HttpClientTemplateOK {
 				link = element.select("h3.c-title").select("a").attr("href");
 				title = element.select("h3.c-title").select("a").text();
 				soureAndtime = element.select("div.c-row").select("p.c-author").html();
-				System.out.println("time========"+soureAndtime);
 				/** 截取时间 */
 				if (soureAndtime.contains("&nbsp;&nbsp;")) {
 					String soureAndtimes[] = soureAndtime.split("&nbsp;&nbsp;");
@@ -350,7 +349,7 @@ public class BaiduNewsCrawlerParse extends HttpClientTemplateOK {
 				String otherUrl = element.select("div.c-title-author").select("a").attr("href");
 				if (otherUrl != null && !otherUrl.equals("")) {
 					String otherLink = "http://news.baidu.com" + otherUrl;
-					List<NewsData> otherDataList = getOherBaiduNewsData(otherLink, word, proxy);
+					List<NewsData> otherDataList = getOherBaiduNewsDataByTitle(otherLink, word, proxy);
 					list.addAll(otherDataList);
 					ZhiWeiTools.sleep(100);
 				}
@@ -406,6 +405,31 @@ public class BaiduNewsCrawlerParse extends HttpClientTemplateOK {
 		}
 		return list;
 	}
+	
+	
+	public static List<NewsData> getOherBaiduNewsDataByTitle(String url, String word, Proxy proxy) throws Exception{
+		List<NewsData> list = new ArrayList<NewsData>();
+		int page = 0;
+		boolean more = true;
+		while (more) {
+			// 最大页数为20
+			if (page > 20) {
+				more = false;
+			}
+			String htmlBody = downloadHtml(url, proxy, page);
+			if (htmlBody != null) {
+				Map<String, Object> dataMap = analysisDataByTitle(htmlBody, null, word);
+				List<NewsData> dataList = (List<NewsData>) dataMap.get("data");
+				list.addAll(dataList);
+				more = (Boolean) dataMap.get("more");
+			} else {
+				more = false;
+			}
+			page++;
+		}
+		return list;
+	}
+	

 	/**
 	 * @Title: getUrl