团购导航网站如:http://www.tuanp.com,,http://www.tuan800.com,首先需要对抓取的团购网站进行分析,因为很多团购网站没有对外的API即xml格式文件,然后对xml格式分析,且在后台录入xml格式标签,最后使用定时器每隔一段时间抓取。
1.团购网站信息Test.xml
<?xml version="1.0" encoding="utf-8"?>
<result>
<error>0</error>
<data>
<site>
<site_name>团购网站</site_name>
<site_title>团购标题</site_title>
<site_url>http://xxx.xxx.com</site_url>
</site>
<teams>
<team>
<id>21</id>
<link>http://xxx.xxx.com/team.php?id=21</link>
<large_image_url>http://xxx.xxx.com/upfile/team/2010/1013/12869663322493.jpg</large_image_url>
<small_image_url>http://xxx.xxx.com/upfile/team/2010/1013/12869663322493_index.jpg</small_image_url>
<title> Title1……</title>
<product> Product1…… </product>
<team_price>37.50</team_price>
<market_price>60.90</market_price>
<rebate>6.16</rebate>
<start_date>2010-10-14T00:00:00+08:00</start_date>
<end_date>2010-10-20T00:00:00+08:00</end_date>
<state>success</state>
<tipped>true</tipped>
<tipped_date>2010-10-15T10:55:14+08:00</tipped_date>
<tipping_point>10</tipping_point>
<current_point>192</current_point>
<conditions>
<limited_quantity>false</limited_quantity>
<maximum_purchase>0</maximum_purchase>
<expiration_date>2011-01-14T00:00:00+08:00</expiration_date>
</conditions>
<city></city>
<group></group>
</team>
<team>
<id>23</id>
<link>http://xxx.xxx.com/team.php?id=23</link>
<large_image_url>http://xxx.xxx.com/upfile/team/2010/1015/12870801418707.jpg</large_image_url>
<small_image_url>http://xxx.xxx.com/upfile/team/2010/1015/12870801418707_index.jpg</small_image_url>
<title> Title2…… </title>
<product> Product2……</product>
<team_price>58.00</team_price>
<market_price>298.00</market_price>
<rebate>1.95</rebate>
<start_date>2010-10-16T00:00:00+08:00</start_date>
<end_date>2010-10-19T00:00:00+08:00</end_date>
<state>success</state>
<tipped>true</tipped>
<tipped_date>2010-10-16T10:45:10+08:00</tipped_date>
<tipping_point>10</tipping_point>
<current_point>138</current_point>
<conditions>
<limited_quantity>false</limited_quantity>
<maximum_purchase>0</maximum_purchase>
<expiration_date>2011-01-16T00:00:00+08:00</expiration_date>
</conditions>
<city></city>
<group></group>
</team>
</teams>
</data>
</result>
2.后台java解析程序: //
按照路径定位解析技术:dom4j解析
public static void main(String[] args) {
try {
SAXReader reader = new SAXReader();
Document doc = reader.read(new File("Test.xml"));
Element root = doc.getRootElement();
List list = root.selectNodes("//data/teams/team");
Element element;
for (int i = 0; i < list.size(); i++) {
element = (Element) list.get(i);
String id = getNodeText(element, "id");
System.out.println("id:"+id);
String title = getNodeText(element, "title");
System.out.println("title:"+title);
String image = getNodeText(element, "large_image_url");
System.out.println("image:"+image);
String dealUrl = getNodeText(element, "link");
System.out.println("dealUrl:"+dealUrl);
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static String getNodeText(Element element, String nodename) throws Exception{
Node node = element.selectSingleNode(nodename);
if(node == null) {
throw new RuntimeException("标签错误");
}
return node.getText();
}
分享到:
相关推荐
解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml解析xml
易语言 xml解析 易语言 xml解析 易语言 xml解析 易语言 xml解析 易语言 xml解析 易语言 xml解析 易语言 xml解析 教程 带源码
java在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava在线解析xmljava...
XML 解析XML 解析XML 解析XML 解析XML 解析XML 解析XML 解析
C# XML解析方式
xml 解析几何 xml 解析几何 xml 解析几何
XML解析技术研究XML解析技术研究XML解析技术研究XML解析技术研究XML解析技术研究
xml解析xml解析xml解析例子xml解析xml解析xml解析xml解析xml解析xml解析xml解析
读取和设置xml配置文件是最常用的操作,试用了几个C++的XML解析器,个人感觉TinyXML是使用起来最舒服的,因为它的API接口和Java的十分类似,面向对象性很好。 TinyXML是一个开源的解析XML的解析库,能够用于C++,...
LabVIEW XML解析器示例, 包含xml加载,保存,解析等功能
四中最常用的XML文件解析总结.doc
XML解析、XML生成工具,灵活好用的XML解析器、封装接口简单易用
XML解析DEMOXML解析DEMOXML解析DEMOXML解析DEMOXML解析DEMO
使用dom4j解析XML,用于解析复杂XML,多层镶嵌XML,多层循环xml解析,解析完保存到实体类
个人这几天对Xml各种解析方式学习总结(个人复习用)
XML解析总结归纳 总结了java常用的xml解析常用
minixml是适合嵌入式系统的xml解析器,支持dom
用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件用于解析XML文件
使用SAX DOM两种解析方式解析文件
iphone开发之xml解析iphone开发之xml解析iphone开发之xml解析iphone开发之xml解析iphone开发之xml解析