`
lzj0470
  • 浏览: 1245968 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlparser获取A标签内容,既然是空

阅读更多
形式是:
<a href="#" class="a4" target=_blank title=" 河北邢台广宗蝎子养殖合作社(常年出售待产蝎)河北省广宗县昆虫养殖合作社,常年提供各地优质种蝎,孕蝎,黄粉虫,土元,免费上门指导高效养殖技术,签合同,包回收,种源优良,价格实惠,诚信经营" onmouseover="showshdiv('141400','4')" onmouseout1="hiddenshdiv()" id="content_gqdw_4">
            <p style="line-height: 150%">[供] 河北邢台广宗蝎子养殖合作社(常年出售待产蝎)河北省广宗县昆</a>

这个是非常简单的一个A标签或者,但是,获取打印出来,结果是:
<a href="#" class="a4" target=_blank title="唐山丰华供应银黑狐种狐" onmouseover="showshdiv('141400','0')" onmouseout1="hiddenshdiv()" id="content_gqdw_4"> </a>

解决办法是:
过滤之前,先替换<p style="line-height: 150%">。



分享到:
评论
2 楼 endual 2012-03-19  
htmlparaser + 正则表达式试过么 ?

1 楼 zc0604 2011-12-17  
其实可以去注册一下p标签就可以了
PrototypicalNodeFactory factory = new PrototypicalNodeFactory ();  
factory.registerTag (new PTag());
 parser.setNodeFactory(factory);


这里的PTag是自己写的一个标签类

import org.htmlparser.tags.CompositeTag;

public class PTag extends CompositeTag{
	private static final long serialVersionUID = -2152927621110873917L;
	private static final String[] mIds = new String[] {"P"};
    
	public String[] getIds (){
	    return (mIds);
	}
	     
	public String[] getEnders (){
	    return (mIds);
	}

	public String getId(){
	    return super.getAttribute("id");
	}

	@Override
	public String getAttribute(String name) {
		return super.getAttribute(name);
	}
}

相关推荐

Global site tag (gtag.js) - Google Analytics