`
yy8354
  • 浏览: 79189 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同,它必须强转成对应的HTMLFormElement HTMLInputElement HTMLLinkElement……的类型才能调用相对应的事件,至于JS函数的直接调用期待下回分解吧
为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示,在模拟用户行为上我们需要解决两件事情:1、得到渲染后的网页HTML代码 一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容2、JS函数及页面元素事件的调用 这些很简单都是依靠用户的EVENT去驱动的,而我们通过SOCKET抓取页面对我们只是流而已无法去模拟用户的EVENT 没有这些EVENT 页面上需要EVENT驱动而展现的内容连显示都不可能 更无从抓取了在wind ...
Egothorjava信息检索库,捷克人Leo Galambos为开发主理,应用在Capek主页: http://www.egothor.org/XapianC++开发的概率信息检索库,强大的功能,实现范例为 Omega现支持:Perl, Python, PHP, Java, TCL语言主页: http://www.xapian.org/MG-1.2.1Ref: Managing Gigabytes: Compress ...
一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAnalyer类,继承自Lucene.Net.Analysis.Analyzerusing System;using System.IO;using System.Text;using System.Coll ...
工作中同事帮忙写的正则,主要被我用于网页正文提取  #region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary>  private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*>[^<]{2,}</a> ...
从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。 ...
这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y) 以下是简化公式了目前简化公式:         1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算Corr(X,Y)= Math.log10(N/Nx)*M ...
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx 属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。 该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。 可用于大家收集语料时候网页内容提取之用。 如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数 看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提 ...
Global site tag (gtag.js) - Google Analytics