`

1127工作

 
阅读更多

做了有关网页内容的匹配工作:

       有几种方法:

          1、最土的 indexof,substring,这种上学时的小打小闹明显不适合工作中使用,只解析了十几个页面就字符串下标越界了,有时只处理了3个就越界了。。所以,把整个页面传过去解析的方法明显不适合。。换一种爬取页面的方法

       

          2、正则匹配。

              String regex="<title>.*?</title>";
              Pattern pat=Pattern.compile(regex);
              Matcher  match=pat.matcher(str);
              if(match.find()){
                      System.out.println(match.group());
               }

            还是操作整个页面
  

          3、Jsoup,前辈告我这个类。可以将网页内容分类操作,但一定要把它的jar包传到虚拟机里面,并添加路径:

export HADOOP_CLASSPATH="/usrb/hive/*:/usrb/hiveb/*:/usrb/hbase/*:/usrb/hbaseb/*:/home/clickwiseb/jsoup-1.7.3.jar"。

他还说 不要在不知道大小的情况下开辟数组空间 我有一句代码:String[] aim = new Sring[15]; 

                http://www.jb51.net/article/43485.htm

                但这个类可能会超时,解决方法是设置时长

 

		Document doc = Jsoup.connect("http://item.yhd.com/item/33957949").timeout(5000).get ();    //防止有些页面响应慢设置了延时
		String title = doc.title();
		System.out.println(title);
		Elements div=doc.select("div.crumb").select(".clearfix");  //根据div找 div class="crumb clearfix"
		for(Element el:div){
			for(Element el1:el.select("a")){						//在找出里面的超链接a
				System.out.println(el1.text());
			}
			for(Element el1:el.select("span")){						//最后一个span
				System.out.println(el1.text());
			}			
		}

 

分享到:
评论

相关推荐

    深井采空区密闭墙系统构筑原理及应用

    通过分析在残余支承压力作用下密闭墙墙体与围岩系统协调变形机制和载荷的传递机理,建立了墙体与围岩系统的耦合作用模型...阻隔采空区与外界导气通道的采空区密闭墙系统的构筑工艺,并在邢东矿1127工作面成功进行了应用。

    activiti工作流实例

    activiti工作流实例,网上activiti的实例很少最近本人做了一个例子供大家参考

    特厚煤层综放工作面不同漏风源位置对自燃带分布的影响

    为更好地掌握相邻煤层开采过程中特厚煤层综放工作面不同漏风源位置对自燃"三带"分布的影响。根据工作面实际情况,建立了不同...实际应预防浮煤层自燃带范围为进风侧24.1127.2 m,回风侧18.584.3 m,采空区中部18.584.3 m。

    pranjal1127

    :telescope: 我目前正在与Precisely一起工作。 :seedling: 我目前正在学习区块链。 Active积极为各种组织和开源项目做出贡献。 :key: 喜欢数据结构和算法。 :speech_balloon: 向我询问有关Web开发的任何信息。

    Excel 使用技巧集锦——163种技巧

    1. 快速选中全部工作表 7 2. 快速启动Excel 7 3. 快速删除选定区域数据 7 4. 给单元格重新命名 7 5. 在Excel中选择整个单元格范围 7 6. 快速移动/复制单元格 8 7. 快速修改单元格式次序 8 8. 彻底清除单元格...

    【推荐】超全超实用的医院内部绩效管理资料合集(132份).zip

    医院绩效考核指标库1127 医院绩效考核指标体系的构建与评估 医院绩效评价指标体系及评价考核研究 医院科室系数评价法评价因素释义表 医院科室系统评分表 医院科室综合目标考核方案 医院全成本核算指南 医院如何做好...

    ros_qtc_plugin:ROS Qt Creator插件(https

    ROS Qt Creator插件提供以下功能: 导入/创建Catkin工作区创建柳絮包自定义构建配置柳絮Catkin工具自定义运行配置罗斯劳恩奇罗斯伦附加到节点工作区的自动采购集成式选项卡式终端范本工业机器人支持包基本启动文件...

    JVM类加载机制原理及用法解析

    主要介绍了JVM类加载机制原理及用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

    边缘检测技术在分布式光纤传感中的应用

    利用边上信号对频率变化敏感的特点,提出了边缘检测技术,并通过设置最佳的工作点,使系统工作在最敏感的点上。理论分析表明,为实现0.5 MHz的布里渊频移测量精度,通过测量最大信号的常规检测所需的信噪比为65.1127 dB,...

    [Excel数据处理与分析实战技巧精粹]

    它为工作中经常需要进行数据比较的用户提供了完美的解决方案。无论你的数据是存放在Excel文件,还是存放在文本文件,或者存放在Access、Microsoft SQL数据库,[Excel数据处理与分析实战技巧精粹]专业版都可以提供...

    1000个【易语言模块大全汇总批量下载】

    易语言~模块~批量~下载 2008-11-08 14:41 文件夹 文件夹 易语言模块大全 2005-10-21 15:30 14489 3100 易语言模块大全\24位转单色位图模块.ec 2007-01-18 07:00 7110 2339 易语言模块大全\69msn.ec ...

    MTRON:MTRON 是 Fortran 软件 TRON(大规模信任域牛顿法)的 Matlab 包装器。-matlab开发

    Chih-Jen Lin 和 Jorge Moreé,牛顿的大方法有界约束优化问题,SIAM 优化杂志, 第 9 卷,第 4 期,第 1100-1127 页,1999 http://www-unix.mcs.anl.gov/~more/tron/ (截至 2006 年 11 月 28 日) MTRON 由 ...

    CAD批量打印工具 EBatPrint11-Pro

    在我们设计工作中,经常需要打印大量的图纸,如果用框选方法打印的方法,费时费力。CAD自带布局的方法也没有方便的解决这个问题。本软件为模型&布局空间批量图纸打印程序,适用于模型空间多图、布局空间多图的情况。...

    Visual.Basic.2010.&.NET4.高级编程(第6版)-文字版.pdf

    5.3.2 使用xaml声明工作流 264 5.4 小结 265 第6章 异常处理和调试 267 6.1 visual studio 2010 team system的新增内容:历史调试 267 6.2 与visual basic 6兼容的注意事项 268 6.3 .net中的异常处理 268 ...

    FileSeek 3.1.4

    FileSeek是一个快速、小巧和超容易使用的文件管理工具。它甚至可以被集成到Windows资源管理器右键菜单提供快捷方便地访问,以帮助您的工作。

    Windows 系统错误代码简单分析

    Microsoft Windows 系统错误代码简单分析:  0000 操作已成功完成。  0001 错误的函数。  0002 系统找不到指定的文件。 ... 0003 系统找不到指定的路径。...可能是一个包含注册表数据文件的结构已损坏,也可能...

Global site tag (gtag.js) - Google Analytics