ITeye问答频道

票

回答

30671 浏览

Java_爬虫，如何抓取Js动态生成数据的页面？[已解决]5

很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的，看网上说HtmlUnit，说可以获取后台js加载完后的完整页面，但是我按照文章上说的写了，都不好使。 String ...

2014年7月25日 17:44

assasszt
17
0 0 5

票

回答

957 浏览

nutch爬取不到指定页面的内容[已解决]5

运行nutch，在regex-urlfilter.txt中配置如下： +^http://www.6903.com/$ +^http://www.6903.com/zixun/$ +^http://www.6903.com/zixun/news.aspx\?t=2$，然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30，为什么不爬取n ...

nutch

2014年5月23日 09:29

guotaoli429
11
0 0 4

票

回答

414 浏览

hadoop1.2 +nutch1.7的一个问题[已解决]0

hadoop正常启动当执行分布式任务nutch时，一会就提示这个错如下图另外，由于没有条件，我是三台linux全是部署在虚拟机上的

Linux Hadoop nutch

2013年8月03日 18:26

luoyu-ds
0
0 1 6

票

回答

245 浏览

nutch1.6怎样抓取网页的摘要[已解决]5

如题，我用nutch做爬虫，solr做搜索，但是nutch爬取网页之后提交索引给solr，怎样显示摘要信息呀？

Solr nutch

2013年5月13日 09:23

searchboy
21
0 0 4

票

回答

1228 浏览

关于Nutch抓取网页的问题[已解决]5

前些时候用Nutch来抓取网页，发现是指定初始连接去抓取网页，但是对于抓取的内容是不能够控制的，假如我想指定一些关键字，然后抓取与这个关键字相关的网页，其他的都忽略掉，请问这个该怎么实现呢？我测试采用的是Nutch、Hadoop、Hbase这三个框架。谢谢！

Hadoop HBase 搜索 nutch 抓取网页

2012年11月30日 08:27

xtuali1
25
0 0 1

票

回答

807 浏览

nutch1.4+solr3.4的疑问，求教！[已解决]5

nutch1.4+solr3.4 bin/nutch crawl urls -dir crawl -solr http://10.8.1.100/solr -depth 3 -topN 100 问题1：抓取论坛的帖子内容，抓来的title，是统一格式的：文章标题_板块名_论坛名现在想要搜索时，仅搜索“文章标题”这块，能在solrj查询的时候通过设置查询语句来解决吗？我想到的办法是修改Sol ...

Solr nutch

2012年8月21日 16:02

aronfb
0
0 0 1

我的问答 FAQ | 勋章

排行榜

查看全部排名>>

Java_爬虫，如何抓取Js动态生成数据的页面？[已解决]5

nutch爬取不到指定页面的内容[已解决]5

hadoop1.2 +nutch1.7的一个问题[已解决]0

nutch1.6怎样抓取网页的摘要[已解决]5

关于Nutch抓取网页的问题[已解决]5

nutch1.4+solr3.4的疑问，求教！[已解决]5

问答分类

移动开发技术

Web前端技术

Java企业应用

编程语言技术

综合技术

入门技术

招聘求职

海阔天空

最新问题

排行榜

本周活跃投票用户

最新评论