wget下载页面脚本 - professional linux kernel architecture and java lucene search engine - ITeye博客

`

wushexin

浏览: 56132 次
性别:
来自: 北京

最近访客更多访客>>

skfnjwan

gxl_ct001

hesay

weizhiying

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wget下载页面脚本

博客分类：

linux shell

阅读更多

首先配置文件：

[wusx@centos245 gather]$ cat config 
start=359822
end=550000
threads=15
output=/home/wusx/gather/output
log=/home/wusx/gather/_wget.log

然后运行脚本：

[wusx@centos245 gather]$ cat wget.sh 
#!bin/sh
#执行下载任务
#
#Threads=10;
#i=100000;
#max=999999;

filename=/home/wusx/gather/config

eval `cat $filename | awk -F '=' '{print $1"="$2}'`

i=$start
max=$end
Threads=$threads

#echo $i $max $Threads $output $log

while(( 1 ));
do
        url="http://www.abc.com/$i/cc.html";
        out="$output/$i.info"
        wget -q --user-agent='Baiduspider' -O $out $url  > /dev/null &
        i=$(($i+1));

        #将当前下的文档序列，写回config文件。
        sed -i "1s/start=$(($i-1))/start=$i/" /home/wusx/gather/config
        echo $url >> $log

        Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
        while [ $Running -ge $Threads ]; do
                #echo "Threads:${Running} >= ${Threads},sleep 30 seconds..."
                sleep 2 
                Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
        done
        if [ $i -ge $max ];then
                break;
        fi

done

分享到：

shell find scp 命令 | curl 下载字符集转化

2011-04-27 18:04
浏览 1252
评论(0)
分类:操作系统
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

vbs结合wget 实现下载网站图片: 本文主要实现了使用vbs脚本调用wget，下载网站所有页面到本脚本目录，并扫描本脚本目录中所有文件，读取本脚本目录中的所有网页，匹配图片 URL 地址，保存所有图片 URL 地址到 url-img.txt 文件，然后调用wget: 下载...

wgetwin-1_5_3_1-binary 在windows下使用Linux中的命令行下载: 在Linux中使用命令行方式的下载工具wget...wget http://要下载的资源或要下载的网页的地址，具体参数可以用wget --help 查看很强大的命令行下载工具，在单位做自动部署应用程序脚本时就用到它了。拿出来跟大家分享。

wget++-开源: wget++ 是一个简单的多线程 wget。它下载页面上 HTML img 标签中的所有图像文件。该脚本的最初目的是将它与 tcpdump 一起使用，以帮助分析客户端与开放互联网上的网络服务器的交互。

awk命令全集: awk命令全集!在linux时间里面的工具

downloader:用于从给定网站下载给定格式的所有文件的 Python 脚本: #下载器一个简单的python脚本，它从网站下载给定格式的所有文件并将其存储在给定目录中。它使用 wget 作为后端。它不需要输出目录或路径存在。只要他们有要求，它应该适用于所有平台。目前它不适用于 Google ...

mkvdts2ac3:Bash脚本将Matroska文件中的DTS音频转换为AC3: 您可以使用wget或curl直接下载脚本：wget -or- curl -O 否则，您可以单击GitHub项目页面上的“下载”链接，下载档案并提取其内容。可选：如果要从任何目录轻松访问脚本，可以将mkvdts2ac3.sh文件复制或符号链接到...

web-clipper:PHP 脚本可让您创建类似仪表板的页面，显示来自不同网页的部分: 网络剪报PHP 脚本可让您创建类似仪表板的页面，显示来自不同网页的部分主要用于从各种餐厅页面中抓取食物数据。使用网络剪辑器parse.php处理解析本身，创建一个 html 文档，该文档具有指定数量的列，每个包含一个框 ...

Creeper-getResource:用phantom写了个小脚本，能够下载目标url的“大部分”静态资源（不过有的时候抓的是空的），包括spa页面: 基于phantom,chrome headless的小爬虫脚本(一共是三...wget（或者node脚本进行）下载资源写了个贼拉简单的shell（用来连接几个文件的执行）省的好几步去操作node、phantom了思路二(目前抓取最好)：在getlink-cli-wi

Shell脚本实现获取网页快照并生成缩略图: 我的环境是CentOS6.5，安装时直接下载 tarball 然后解压即可。代码如下: # wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.tar.bz2 # tar -jxvf phantomjs-1.9.8-linux-i686....

set_proxy:整个代理设置: 您需要连接互联网（无需代理即可工作）才能下载脚本：使用移动数据和热点。使用浏览器打开http://proxymaster.herokuapp.com并下载脚本。按照页面上的说明设置代理。仅使用终端通过按Ctrl+Alt+T打开终端安装...

NodeJS脚本从其安全性确认页面中提取Apple Bug赏金计划的资产，以进行Bug赏金侦查。-JavaScript开发: con侦听此脚本利用Web抓取功能来从Apple Bug赏金计划的确认页面收集资产。自Apple的侦察以来，此脚本利用Web抓取功能从Apple Bug赏金计划的确认页面收集资产。由于Apple计划的范围没有明确定义，因此此处收集的...

利用Python脚本在Nginx和uwsgi上部署MoinMoin的教程: 在 CentOS 下使用 apache+mod_wsgi 部署了 MoinMoin，但是编辑和保存页面很慢，于是准备使用 nginx+uwsgi 重新部署本文假定已经按照官方指引 Quick MoinMoin on CentOS 完成了 apache 和 mod_wsgi 之外的基础安装 ...

FRP-Linux服务端安装-一键安装脚本: 首先感谢@sadoneli S大的帮助完成了frp插件web页面的制作。 WARNING：请仔细阅读完本教程1楼和2楼后再动手安装！ frp 是一个高性能的反向代理应用，可以帮助您轻松地进行内网穿透，对外网提供服务，支持 tcp, http...

restreamer:在Ubuntu Server上进行RTMP重播的安装脚本: 使用设置脚本（选项1）下载适合您所运行的操作系统版本的sh文件，然后运行以下命令： $ sudo sh restreamer-*.sh手动安装（选项2）设置的服务器部分是Nginx。这将通过称为“实时”的应用程序在端口1935上为RTMP流...

conf:我Linux配置资料。当前为Ubuntu 14.04 LTS（x64）设计: ## Specification这些脚本应托管在分支的公共GitHub存储库上，但需要下载（理想情况下使用wget）并运行的引导脚本除外。我网站的页面应专门概述这些内容，并提供对下载链接和GitHub存储库的快速参考。这些脚本...

Script:Linux Windows脚本: ➱----------------------- frp客户端配置---------------------- --------------------路由器自动下载并执行frpc脚本（下发时把frpc.sh填充完整并放在服务端目录/ tools / frp中，然后重新启动路由器即可）： wget ...

WykopStatistics:用于收集有关主要开挖数据的程序: 1.使用查找创建文件需要：具有标准cd，sed，cmake，gcc，boost，wget的linux 您必须下载所有主要的“视图”，即以下页面：wykop.pl/strona/1、wykop.pl/strona/2等。为了使我的脚本能够处理它们，所有下载HTML页面都...

hass-gshell-extension:用于家庭助理的简单gnome shell扩展: 您也可以从发行版页面下载扩展（选择与您的gnome-shell版本相对应的发行版）。为了使该过程自动化，我创建了脚本build.sh ，该脚本将下载与您当前的gnome-shell版本相对应的发行版。您不必克隆整个存储库。只需...

beeton:用 Asterisk 实现的 PBX 的 Web 管理面板，用 Python 编写并使用 Django: 详细步骤如下：从控制台下载并解压缩 GitHub 存储库中的文件： $ wget $ unzip master.zip 使用 Beeton 面板及其所有依赖项运行安装脚本。我们之前为脚本提供了执行权限： $ cd beeton-master $ chmod + x ...

Hedgewars: Continental supplies:centinental 供应的“主要”开发页面-开源: 这是此脚本新版本的“开发”页面。也看看维基，它可能会带领你走向胜利！如果您使用的是 linux，那么您可以使用以下命令安装此脚本： wget ...

Global site tag (gtag.js) - Google Analytics