首先配置文件:
[wusx@centos245 gather]$ cat config
start=359822
end=550000
threads=15
output=/home/wusx/gather/output
log=/home/wusx/gather/_wget.log
然后运行脚本:
[wusx@centos245 gather]$ cat wget.sh
#!bin/sh
#执行下载任务
#
#Threads=10;
#i=100000;
#max=999999;
filename=/home/wusx/gather/config
eval `cat $filename | awk -F '=' '{print $1"="$2}'`
i=$start
max=$end
Threads=$threads
#echo $i $max $Threads $output $log
while(( 1 ));
do
url="http://www.abc.com/$i/cc.html";
out="$output/$i.info"
wget -q --user-agent='Baiduspider' -O $out $url > /dev/null &
i=$(($i+1));
#将当前下的文档序列,写回config文件。
sed -i "1s/start=$(($i-1))/start=$i/" /home/wusx/gather/config
echo $url >> $log
Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
while [ $Running -ge $Threads ]; do
#echo "Threads:${Running} >= ${Threads},sleep 30 seconds..."
sleep 2
Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
done
if [ $i -ge $max ];then
break;
fi
done
分享到:
相关推荐
本文主要实现了使用vbs脚本调用wget,下载网站所有页面到本脚本目录,并扫描本脚本目录中所有文件,读取本脚本目录中的所有网页,匹配图片 URL 地址,保存所有图片 URL 地址到 url-img.txt 文件,然后调用wget: 下载...
在Linux中使用命令行方式的下载工具wget...wget http://要下载的资源或要下载的网页的地址, 具体参数可以用wget --help 查看 很强大的命令行下载工具,在单位做自动部署应用程序脚本时就用到它了。拿出来跟大家分享。
wget++ 是一个简单的多线程 wget。 它下载页面上 HTML img 标签中的所有图像文件。 该脚本的最初目的是将它与 tcpdump 一起使用,以帮助分析客户端与开放互联网上的网络服务器的交互。
awk命令全集!在linux时间里面的工具
#下载器一个简单的python脚本,它从网站下载给定格式的所有文件并将其存储在给定目录中。 它使用 wget 作为后端。 它不需要输出目录或路径存在。 只要他们有要求,它应该适用于所有平台。 目前它不适用于 Google ...
您可以使用wget或curl直接下载脚本:wget -or- curl -O 否则,您可以单击GitHub项目页面上的“下载”链接,下载档案并提取其内容。 可选:如果要从任何目录轻松访问脚本,可以将mkvdts2ac3.sh文件复制或符号链接到...
网络剪报PHP 脚本可让您创建类似仪表板的页面,显示来自不同网页的部分主要用于从各种餐厅页面中抓取食物数据。使用网络剪辑器parse.php处理解析本身,创建一个 html 文档,该文档具有指定数量的列,每个包含一个框 ...
基于phantom,chrome headless的小爬虫脚本(一共是三...wget(或者node脚本进行)下载资源 写了个贼拉简单的shell(用来连接几个文件的执行) 省的好几步去操作node、phantom了 思路二(目前抓取最好): 在getlink-cli-wi
我的环境是CentOS6.5,安装时直接下载 tarball 然后解压即可。 代码如下: # wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.tar.bz2 # tar -jxvf phantomjs-1.9.8-linux-i686....
您需要连接互联网(无需代理即可工作)才能下载脚本:使用移动数据和热点。 使用浏览器 打开http://proxymaster.herokuapp.com并下载脚本。 按照页面上的说明设置代理。 仅使用终端 通过按Ctrl+Alt+T打开终端 安装...
con侦听此脚本利用Web抓取功能来从Apple Bug赏金计划的确认页面收集资产。 自Apple的侦察以来,此脚本利用Web抓取功能从Apple Bug赏金计划的确认页面收集资产。 由于Apple计划的范围没有明确定义,因此此处收集的...
在 CentOS 下使用 apache+mod_wsgi 部署了 MoinMoin,但是编辑和保存页面很慢,于是准备使用 nginx+uwsgi 重新部署 本文假定已经按照官方指引 Quick MoinMoin on CentOS 完成了 apache 和 mod_wsgi 之外的基础安装 ...
首先感谢@sadoneli S大的帮助完成了frp插件web页面的制作。 WARNING:请仔细阅读完本教程1楼和2楼后再动手安装! frp 是一个高性能的反向代理应用,可以帮助您轻松地进行内网穿透,对外网提供服务,支持 tcp, http...
使用设置脚本(选项1) 下载适合您所运行的操作系统版本的sh文件,然后运行以下命令: $ sudo sh restreamer-*.sh手动安装(选项2) 设置的服务器部分是Nginx。 这将通过称为“实时”的应用程序在端口1935上为RTMP流...
## Specification这些脚本应托管在分支的公共GitHub存储库上,但需要下载(理想情况下使用wget)并运行的引导脚本除外。 我网站的页面应专门概述这些内容,并提供对下载链接和GitHub存储库的快速参考。 这些脚本...
➱----------------------- frp客户端配置---------------------- --------------------路由器自动下载并执行frpc脚本(下发时把frpc.sh填充完整并放在服务端目录/ tools / frp中,然后重新启动路由器即可): wget ...
1.使用查找创建文件需要:具有标准cd,sed,cmake,gcc,boost,wget的linux 您必须下载所有主要的“视图”,即以下页面:wykop.pl/strona/1、wykop.pl/strona/2等。为了使我的脚本能够处理它们,所有下载HTML页面都...
您也可以从发行版页面下载扩展(选择与您的gnome-shell版本相对应的发行版)。 为了使该过程自动化,我创建了脚本build.sh ,该脚本将下载与您当前的gnome-shell版本相对应的发行版。 您不必克隆整个存储库。 只需...
详细步骤如下: 从控制台下载并解压缩 GitHub 存储库中的文件: $ wget $ unzip master.zip 使用 Beeton 面板及其所有依赖项运行安装脚本。 我们之前为脚本提供了执行权限: $ cd beeton-master $ chmod + x ...
这是此脚本新版本的“开发”页面。 也看看维基,它可能会带领你走向胜利! 如果您使用的是 linux,那么您可以使用以下命令安装此脚本: wget ...