在您开始抓取网络内容前,您需要指定一个或多个起始位置。 您可以通过指定要遵循的网址格式和要避免的网址格式来控制和优化抓取幅度。 如果要抓取指定的网址,那么这个网址必须符合仅跟踪和抓取以下格式的网址框中的“至少一个”网址格式,并且“不能”符合勿抓取以下格式的网址框中的任何网址格式。
请注意: 如果某个网址既符合仅跟踪和抓取以下格式的网址中的格式,又符合勿抓取以下格式的网址中的格式,将不抓取该网址。
网址区分大小写。 如果您希望使用不区分大小写的网址,请使用操作符 regexpIgnoreCase。
抓取工具可以访问使用 HTTP、HTTPS 和 SMB 协议的内容。
您可以利用以下选项控制和定义抓取。
从以下网址开始抓取
起始网址(每行输入一个)控制抓取起始位置。 通过跟踪起始网址中所列文档(一个或多个)内的链接,可以访问到您希望在所有集合中包含的全部内容。
这些网址只是抓取的起始点。 它们告诉抓取工具从何处开始抓取。 但是,仅当起始网址中的链接符合仅跟踪和抓取以下格式的网址中的格式时,才会跟踪这些链接并为其编制索引。 例如,如果您在该部分中指定起始网址 http://mycompany.com/,并在仅跟踪和抓取以下格式的网址部分中指定格式 www.mycompany.com/,则抓取工具将会寻找网页 http://www.mycompany.com/ 中的链接,但仅会抓取符合格式 www.mycompany.com/ 的网址并为其编制索引。
此窗口中所有的条目都应是完全限定网址,使用以下格式:
<协议>://<主机>[:端口]/[路径]
在此格式中,协议可包括 HTTP、HTTPS(适用于安全内容)或 SMB(适用于文件共享)。
在方括号 [ ] 中包含的信息是可选的。 在 <主机>[:端口]后的正斜杠“/”是必需的。
有效示例:
https://www.example.com/secure/
http://www.example.com/help/
smb://fileshare.mycompany.com/my-sharename/
无效示例: | 原因: | |
http://www/ | 无效,因为主机名不是完全限定的。 完全限定主机名包括本地主机名和完整域名。 例如: mail.corp.company.com。 | |
www.example.com/ | 缺少协议信息,所以无效。 | |
http://www.example.com | <主机>[:端口]后必须使用“/”。 |
抓取工具将会多次重试抓取暂时无法访问的网址。
仅跟踪和抓取以下格式的网址
从以下网址开始抓取框中的所有条目都需要在仅跟踪和抓取以下格式的网址框中有相应的条目,否则将显示错误信息。
只有符合您在此窗口中指定的格式(每行一个)的网址才会被跟踪和抓取。 这样,您就可以控制在服务器上抓取哪些文件。
示例:
https://www.example.com/secure/
http://www.example.com:80/help/
smb://fileshare.mycompany.com/my-sharename/
\\fileshare.mycompany.com\shared\这些条目只能对包含以上字符串的网址进行抓取。 例如,以下所有网址都将被抓取(假设它们没有包含在勿抓取网址中):
https://www.example.com/secure/file.txt
http://www.example.com:80/help/projectA
smb://fileshare.mycompany.com/my-sharename/folder1
\\fileshare.mycompany.com\shared\folder1
找到的网址会根据这些格式进行检查,以决定是否要纳入索引中。 只会抓取符合这些格式的网址并为其编制索引。 要抓取某一网址并为其编制索引,该网址中应存在一系列符合某一起始网址的“跟踪格式”的链接。 如果不存在有效链接路径,您应将该网址添加至从以下网址开始抓取部分。
您在该窗口列出的网址格式须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键以添加其他格式。 允许空行和注释(以 # 开始)。
“抓取网址”页上的网址区分大小写。 如果您希望使用不区分大小写的网址格式匹配,请使用操作符regexpIgnoreCase。 例如,假设您输入以下格式:
regexpIgnoreCase:http://www.mycompany.com/documents/
该格式也与以下网址相匹配:
http://www.mycompany.com/Documents/
http://www.mycompany.com/DOCUMENTS/
勿抓取以下格式的网址
文件类型搜索会提取文档中的所有纯文本并为其编制索引。 但不会为图形、图表和格式化信息编制索引。 您可以将任意文件格式排除在抓取和编制索引的格式之外,只需定义网址格式例外,就可阻止对这些网页进行抓取。 符合您在该窗口中指定的格式(每行一个)的网址不会被抓取。
该选项可以阻止抓取特定的文件类型、目录或其他网页组。 例如,在此框中输入格式 contains:? 将阻止抓取许多通用网关界面 (CGI) 脚本。
您在此处列出的网址格式必须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键,在新行中添加其他格式。 允许空行和注释(以 # 开始)。
为方便起见,该框内预置了多个网址格式和文件类型,其中有些您可能不希望抓取工具为其编制索引。 我们建议您,除非您检测到自己站点的某些部分目前被排除在了这些规则之外,否则请不要删除任何默认格式。 有关支持的文件格式的详情,请参阅公共 Search Appliance 文档网页上的“可编制索引的文件格式”。
要使抓取工具不抓取某种格式或文件类型,请删除包含该文件类型的那一行中的 # 标记。 例如,要让抓取工具不抓取服务器上的 Excel 文件,请将行
#.xls$
修改为
.xls$
以上内容都是来自Google Search Appliance的帮助文档。
从以下网址开始抓取可以看做是外链;勿抓取以下格式的网址 可以看做是robots.txt文件。
一些网站优化中需要注意的点已标红。
相关推荐
Installing the Google Search Appliance.pdf Installing the Google Search Appliance.pdf Installing the Google Search Appliance.pdf Installing the Google Search Appliance.pdf Installing the Google Search...
ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...
一个Java库,作为Google Search Appliance的搜索协议XML API的包装。 XML API可从以下网址公开获得:http://code.google.com/gsa_apis/xml_reference.html此项目的主页和教程位于:http://gsa-japi.sf.net
java4gsa 用于搜索Google Search Appliance(GSA)的开源Java API
Google Apps 脚本 - GSA(Google Search Appliance)代理 在您的帐户中创建一个新脚本 新建一个脚本文件,复制里面的gsa-json-proxy.js的内容。 使用您的设置 GSA_URL 运行“测试”功能以启用权限 发布为 Web 应用...
Google Search Appliance - JSON 前端 XSLT 中的这个 JSON 生成器专门用于匹配 GSP 格式 XML,该格式生成为许多搜索实现的通用格式。 JSON 将所有内容包装在一个主节点“GSP”中,然后通过将这些(如果存在)包装在...
vCenter Server Appliance 6.7 全系列
VMware vCenter Server Appliance 6.5 安装部署和升级
GSA Ruby宝石通过单行进纸,搜索和刻面,快速,轻松地利用GSA索引功能。安装 gem install gsa默认端口默认端口设置为安全端口19902 要将端口更改为http,请将feed扩展名设置为以下内容: GSA :: FEED_EXTENSION = ":...
Practical Oracle Database Appliance Description: Practical Oracle Database Appliance is a hands-on book taking you through the components and implementation of the Oracle Database Appliance. Learn ...
如果您希望为Sitecore网站实施轻便,有针对性和灵活的搜索,而Coveo,Google Site Search或Google Search Appliance则不可行,那么此模块将是您的最佳选择。 它是如何工作的? Sitecore提供了构建我们的解决方案的...
中科曙光虚拟化培训教程汇总:2.1 VMware vCenter Server Appliance 6.5 安装与升级.pdf
Veritas NetBackup 5250 Appliance
VMware vSphere Storage Appliance 安装和管理.pdf
vRealize-Operations-Manager-Appliance-8.1.1.16522874_OVF10.ova
借助价格合理且易于管理的解决方案——McAfee Email and Web Security Appliance,可以保护您的企业免遭垃圾邮件、病毒、间谍软件、恶意网站的侵扰,同时还能防止不当的网上浏览行为。它是代替单点电子邮件和Web安全...
NetBackup 9.1.0.1 Application Guide for Flex Appliance 2.1
kiwi, KIWI—Appliance生成器下一代 KIWI --下一代 KIWI,操作系统映像和设备生成器。 安装工具 。文档文档如果这个项目减少了你的开发时间自由购买我一个 Coffee 。
每个YaCy用户要么是大型搜索网络的一部分(可以通过内置的对等网络协议与其他安装交换搜索索引),要么该用户运行YaCy来生成公共或私有的个人搜索门户。 YaCy搜索门户也可以放置在Intranet环境中,从而替代商业企业...