大家好^^
我现在正在作毕业设计 题目是构建一个
搜索引擎
现在已经实现了crawler,代码全是自己写的,没有参开其他的open source,所以完全没有学习人家的开源的思想,比如nutch,然后再所以没有用文件作url的库,用的是mysql 5.0的innodb表,数据库中一共有12张表,分别是vUrls(以访问的url),urls_0到urls_10(这11张表代表了11中不同权重的未访问的url)。(还是自己懒,写文件还要多代码,现在已经代码比较乱了)。
表结构:
1. 未访问表中有MD5和url字段,其中MD5字段是char(32)类型、主键,url是TEXT类型。
2. 已访问表中有ID(自增、主键),MD5和url(类型同上)
操作主要集中在未访问表上,己访问表现在只是用来看看,程序中还是放在内存中。
(以下未经说明针对未访问表)
程序中开了多线程通过socket下载网页,一个线程专门解析hyberlink,一个线程专门储存网页(文件形式),开了11个线程(11个权重)并发将解析出来的超链存入数据库。
1. 存入数据库前,这些url先放入一个阻塞队列,满100个时,batch进数据库。
2. 为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。
3. 有两个队列轮流充满待访问的url共socket提取下载,当一个空的时候另一个从数据库中提取
<100 个url充满。这样轮流让socket线程提取,轮流充满,保证socket线程不断。这里的逻辑是从权重最大的表开始看看如果记录条数>0(select count(*)),就select...limit 100 ,只取一张表的数据,不管取出的记录有没有100个,有就行,然后根据MD5把这些记录删掉.程序稳定后(我指uv.url表中的数据量 > 100,最多也就程序运行开始后十几秒的事),就都是batch出100个了。
现在的问题是:
在下载了
>10^5 张网页的时候(最大的权重url表中的行
>10^6),数据库GRUD速度明显跟不上了,因为innodb是锁行的,所以一个时候并发的查询多的时候会锁较长时间,这时候线程会waiting,有次测试 ,竟然数据库被索直到timeout。
然后自己看mysql的manual,优化,改了buffer-pool-size,又把死锁退出的时间调长了点,说实话,数据库这东西的优化是细活,硬活,而且我一直没存过海量,实在是看不出,也想不出什么好的优化方法。
大家看看,都来讨论讨论。
PS 1:
1. 其实要是search一个区域的网站的话,比如我们学校的所有网站的所有网页,我想能下载下
150000张的网页,就够了吧(说错了 别扔我)。但是我想把毕设做得好些,想搞定网页数据量
10^6 的(天网那群人写的那本什么书上写到原始的天网就单机下载索引了
10^6 个网页)
2. 请问大家这样用数据库的方案可行不?(我指有教学性质的 单机版的 毕业设计式的 SE)
PS 2:
我使用数据库做urlDB的原因其实就是与其自己写代码控制urlDB,不如相信数据库的能力,比如并发的管理,GRUD的优化能力 etc. 没想到现在竟然反被束缚了,其导致的后果就是网页的下载速度从占满带宽到由于数据库的查询访问而将到
<20% 的地步。
分享到:
相关推荐
提高mysql插入数据的速度.pdf
通常来说C++操作MySQL的时候,往Mysql中插入10000条简单数据,速度非常缓慢,居然要5分钟左右, 而打开事务的话,一秒不到就搞定了! 具体实现代码如下: #include #include #include #include "mysql.h" #...
提高mysql插入数据的速度归类.pdf
只要学我一样编写这么一个工具类便可以实现批量插入多条数据,百条,千条,万条,后期还会继续优化增加数据时的速度!有点代码基础的保证能看懂,此项目已经有了前端界面你可以直接的导入然后运行测试既可以了,表...
插入的方式和数据库引擎都会对插入速度造成影响,这篇文章旨在从理论和实践上对各种方法进行分析和比较,方便以后应用中插入方法的选择。 插入分析 MySQL中插入一个记录需要的时间由下列因素组成,其中的数字...
主要介绍了mysql技巧:提高插入数据(添加记录)的速度,需要的朋友可以参考下
使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?今天小编通过本教程给大家介绍下
NULL 博文链接:https://hejianhuacn.iteye.com/blog/2094981
插入记录时,影响插入速度的主要是索引、唯一性校验、一次插入记录条数等。根据这些情况,可以分别进行优化,本节将介绍优化插入记录速度的几种方法。下面跟着小编一起来看下吧
Java 实现高效数据库插入数据 在 Java 程序中,实现高效的数据库插入数据是非常重要的。以下是相关的知识点: 使用 JDBC 连接数据库 在 Java 程序中,使用 JDBC(Java Database Connectivity)连接数据库是非常...
10.2.7 MySQL 怎样使用内存 10.2.8 MySQL 怎样锁定数据库表 10.2.9 数据库表级锁定的问题 10.3 使你的数据尽可能小 10.4 MySQL 索引的使用 10.5 存取或更新数据的查询速度 10.5.1 估计...
10.2.7 MySQL 怎样使用内存 10.2.8 MySQL 怎样锁定数据库表 10.2.9 数据库表级锁定的问题 10.3 使你的数据尽可能小 10.4 MySQL 索引的使用 10.5 存取或更新数据的查询速度 ...
+ 4.15.2 启动 MySQL 服务器的问题 + 4.15.3 自动启动和停止 MySQL + 4.15.4 选项文件 o 4.16 升级和降级(downgrading)时有什么特别要做的事情吗? + 4.16.1 从一个 3.22 版本升级到 3.23 + 4.16.2 从一个 ...
它支持常见的SQL操作,如插入、更新、删除和查询数据。 3. 支持多种数据类型:MySQL支持各种数据类型,包括整数、浮点数、日期时间、字符串、二进制等。每种数据类型都有自己独特的属性和限制。 4. 完善的索引和...
为了加快插入速度,先不要建索引 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入 注意控制 worker 的数量,避免对 MySQL 造成太大的压力 注意处理脏数据导致的异常 原始数据是 GBK 编码,所以...
它支持常见的SQL操作,如插入、更新、删除和查询数据。 3. 支持多种数据类型:MySQL支持各种数据类型,包括整数、浮点数、日期时间、字符串、二进制等。每种数据类型都有自己独特的属性和限制。 4. 完善的索引和...
MySQL大数据量快速插入方法和语句优化是本文我们主要要介绍的内容,接下来我们就来一一介绍,希望能够对您有所收获!插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例:连接:(3)发送查询给服务器:...