java Memcache

lionlx

浏览: 283556 次
性别:
来自: 北京

最近访客更多访客>>

hongmin118

zhangyi0618

xyz86868

MegRyan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java memcached 应用服务器算法 Socket

1       Memcache是什么
Memcache是danga.com的一个项目，最早是为 LiveJournal 服务的，目前全世界不少人使用这个缓存项目来构建自己大负载的网站，来分担数据库的压力。

它可以应对任意多个连接，使用非阻塞的网络IO。由于它的工作机制是在内存中开辟一块空间，然后建立一个HashTable，Memcached自管理这些HashTable。



为什么会有Memcache和memcached两种名称？

其实Memcache是这个项目的名称，而memcached是它服务器端的主程序文件名，



Memcache官方网站：http://www.danga.com/memcached，

2       Memcache工作原理
首先 memcached 是以守护程序方式运行于一个或多个服务器中，随时接受客户端的连接操作，客户端可以由各种语言编写，目前已知的客户端 API 包括 Perl/PHP/Python/Ruby/Java/C#/C 等等。客户端在与 memcached 服务建立连接之后，接下来的事情就是存取对象了，每个被存取的对象都有一个唯一的标识符 key，存取操作均通过这个 key 进行，保存到 memcached 中的对象实际上是放置内存中的，并不是保存在 cache 文件中的，这也是为什么 memcached 能够如此高效快速的原因。注意，这些对象并不是持久的，服务停止之后，里边的数据就会丢失。

与许多 cache 工具类似，Memcached 的原理并不复杂。它采用了C/S的模式，在 server 端启动服务进程，在启动时可以指定监听的 ip，自己的端口号，所使用的内存大小等几个关键参数。一旦启动，服务就一直处于可用状态。Memcached 的目前版本是通过C实现，采用了单进程，单线程，异步I/O，基于事件 (event_based) 的服务方式.使用 libevent 作为事件通知实现。多个 Server 可以协同工作，但这些 Server 之间是没有任何通讯联系的，每个 Server 只是对自己的数据进行管理。Client 端通过指定 Server 端的 ip 地址(通过域名应该也可以)。需要缓存的对象或数据是以 key->value 对的形式保存在Server端。key 的值通过 hash 进行转换，根据 hash 值把 value 传递到对应的具体的某个 Server 上。当需要获取对象数据时，也根据 key 进行。首先对 key 进行 hash，通过获得的值可以确定它被保存在了哪台 Server 上，然后再向该 Server 发出请求。Client 端只需要知道保存 hash(key) 的值在哪台服务器上就可以了。

        其实说到底，memcache 的工作就是在专门的机器的内存里维护一张巨大的 hash 表，来存储经常被读写的一些数组与文件，从而极大的提高网站的运行效率。

3       如何使用
建立Manager类
package com.alisoft.sme.memcached;

import java.util.Date;

import com.danga.MemCached.MemCachedClient;
import com.danga.MemCached.SockIOPool;

public class MemCachedManager {

// 创建全局的唯一实例
protected static MemCachedClient mcc = new MemCachedClient();

protected static MemCachedManager memCachedManager = new MemCachedManager();

// 设置与缓存服务器的连接池
static {
   // 服务器列表和其权重
   String[] servers = { "127.0.0.1:11211" };
   Integer[] weights = { 3 };

   // 获取socke连接池的实例对象
   SockIOPool pool = SockIOPool.getInstance();

   // 设置服务器信息
   pool.setServers(servers);
   pool.setWeights(weights);

   // 设置初始连接数、最小和最大连接数以及最大处理时间
   pool.setInitConn(5);
   pool.setMinConn(5);
   pool.setMaxConn(250);
   pool.setMaxIdle(1000 * 60 * 60 * 6);

   // 设置主线程的睡眠时间
   pool.setMaintSleep(30);

   // 设置TCP的参数，连接超时等
   pool.setNagle(false);
   pool.setSocketTO(3000);
   pool.setSocketConnectTO(0);

   // 初始化连接池
   pool.initialize();

   // 压缩设置，超过指定大小（单位为K）的数据都会被压缩
   mcc.setCompressEnable(true);
   mcc.setCompressThreshold(64 * 1024);
}

/**
* 保护型构造方法，不允许实例化！
*
*/
protected MemCachedManager() {

}

/**
* 获取唯一实例.
*
* @return
*/
public static MemCachedManager getInstance() {
   return memCachedManager;
}

/**
* 添加一个指定的值到缓存中.
*
* @param key
* @param value
* @return
*/
public boolean add(String key, Object value) {
   return mcc.add(key, value);
}

public boolean add(String key, Object value, Date expiry) {
   return mcc.add(key, value, expiry);
}

public boolean replace(String key, Object value) {
   return mcc.replace(key, value);
}

public boolean replace(String key, Object value, Date expiry) {
   return mcc.replace(key, value, expiry);
}

/**
* 根据指定的关键字获取对象.
*
* @param key
* @return
*/
public Object get(String key) {
   return mcc.get(key);
}

public static void main(String[] args) {
   MemCachedManager cache = MemCachedManager.getInstance();
   cache.add("hello", 234);
   System.out.print("get value : " + cache.get("hello"));
}
}

windows下memcache服务器启动

将memcache服务器安装包解压到C:\memcached文件夹后，使用cmd命令窗口安装。

1>开始>运行:CMD(确定)

2>cd C:\memcached（回车）

3>memcached -d install(回车这步执行安装)

4>memcached -d start(回车这步执行启动memcache服务器，默认分配64M内存，使用11211端口)

此时memcache服务器已经可以正常使用了。

memcache服务器安全：

Memcache服务器端都是直接通过客户端连接后直接操作，没有任何的验证过程，这样如果服务器是直接暴露在互联网上的话是比较危险，轻则数据泄露被其他无关人员查看，重则服务器被入侵，况且里面可能存在一些我们未知的bug或者是缓冲区溢出的情况，这些都是我们未知的，所以危险性是可以预见的。为了安全起见，做两点建议，能够稍微的防止黑客的入侵或者数据的泄露。

现在就关于修改memcache服务器配置的问题说明如下：

1>用内网ip的方式提供web应用服务器调用，不允许直接通过外网调用，如将memcache服务器放在192.168.1.55的服务器上

2>修改端口，如改为11200

3>分配内存，如分配1024M(1G内存)

方法如下：

1>开始>运行:CMD(确定)

2>cd C:\memcached（回车）

3>memcached -m 1024 -p 11200 -l 192.168.1.55(回车)

注意，此时命令行不会回到C:\memcached>状态，并且实际上memcache服务器悄悄变为stop状态了。此窗口不可以关闭。新开一个cmd窗口

4>开始>运行:CMD(确定)

5>cd C:\memcached（回车）

6>memcached -d start(回车)可以关闭此cmd窗口。

此时可以使用新配置的memcache服务器了。

上述方法虽然解决了修改默认配置的问题，但是始终会有一个cmd窗口不可以关闭，否则就回到11211端口的默认配置。

更好的解决方案是通过修改服务的注册表配置：

1>开始>运行：regedit(回车)

2>在注册表中找到：HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\memcached Server

3>默认的ImagePath键的值是："c:\memcached\memcached.exe" -d runservice，改为："c:\memcached\memcached.exe" -d runservice -m 512 -p 11200 -l 192.168.1.55（确定，关闭注册表）

4>我的电脑（右键）>管理>服务找到memcache的服务，重新启动一次即可生效。

<script type="text/javascript"> </script><script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script>
此时，同网段内的电脑仍然可以利用这台memcache服务器，我们限定指定的web应用服务器才能够使用，通过防火墙的方式。如只允许192.168.1.2这台Web服务器对Memcache服务器的访问，能够有效的阻止一些非法访问，相应的也可以增加一些其他的规则来加强安全性，这个可以根据自己的需要来做。

分析Memcached客户端如何把缓存数据分布到多个服务器上

Memcached客户端可以设多个memcached服务器,它是如何把数据分发到各个服务器上，而使各个服务器负载平衡的呢？

可以看看.net版中的客户端中的源码，就可以知道先看代码：

获取Socket连接代码
1 /// <summary>
2         /// Returns appropriate SockIO object given
3         /// string cache key and optional hashcode.
4         ///
5         /// Trys to get SockIO from pool. Fails over
6         /// to additional pools in event of server failure.
7         /// </summary>
8         /// <param name="key">hashcode for cache key</param>
9         /// <param name="hashCode">if not null, then the int hashcode to use</param>
10         /// <returns>SockIO obj connected to server</returns>
11         public SockIO GetSock(string key, object hashCode)
12         {
13             string hashCodeString = "<null>";
14             if(hashCode != null)
15                 hashCodeString = hashCode.ToString();
16
17             if(Log.IsDebugEnabled)
18             {
19                 Log.Debug(GetLocalizedString("cache socket pick").Replace("$$Key$$", key).Replace("$$HashCode$$", hashCodeString));
20             }
21
22             if (key == null || key.Length == 0)
23             {
24                 if(Log.IsDebugEnabled)
25                 {
26                     Log.Debug(GetLocalizedString("null key"));
27                 }
28                 return null;
29             }
30
31             if(!_initialized)
32             {
33                 if(Log.IsErrorEnabled)
34                 {
35                     Log.Error(GetLocalizedString("get socket from uninitialized pool"));
36                 }
37                 return null;
38             }
39
40             // if no servers return null
41             if(_buckets.Count == 0)
42                 return null;
43
44             // if only one server, return it
45             if(_buckets.Count == 1)
46                 return GetConnection((string)_buckets[0]);
47
48             int tries = 0;
49
50             // generate hashcode
51             int hv;
52             if(hashCode != null)
53             {
54                 hv = (int)hashCode;
55             }
56             else
57             {
58
59                 // NATIVE_HASH = 0
60                 // OLD_COMPAT_HASH = 1
61                 // NEW_COMPAT_HASH = 2
62                 switch(_hashingAlgorithm)
63                 {
64                     case HashingAlgorithm.Native:
65                         hv = key.GetHashCode();
66                         break;
67
68                     case HashingAlgorithm.OldCompatibleHash:
69                         hv = OriginalHashingAlgorithm(key);
70                         break;
71
72                     case HashingAlgorithm.NewCompatibleHash:
73                         hv = NewHashingAlgorithm(key);
74                         break;
75
76                     default:
77                         // use the native hash as a default
78                         hv = key.GetHashCode();
79                         _hashingAlgorithm = HashingAlgorithm.Native;
80                         break;
81                 }
82             }
83
84             // keep trying different servers until we find one
85             while(tries++ <= _buckets.Count)
86             {
87                 // get bucket using hashcode
88                 // get one from factory
89                 int bucket = hv % _buckets.Count;
90                 if(bucket < 0)
91                     bucket += _buckets.Count;
92
93                 SockIO sock = GetConnection((string)_buckets[bucket]);
94
95                 if(Log.IsDebugEnabled)
96                 {
97                     Log.Debug(GetLocalizedString("cache choose").Replace("$$Bucket$$", _buckets[bucket].ToString()).Replace("$$Key$$", key));
98                 }
99
100                 if(sock != null)
101                     return sock;
102
103                 // if we do not want to failover, then bail here
104                 if(!_failover)
105                     return null;
106
107                 // if we failed to get a socket from this server
108                 // then we try again by adding an incrementer to the
109                 // current key and then rehashing
110                 switch(_hashingAlgorithm)
111                 {
112                     case HashingAlgorithm.Native:
113                         hv += ((string)("" + tries + key)).GetHashCode();
114                         break;
115
116                     case HashingAlgorithm.OldCompatibleHash:
117                         hv += OriginalHashingAlgorithm("" + tries + key);
118                         break;
119
120                     case HashingAlgorithm.NewCompatibleHash:
121                         hv += NewHashingAlgorithm("" + tries + key);
122                         break;
123
124                     default:
125                         // use the native hash as a default
126                         hv += ((string)("" + tries + key)).GetHashCode();
127                         _hashingAlgorithm = HashingAlgorithm.Native;
128                         break;
129                 }
130             }
131
132             return null;
133         }
134

上面代码是代码文件SockIOPool.cs中的一个方法，从方法签名上可以看出，获取一个socket连接是根据需要缓存数据的唯一键和它的哈希值，因为缓存的数据的键值是唯一的，所以它的哈希代码也是唯一的；

       再看看上面方法中的以下代码：

         int bucket = hv % _buckets.Count;

                if(bucket < 0)

                    bucket += _buckets.Count;

                SockIO sock = GetConnection((string)_buckets[bucket]);

具体的选择服务器的算法是：唯一键值的哈希值与存放服务器列表中服务器（服务器地址记录不是唯一的）的数量进行模数运算来选择服务器的地址的。所以数据缓存在那台服务器取决于缓存数据的唯一键值所产生的哈希值和存放服务器列表中服务器的数量值，所以访问memcached服务的所有客户端操作数据时都必须使用同一种哈希算法和相同的服务器列表配置，否则就会或取不到数据或者重复存取数据。由于不同数据的唯一键所对应的哈希值不同，所以不同的数据就有可能分散到不同的服务器上，达到多个服务器负载平衡的目的。

    如果几台服务器当中，负载能力各不同，想根据具体情况来配置各个服务器负载作用，也是可以做到的。看上面代码，可以知道程序是从_buckets中获取得服务器地址的，_buckets存放着服务器的地址信息，服务器地址在_bucket列表中并不是唯一的，它是可以有重复记录的。相同的服务器地址在_bucket重复记录越多，它被选中的机率就越大，相应负载作用也就越大。

   怎么设置服务器让它发挥更大的负载作用,如下面代码：

        String[] serverlist = {"192.168.1.2:11211", "192.168.1.3:11211"};

        int[] weights   = new int[]{5, 2};

        SockIOPool pool = SockIOPool.GetInstance();

        pool.SetServers(serverlist);

        pool.SetWeights(weights);

         pool.Initialize();

    pool.SetWeights(weights)方法就是设配各个服务器负载作用的系数，系数值越大，其负载作用也就越大。如上面的例子，就设服务器192.168.1.2的负载系数为5,服务器192.168.1.3的负载系数为2,也就说服务器192.168.1.2 比192.168.1.3的负载作用大。

程序中根据缓存数据中的唯一键标识的哈希值跟服务器列表中服务器记录数量求模运算来确定数据的缓存的位置的方法，算法的优点：能够把数据匀均的分散到各个服务器上数据服务器负载平衡，当然也可以通过配置使不同服务器有不同的负载作用。但也有缺点：使同类的数据过于分散，同个模块的数据都分散到不同的数据，不好统一管理和唯护；比如：现在有A、B、C、D四台服务器一起来做缓存服务器，数月后C台服务器突然死掉不可用啦，那么按算法缓存在C台服务器的数据都不可用啦，但客户端还是按原来的四台服务器的算法来取操作数据，所以分布在C服务上的数据在C服务器恢复可用之前都不可用，都必须从数据库中读取数据，并且不能添加到缓存中，因为只要缓存数据的Key不变，它还是会被计算分配到C服务器上。如果想把分配到C服务器就必须全部初始化A、B、D三台服务器上的所有数据，并把C服务器从服务器列表中移除。

如果我们能够把数据分类分布到各个服务器中，同类型的数据分布到相同的服务器；比如说，A服务器存放用户日志模块信息，B服务器存放用户相册模块信息，C服务器存放音乐模块信息，D服务器存放用户基础信息。如果C服务器不可用后，就可以更改下配置使它存放在其它服务器当中，而且并不影响其它服务器的缓存信息。

解决方法1:不同的模块使用不同memcached客户端实例，这样不同模块就可以配置不同的服务器列表，这样不同模块的数据就缓存到了不同的服务器中。这样，当某台服务器不可用后，只会影响到相应memcached客户端实例的数据，而不会影响到其它客户端实例的数据。

解决方法2：修改或添加新的算法，并在数据唯一键中添加命名空间，算法根据配置和数据唯一键中命名空间来选择不同的Socket连接，也就是服务器啦。

数据项唯一键(key)的定义：命名空间.数据项ID，就跟编程中的” 命名空间”一样,经如说用户有一篇日志的ID是”999999”, 那么这条篇日志的唯一键就是:Sns.UserLogs.Log.999999,当然我们存贮的时候考虑性能问题，可以用一个短的数值来代替命名空间。这样在选择Socket的时候就可以根据数据项中的唯一键来选择啦。