作者:Martin Thompson 译者:丁一
缓存系统中是以缓存行(cache line)为单位存储的。缓存行是2的整数幂个连续字节,一般为32-256个字节。最常见的缓存行大小是64个字节。当多线程修改互相独立的变量时,如果这些变量共享同一个缓存行,就会无意中影响彼此的性能,这就是伪共享。缓存行上的写竞争是运行在SMP系统中并行线程实现可伸缩性最重要的限制因素。有人将伪共享描述成无声的性能杀手,因为从代码中很难看清楚是否会出现伪共享。
为了让可伸缩性与线程数呈线性关系,就必须确保不会有两个线程往同一个变量或缓存行中写。两个线程写同一个变量可以在代码中发现。为了确定互相独立的变量是否共享了同一个缓存行,就需要了解内存布局,或找个工具告诉我们。Intel VTune就是这样一个分析工具。本文中我将解释Java对象的内存布局以及我们该如何填充缓存行以避免伪共享。
|
图 1. |
图1说明了伪共享的问题。在核心1上运行的线程想更新变量X,同时核心2上的线程想要更新变量Y。不幸的是,这两个变量在同一个缓存行中。每个线程都要去竞争缓存行的所有权来更新变量。如果核心1获得了所有权,缓存子系统将会使核心2中对应的缓存行失效。当核心2获得了所有权然后执行更新操作,核心1就要使自己对应的缓存行失效。这会来来回回的经过L3缓存,大大影响了性能。如果互相竞争的核心位于不同的插槽,就要额外横跨插槽连接,问题可能更加严重。
Java内存布局(Java Memory Layout)
对于HotSpot JVM,所有对象都有两个字长的对象头。第一个字是由24位哈希码和8位标志位(如锁的状态或作为锁对象)组成的Mark Word。第二个字是对象所属类的引用。如果是数组对象还需要一个额外的字来存储数组的长度。每个对象的起始地址都对齐于8字节以提高性能。因此当封装对象的时候为了高效率,对象字段声明的顺序会被重排序成下列基于字节大小的顺序:
- doubles (8) 和 longs (8)
- ints (4) 和 floats (4)
- shorts (2) 和 chars (2)
- booleans (1) 和 bytes (1)
- references (4/8)
- <子类字段重复上述顺序>
(译注:更多HotSpot虚拟机对象结构相关内容:http://www.infoq.com/cn/articles/jvm-hotspot)
了解这些之后就可以在任意字段间用7个long来填充缓存行。在Disruptor里我们对RingBuffer的cursor和BatchEventProcessor的序列进行了缓存行填充。
为了展示其性能影响,我们启动几个线程,每个都更新它自己独立的计数器。计数器是volatile long类型的,所以其它线程能看到它们的进展。
01 |
public final class FalseSharing
|
04 |
public final static int NUM_THREADS = 4 ;
|
05 |
public final static long ITERATIONS = 500L * 1000L * 1000L;
|
06 |
private final int arrayIndex;
|
08 |
private static VolatileLong[] longs = new VolatileLong[NUM_THREADS];
|
11 |
for ( int i = 0 ; i < longs.length; i++)
|
13 |
longs[i] = new VolatileLong();
|
17 |
public FalseSharing( final int arrayIndex)
|
19 |
this .arrayIndex = arrayIndex;
|
22 |
public static void main( final String[] args) throws Exception
|
24 |
final long start = System.nanoTime();
|
26 |
System.out.println( "duration = " + (System.nanoTime() - start));
|
29 |
private static void runTest() throws InterruptedException
|
31 |
Thread[] threads = new Thread[NUM_THREADS];
|
33 |
for ( int i = 0 ; i < threads.length; i++)
|
35 |
threads[i] = new Thread( new FalseSharing(i));
|
38 |
for (Thread t : threads)
|
43 |
for (Thread t : threads)
|
51 |
long i = ITERATIONS + 1 ;
|
54 |
longs[arrayIndex].value = i;
|
58 |
public final static class VolatileLong
|
60 |
public volatile long value = 0L;
|
61 |
public long p1, p2, p3, p4, p5, p6;
|
结果(Results)
运行上面的代码,增加线程数以及添加/移除缓存行的填充,下面的图2描述了我得到的结果。这是在我4核Nehalem上测得的运行时间。
|
图 2. |
从不断上升的测试所需时间中能够明显看出伪共享的影响。没有缓存行竞争时,我们几近达到了随着线程数的线性扩展。
这并不是个完美的测试,因为我们不能确定这些VolatileLong会布局在内存的什么位置。它们是独立的对象。但是经验告诉我们同一时间分配的对象趋向集中于一块。
所以你也看到了,伪共享可能是无声的性能杀手。
- 大小: 24.2 KB
- 大小: 7.7 KB
分享到:
相关推荐
Chapter 2. The Challenge: Sharing Data Safely Chapter 3. Data on a Need-to-Know Basis Chapter 4. Fake Data Gives Real Answers Chapter 5. Fixing a Broken Large-Scale Query Chapter 6. Fraud Detection ...
1.2 缓存行的概念1.3 伪共享(False Sharing)的概念 + 其可能引发的性能问题2 如何避免伪共享 — 数据填充2.1 不使用数据填充时的效率验证2.2 手动进行数据填充的效率验证2.3 通过java8新特性@sun.misc.Contended...
SAP.on.DB2.for.zOS.and.OS390.High.Availability.and.Performance.Monitoring.with.Data.Sharing
Video12.Demo2.PortSharing
“Bike Sharing”数据集,在不同情况(季节、月份、时间、假日、星期、工作日、天气、温度、体感温度、湿度、风速等)每个小时的租用数量。
Chapter 2. Storage and Database Management for Big Data Chapter 3. Performance Evaluation of Protocols for Big Data Transfers Chapter 4. Challenges in Crawling the Deep Web Chapter 5. Big Data and ...
It is designed especially for time-sharing systems. The ready queue is treated as a circular queue. The algorithm assigns a time slice(also called time quantum) to each process in the ready queue in ...
VirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器.zipVirtualHereUSB共享器....
z这是图像分快的程序,还是挺好的,我们都用过
Easy File Sharing Web Server允许用户不需要任何附加的软件或服务就可以架设一个安全的、基于网页的P2P文件分享、传输系统。 除了HTML网页界面设计,Easy File Sharing Web Server还可以让你直接在自己的PC上快速架...
一个实际的p2p_jxta应该例子,可实现对话,搜索,文件共享等功能。
对于传统的单核CPU计算机,多任务操作系统的实现是通过CPU分时(time-sharing)和程序并发(concurrency)完成的。即在一个时间段内,操作系统将CPU分配给不同的程序,虽然每一时刻只有一个程序在CPU中运行,但是...
com.phonegap.plugins.sharing 仅Android,iOS即将推出
并联电源的负载共享 load sharing,设计与介绍,多用在复杂通信、工业设备设计应用时,电源的备份,电源使用效率优化设计
power sharing method with droop controler
北京市2014-2017年,共享单车数据 数据类型 timestamp cnt t1 t2 hum wind_speed weather_code is_holiday is_weekend season
选修七Unit4 Sharing Period 2.doc
点对点P2P文件共享客户端,vb实现用户查找文件的功能
Coneecta.com的用户可以在教室中共享任何桌面应用程序的实时视频 Uns herramienta para los usuarios de Coneecta.com para compartir video entiempo real de cualquieraplicaciónde escritorio dentro de una ...
清单。用于屏幕共享的json。 本地机器上的Eguru 支持语言:English (United States)