2015年6月

spinlock(自旋锁)和mutex(互斥锁)的区别(转)

首先spinlock是只有在内核态才有的,当然你也可以在用户态自己实现,但是如果想要调用spinlock_t类型,那只有内核态才有。但是semaphore是内核态和用户态都有的,mutex是一种特殊的semaphore。

spinlock是一种忙等待,也就是说,进程是不会睡眠的,只是一直在那里死循环。而mutex是睡等,也就是说,如果拿不到临界资源,那它会选择进程睡眠。那什么时候用spinlock,什么时候用mutex呢?首先,如果是在不允许睡眠的情况下,只能只用spinlock,比如中断的时候。然后如果临界区中执行代码的时间小于进程上下文切换的时间,那应该使用spinlock。反之应该使用mutex。

那mutex和semaphore有什么区别呢?mutex是用作互斥的,而semaphore是用作同步的。也就是说,mutex的初始化一定是为1,而semaphore可以是任意的数,所以如果使用mutex,那第一个进入临界区的进程一定可以执行,而其他的进程必须等待。而semaphore则不一定,如果一开始初始化为0,则所有进程都必须等待。同时mutex和semaphore还有一个区别是,获得mutex的进程必须亲自释放它,而semaphore则可以一个进程获得,另一个进程释放。

PHP7中变量的内部实现(一)(译)

PHP7中变量的内部实现(一)

最近的一边文章中提到的 提高hashtable的效率 已经被引入到PHP7,今天这篇文章简要描述下PHP新的变量形式。

由于内容很多,所以分为两部分:这部分说zval在PHP5和PHP7的不同,也会讨论一下引用的改进。第二部分会详细说一下类型的实现,比如字符串和对象。

PHP5 的 Zvals

PHP5定义的zval结构:

typedef struct _zval_struct {
    zvalue_value value;
    zend_uint refcount__gc;
    zend_uchar type;
    zend_uchar is_ref__gc;
} zval;

显而易见,一个zval包含一个value,一个type,和两个__gc信息。其中的value是一个能存任何变量的联合体:

typedef union _zvalue_value {
    long lval;                 // 布尔型 整形 资源
    double dval;               // 浮点型
    struct {                   // 字符串型
        char *val;
        int len;
    } str;
    HashTable *ht;             // 数组
    zend_object_value obj;     // 对象
    zend_ast *ast;             // 常量表达式
} zvalue_value;

C联合体在某一时刻只能有一个成员有效,并且联合体的大小就是这个成员的大小,所以节约内存。所有的联合成员会被存储在同一个地方,并且值是由你决定的。当你读lval成员的时候,值就是有符号的整形。当你读dval成员的时候,值就是一个双精度的浮点数.

想知道当前到底是什么类型,zval存了一个类型标示,这个type标示是用一个整数表示的:

#define IS_NULL     0      /* 空 */
#define IS_LONG     1      /* 长整型 */
#define IS_DOUBLE   2      /* 浮点型 */
#define IS_BOOL     3      /* 布尔型 */
#define IS_ARRAY    4      /* hashtable */
#define IS_OBJECT   5      /* 对象 */
#define IS_STRING   6      /* 字符串 */
#define IS_RESOURCE 7      /* 资源id 长整型 */

/* 延迟绑定常量 特殊类型*/
#define IS_CONSTANT 8
#define IS_CONSTANT_AST 9

PHP5中的引用计数

PHP5中的zval是分配在堆内存上的,PHP需要追踪哪些zval正在用,哪些zval需要释放,所以PHP才有引用计数的机制。zval中得refcount__gc存着被引用的次数。比如$a = $b = 42, 42就被两个变量引用了,所以refcount等于2。如果refcount等于0,那么表示这个值没有用了,可以释放了。

注意这里refcount说的引用和PHP引用(&)不是一回事。

和引用计数相关联的有一个“写时复制(copy on write)”的概念:zval在被改变前都是可以复用的。改变一个共享的变量时,都会复制出一个新的zval,改变的都是新的这个zval。

举一个写时复制的例子:

$a = 42;   // $a         -> zval_1(type=IS_LONG, value=42, refcount=1)
$b = $a;   // $a, $b     -> zval_1(type=IS_LONG, value=42, refcount=2)
$c = $b;   // $a, $b, $c -> zval_1(type=IS_LONG, value=42, refcount=3)

// 以下代码会导致写时复制
$a += 1;   // $b, $c -> zval_1(type=IS_LONG, value=42, refcount=2)
           // $a     -> zval_2(type=IS_LONG, value=43, refcount=1)

unset($b); // $c -> zval_1(type=IS_LONG, value=42, refcount=1)
           // $a -> zval_2(type=IS_LONG, value=43, refcount=1)

unset($c); // zval_1 被销毁了, 因为 refcount=0
           // $a -> zval_2(type=IS_LONG, value=43, refcount=1)

但是引用计数也有一个致命缺陷:不能检测并释放环形引用。所以PHP引入了一个"周期垃圾回收"的机制。无论zval的refcount怎么变,这个zval属于一个周期的一部分,zval写在一个“根缓冲区”里,如果跟缓冲区满了,就会对整个周期进行表示和垃圾回收。

为了支持周期垃圾回收器,zval实际上是这样:

typedef struct _zval_gc_info {
    zval z;
    union {
        gc_root_buffer       *buffered;
        struct _zval_gc_info *next;
    } u;
} zval_gc_info;

zval_gc_info包含了一个zval和一个额外的指针-u,u是一个联合体,所以这个指针可以指向两个不同的类型。buffered指针用来指向zval被引用的根缓冲区,所以如果在周期垃圾回收器回收之前变量被删除的话,这个指针也就没有了。next在垃圾回收器工作的时候起作用。

改变的动机

先讨论一下比特的大小(64位系统):首先,zvalue_value联合体有16个字节,因为strobj都是这么大,整个zval结构体是24字节,zval_gc_info是32字节。除了上面这些,在堆上申请一个zval的时候还需要额外的16字节。所以最终每个zval用了48字节-即使这个zval在很多都放都被使用了。

所以我们开始考虑为什么这个zval不高效。因为zval存整形的时候,整数本身占用8字节,此外,类型标示是必须的,即使很简单,但是也会填充到另外的8字节。

所以实际需要16字节来存储,再需要16字节来存引用计数和垃圾回收和16字节内存分配开销。更不用说我们真正的执行分配和释放,这都是高代价的操作。

这就产生了一个问题:一个简单的整形变量真的要这么复杂吗?引用计数、周期垃圾回收、堆分配值?答案当时是:否,因为这些都没什么卵用。

这里列举一下PHP5的zval存在的主要问题:

  • zval总是需要申请堆内存
  • zval总是有引用计数和周期垃圾回收信息,即使是在不值得共享的值(整形)和不能被循环的情况下。
  • 在zval是对象和资源时,直接引用计数会导致双倍引用计数。这背后的原因将在接下来的部分进行说明。
  • 一些情况会有大量的多重指针。比如访问一个变量中存储的对象时,会用到4级指针(这意味着连了个4个长度指针链)。这个在下部分再讨论。
  • 直接对zval引用计数意味着值只能在zval间共享,比如说,不可能在一个zval和一个hashtable的key之间共享一个字符串(在hashtable的key不是zval的情况下)。

PHP7 的 Zvals

PHP7带来了新的zval形式,其中最重要(根本)的改变就是zval不再是独立的堆分配内存了,也不再是自己带引用计数了。当然,复杂的值(比如字符串、数组、对象)可能会自己存储引用计数。所以有了以下优点:

  • 简单的值不需要分配也不需要引用计数了
  • 没有了双倍引用计数。对于对象来说,现在用的是对象内部计数了。
  • 由于现在引用计数是在值得内部,所以值的共享独立于zval结构了,一个字符串即可用于zval,也可以用于hashtable的key值。
  • 指针层数减少了,当你取值的时候需要跟踪的指针变少了

现在来看看新的zval长什么样子:

struct _zval_struct {
    zend_value value;
    union {
        struct {
            ZEND_ENDIAN_LOHI_4(
                zend_uchar type,
                zend_uchar type_flags,
                zend_uchar const_flags,
                zend_uchar reserved)
        } v;
        uint32_t type_info;
    } u1;
    union {
        uint32_t var_flags;
        uint32_t next;                 // 哈希冲突链
        uint32_t cache_slot;           // 字面量缓存槽
        uint32_t lineno;               // 抽象语法树的行号
        uint32_t num_args;             // EX参数的个数
        uint32_t fe_pos;               // foreach 当前的位置
        uint32_t fe_iter_idx;          // foreach 迭代的 index
    } u2;
};

第一个成员还是一个value的联合体。第二个成员是存了一个类型信息的整数,这里用联合体分成了独立的字节(先忽略ZEND_ENDIAN_LOHI_4宏,这是为了兼容各个字节顺序不同的平台)。这个子结构中重要的部分是type(和PHP5的差不多)和type_flags,这个接下来再详细说。

那么这里就有一个小问题:value是8个字节,由于结构填充加上一个字节也才16个字节。然而我们明显不需要8字节存类型。这就是为什么需要u2这个联合体了,这个默认是没有被使用的,但仍然可以被利用起来存储4个字节的数据。不同的联合成员对应着不同的额外数据槽用途。

PHP7中得value应该是下面这个样子的:

typedef union _zend_value {
    zend_long         lval;
    double            dval;
    zend_refcounted  *counted;
    zend_string      *str;
    zend_array       *arr;
    zend_object      *obj;
    zend_resource    *res;
    zend_reference   *ref;
    zend_ast_ref     *ast;

    // 下面的有点特殊,暂时忽略
    zval             *zv;
    void             *ptr;
    zend_class_entry *ce;
    zend_function    *func;
    struct {
        ZEND_ENDIAN_LOHI(
            uint32_t w1,
            uint32_t w2)
    } ww;
} zend_value;

首先,value的大小是8字节而不是16了。只有整形lvaldval是直接存的值,其他所有的都是一个指针。所有的指针的类型用了引用计数并且有公共的头,这个是在zend_refcounted定义的:

struct _zend_refcounted {
    uint32_t refcount;
    union {
        struct {
            ZEND_ENDIAN_LOHI_3(
                zend_uchar    type,
                zend_uchar    flags,
                uint16_t      gc_info)
        } v;
        uint32_t type_info;
    } u;
};

当然这个结构体中包含了引用计数。此外,还有一个type,flagsgc_info。这个type其实就是zval的类型,这就允许垃圾回收器区分不同的引用计数结构而不用存一个zval。flags在不同的类型中会有不同的作用,这个稍后再说。

这个gc_info和PHP5 zval的buffered差不多。然后,和以往存一个指向根缓冲区的指针不同的是现在包含了一个跟缓冲区的索引。因为根缓冲区现在能有10000个元素还包含了,所以用一个16位的数字就够了,而不用一个64位ude指针了。gc_info还对节点的“颜色”进行了编码,用来在回收的时候标记节点用。

Zval 内存管理

之前提到说zval不再单独申请堆内存了。但是他们总还是要存在某个地方吧,所以这里是怎么回事呢?尽管zvals大部分都是堆分配内存结构,但是现在是直接嵌入了。举例说:一个hashtable的bucket直接嵌入一个zval而不是存了一个指针指向zval。这就是说,一个对象的属性表和方法里面的已编辑变量表都会是以zval数组的形式存在一个块,而不是存了一堆指向独立的zval的指针。所以这些zvals就少了一级的指针,也就是以前是zval *,现在是zval.

当zval在一个新的地方使用时,在以前就意味着要复制一个zval *然后refcount加1。然而现在是复制zval的内容(忽略u2)并且它指向的refcount可能会加1(如果这个value用了引用计数的话)。

PHP是怎么知道一个值有没有引用过呢?这不能完全由类型决定,因为一些类型比如字符串和数组并不总是被引用啊。实际上zval的type_info成员决定着zval是否被引用了。这里把type其他的位的特征列出来:

#define IS_TYPE_CONSTANT            (1<<0)   /* special */
#define IS_TYPE_IMMUTABLE           (1<<1)   /* special */
#define IS_TYPE_REFCOUNTED          (1<<2)
#define IS_TYPE_COLLECTABLE         (1<<3)
#define IS_TYPE_COPYABLE            (1<<4)
#define IS_TYPE_SYMBOLTABLE         (1<<5)   /* special */

type中主要的3个特征位是"refcounted","collectable"和"copyable"。refcounted啥意思应该知道了吧。collectable是说在一个周期内可用。比如说,字符串经常被应用,但是不能把字符串纳入一个周期。

copyable决定了在“复制”的时候是否需要拷贝。一个复制是一个硬拷贝,比如说,当要复制一个指向数组的zval时,这里不是简单的refcount+1。而是一个独立的数组会被新建。然后对于一些类型比如说对象和资源,一次复制就是refcount+1,这些类型被叫做non-copyable。这就是对象和资源的按值传递(不按引用传递)。

下面的这个表格展示了不同类型使用什么类型标示。“简单类型”指的是整形和布尔型,他们没有指向一个独立的结构。表中还有一列"immutable"(不可改变的),这个是用来标示不能改变的数组的,下部分再详细说。

Type           |refcounted |collectable|copyable   |immutable  
---------------+-----------+-----------+--------------------- 
simple types   |           |           |           |           
string         | x         |           | x         |           
intered string |           |           |           |           
array          | x         | x         | x         |           
immutable array|           |           |           | x         
object         | x         | x         |           |           
resource       | x         |           |           |           
reference      | x         |           |           |           

下面,举两个例子来实际看看zval怎么管理的。
首先,先看一下的整形吧,这个和PHP5就不同了。

$a = 42;   // $a = zval_1(type=IS_LONG, value=42)

$b = $a;   // $a = zval_1(type=IS_LONG, value=42)
           // $b = zval_2(type=IS_LONG, value=42)

$a += 1;   // $a = zval_1(type=IS_LONG, value=43)
           // $b = zval_2(type=IS_LONG, value=42)

unset($a); // $a = zval_1(type=IS_UNDEF)
           // $b = zval_2(type=IS_LONG, value=42)

就像这样,整形不再被共享,两个变量用了两个独立的zval。千万要记住,现在这两个zval就内建的而不是向堆内存申请的,所以现在内部使用=而不是->指针来表示啦。没有设置的变量的话,zval就会被设置为IS_UNDEF。这样一些复杂的值就会有一些有趣的东西了:

$a = [];   // $a = zval_1(type=IS_ARRAY) -> zend_array_1(refcount=1, value=[])

$b = $a;   // $a = zval_1(type=IS_ARRAY) -> zend_array_1(refcount=2, value=[])
           // $b = zval_2(type=IS_ARRAY) ---^

// 这里zval就会不同了 写时复制
$a[] = 1   // $a = zval_1(type=IS_ARRAY) -> zend_array_2(refcount=1, value=[1])
           // $b = zval_2(type=IS_ARRAY) -> zend_array_1(refcount=1, value=[])

unset($a); // $a = zval_1(type=IS_UNDEF) and zend_array_2 is destroyed
           // $b = zval_2(type=IS_ARRAY) -> zend_array_1(refcount=1, value=[])

这里每个变量依旧是一个独立的zval,但是两个zval都指向的同一个(引用计数的)zend_array结构。一旦有改变,这个数组就会被复制。这个模式和PHP5的相似。

类型

先见识一下PHP7中支持的类型吧:

// 普通类型
#define IS_UNDEF                    0
#define IS_NULL                     1
#define IS_FALSE                    2
#define IS_TRUE                     3
#define IS_LONG                     4
#define IS_DOUBLE                   5
#define IS_STRING                   6
#define IS_ARRAY                    7
#define IS_OBJECT                   8
#define IS_RESOURCE                 9
#define IS_REFERENCE                10

// 常量表达式
#define IS_CONSTANT                 11
#define IS_CONSTANT_AST             12

// 内部类型
#define IS_INDIRECT                 15
#define IS_PTR                      17

这个列表和PHP5的也差不多,但是还是有几个新东西的:

  • IS_UNDEF被引入了,如果zval先前的指针是NULL的话,就会用这个(不要和IS_NULL搞混了,这两个没关系)。举个例子,在有引用计数的情况下,如果unset掉这个变量的话,那么就会被设置成IS_UNDEF
  • IS_BOOL被分开成IS_FALSEIS_TRUE。布尔变量的值就是这两,这个有助于基于类型检测的优化。这个变化对用户是透明的,因为这里其实还是只有一个boolean类型。
  • PHP的变量引用(不是引用计数)不再使用is_ref了,而是用了IS_REFERENCE类型来替代。这个是怎么工作的下次再说。
  • IS_INDIRECTIS_PTR类型是内部使用的。

IS_LONG类型现在用一个zend_long值而不是一个原生的C long型,这背后的原因是因为在64位的Windows上,long只有32bit,所以PHP5在Windows上用的都是32位的整数。PHP7允许使用64bit的数字(如果你是64位操作系统的话),即使你是Window系统。

zend_refcounted类型下部分再说。现在来看一下PHP的引用。

引用

PHP7引入了完全不同于PHP5的引用&机制(我现在可以告诉你这个变化是PHP7最大的bug来源之一)。先看一下PHP5的引用吧。

常规来说,写时复制原则意思是在改变一个zval的时候,zval就会被复制成独立的,为了不让改变这个共享值,所以都是按值传递的。

对于PHP来说这并不适用。如果有一个PHP的引用值,你想改变所有用这个值得变量。PHP5的zval中is_ref就决定着这个值是不是引用和是不是需要写时复制。举个例子:

$a = [];  // $a     -> zval_1(type=IS_ARRAY, refcount=1, is_ref=0) -> HashTable_1(value=[])
$b =& $a; // $a, $b -> zval_1(type=IS_ARRAY, refcount=2, is_ref=1) -> HashTable_1(value=[])

$b[] = 1; // $a = $b = zval_1(type=IS_ARRAY, refcount=2, is_ref=1) -> HashTable_1(value=[1])
          //因为 is_ref=1 PHP 就不会去复制这个值

这种设计一个重要的问题就是不能在引用和非引用的变量间共享值。举个例子吧:

$a = [];  // $a         -> zval_1(type=IS_ARRAY, refcount=1, is_ref=0) -> HashTable_1(value=[])
$b = $a;  // $a, $b     -> zval_1(type=IS_ARRAY, refcount=2, is_ref=0) -> HashTable_1(value=[])
$c = $b   // $a, $b, $c -> zval_1(type=IS_ARRAY, refcount=3, is_ref=0) -> HashTable_1(value=[])

$d =& $c; // $a, $b -> zval_1(type=IS_ARRAY, refcount=2, is_ref=0) -> HashTable_1(value=[])
          // $c, $d -> zval_1(type=IS_ARRAY, refcount=2, is_ref=1) -> HashTable_2(value=[])
          // $d是$c的引用,而不是$a和$b的,所以zval需要复制。
          // 现在 is_ref=0 和 is_ref=1 都是有同一个独立zval(2个)

$d[] = 1; // $a, $b -> zval_1(type=IS_ARRAY, refcount=2, is_ref=0) -> HashTable_1(value=[])
          // $c, $d -> zval_1(type=IS_ARRAY, refcount=2, is_ref=1) -> HashTable_2(value=[1])
          // 因为是两个独立的zval,所以 $d[]=1 并不会改变 $a 和 $b

这就是为什么在PHP里面用引用比用普通变量慢得原因之一。举一个不太恰当问例子来说明这个问题:

$array = range(0, 1000000);
$ref =& $array;
var_dump(count($array)); // <-- 这里有一个复制

因为count()接受一个按值传递的值,但是$array是一个引用了,所以在传给count()之前就有一个全量的拷贝。如果$array不是一个引用的话,那么这个值就是共享的。

现在转到PHP7的引用实现。由于zval不再是独立申请的,所以PHP5中的方法就不能用了。取而代之的是IS_REFERENCE类型被引入啦,它的结构是这样的:

struct _zend_reference {
    zend_refcounted   gc;
    zval              val;
};

所以zend_reference本质上是一个有引用计数的zval。所有的引用变量zval,都有一个IS_REFERENCE指向同一个zend_reference实例。这个zval val和其他的zval是一样的,它也可以共享它指向的任何复杂的值。也即是说可以在一个普通变量和一个引用变量共享一个数组了。

再来看一下代码,这次再看PHP的语法。为了简单起见,这里就只展示大概:

$a = [];  // $a                                     -> zend_array_1(refcount=1, value=[])
$b =& $a; // $a, $b -> zend_reference_1(refcount=2) -> zend_array_1(refcount=1, value=[])

$b[] = 1; // $a, $b -> zend_reference_1(refcount=2) -> zend_array_1(refcount=1, value=[1])

通过引用传递的时候,创建了一个新的zend_reference。注意这里的refcount变成2了(因为这个引用里面有两个变量),但是值本身的refcount还是1(因为只有一个zend_reference指向他)。再看一个综合点的例子:

$a = [];  // $a         -> zend_array_1(refcount=1, value=[])
$b = $a;  // $a, $b,    -> zend_array_1(refcount=2, value=[])
$c = $b   // $a, $b, $c -> zend_array_1(refcount=3, value=[])

$d =& $c; // $a, $b                                 -> zend_array_1(refcount=3, value=[])
          // $c, $d -> zend_reference_1(refcount=2) ---^
          // 4个变量都共享一个值 即使有引用存在

$d[] = 1; // $a, $b                                 -> zend_array_1(refcount=2, value=[])
          // $c, $d -> zend_reference_1(refcount=2) -> zend_array_2(refcount=1, value=[1])
          // 只有这个时候zend_array才会复制,然后改变

所以和PHP5不同的是,所有的变量都可以共享同一个数组,不管有没有引用。只要某一个数组发生改变,才会单独复制。这就意味着PHP7可以安全的传递大的、引用数组给count(),他不会被复制。但是PHP引用依旧比其他常规的变量耗时,因为他需要新建一个zend_reference结构,并且指向他,并且通常不能在快速机器码中处理。

结束语

总结一下,PHP7中最大的改变就是zval不在单独从堆中分配,也不在自己存refcount了。但是复杂的类型(比如字符串,数组,对象)还是自己存了引用数量。这个会使PHP减少申请内存,减少指针层级,减少内存使用。

PS:
原文链接

字符串全角半角转换

/**
* 字符串全角半角转换
* @param $str
* @param $type TODBC:转换为半角;TOSBC,转换为全角
*/
private function convert_str_type($str, $type)
{
    $dbc = array( //全角字典
        '0' , '1' , '2' , '3' , '4' ,
        '5' , '6' , '7' , '8' , '9' ,
        'A' , 'B' , 'C' , 'D' , 'E' ,
        'F' , 'G' , 'H' , 'I' , 'J' ,
        'K' , 'L' , 'M' , 'N' , 'O' ,
        'P' , 'Q' , 'R' , 'S' , 'T' ,
        'U' , 'V' , 'W' , 'X' , 'Y' ,
        'Z' , 'a' , 'b' , 'c' , 'd' ,
        'e' , 'f' , 'g' , 'h' , 'i' ,
        'j' , 'k' , 'l' , 'm' , 'n' ,
        'o' , 'p' , 'q' , 'r' , 's' ,
        't' , 'u' , 'v' , 'w' , 'x' ,
        'y' , 'z' , '-' , ' ' , ':' ,
        '.' , ',' , '/' , '%' , '#' ,
        '!' , '@' , '&' , '(' , ')' ,
        '<' , '>' , '"' , ''' , '?' ,
        '[' , ']' , '{' , '}' , '\' ,
        '|' , '+' , '=' , '_' , '^' ,
        '¥' , '~' , '`'
    );
    $sbc = array( //半角字典
        '0', '1', '2', '3', '4',
        '5', '6', '7', '8', '9',
        'A', 'B', 'C', 'D', 'E',
        'F', 'G', 'H', 'I', 'J',
        'K', 'L', 'M', 'N', 'O',
        'P', 'Q', 'R', 'S', 'T',
        'U', 'V', 'W', 'X', 'Y',
        'Z', 'a', 'b', 'c', 'd',
        'e', 'f', 'g', 'h', 'i',
        'j', 'k', 'l', 'm', 'n',
        'o', 'p', 'q', 'r', 's',
        't', 'u', 'v', 'w', 'x',
        'y', 'z', '-', ' ', ':',
        '.', ',', '/', '%', '#',
        '!', '@', '&', '(', ')',
        '<', '>', '"', '\'','?',
        '[', ']', '{', '}', '\\',
        '|', '+', '=', '_', '^',
        '¥','~', '`'
    );
    if($type == "TODBC"){
        return str_replace($sbc, $dbc, $str); //半角到全角
    }elseif($type == "TOSBC"){
        return str_replace($dbc, $sbc, $str); //全角到半角
    }else{
        return false;
    }
}