golang装饰模式缓存_（十一）golang 内存分析

1. golang本地缓存和redis对比

1.Redis特性 Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次...

2. golang内存扩容

一般来说当内存空间span不足时，需要进行扩容。而在扩容前需要将当前没有剩余空间的内存块相关状态解除，以便后续的垃圾回收期能够进行扫描和回收，接着在从中间部件(central)提取新的内存块放回数组中。

需要注意由于中间部件有scan和noscan两种类型，则申请的内存空间最终获取的可能是其两倍，并由heap堆进行统一管理。中间部件central是通过两个链表来管理其分配的所有内存块：
1、empty代表“无法使用”状态，没有剩余的空间或被移交给缓存的内存块
2、noempty代表剩余的空间，并这些内存块能够提供服务

由于golang垃圾回收器使用的累增计数器(heap.sweepgen)来表达代龄的：

从上面内容可以看到每次进行清理操作时该计数器 +2
再来看下mcentral的构成

当通过mcentral进行空间span获取时，第一步需要到noempty列表检查剩余空间的内存块，这里面有一点需要说明主要是垃圾回收器的扫描过程和清理过程是同时进行的，那么为了获取更多的可用空间，则会在将分配的内存块移交给cache部件前，先完成清理的操作。第二步当noempty没有返回时，则需要检查下empty列表(由于empty里的内存块有可能已被标记为垃圾，这样可以直接清理，对应的空间则可直接使用了)。第三步若是noempty和empty都没有申请到，这时需要堆进行申请内存的

通过上面的源码也可以看到中间部件central自身扩容操作与大对象内存分配差不多类似。

在golang中将长度小于16bytes的对象称为微小对象(tiny)，最常见的就是小字符串，一般会将这些微小对象组合起来，并用单块内存存储，这样能够有效的减少内存浪费。
当微小对象需要分配空间span，首先缓存部件会按指定的规格(tiny size class)取出一块内存，若容量不足，则重新提取一块；前面也提到会将微小对象进行组合，而这些组合的微小对象是不能包含指针的，因为垃圾回收的原因，一般都是当前存储单元里所有的微小对象都不可达时，才会将该块内存进行回收。
而当从缓冲部件cache中获取空间span时，是通过偏移位置(tinyoffset)先来判断剩余空间是否满足需求。若是可以的话则以此计算并返回内存地址；若是空间不足，则提取新的内存块，直接返回起始地址便可；最后在对比新旧两块内存，空间大的那块则会被保留。

3. （十一）golang 内存分析

编写过C语言程序的肯定知道通过malloc()方法动态申请内存，其中内存分配器使用的是glibc提供的ptmalloc2。除了glibc，业界比较出名的内存分配器有Google的tcmalloc和Facebook的jemalloc。二者在避免内存碎片和性能上均比glic有比较大的优势，在多线程环境中效果更明显。
Golang中也实现了内存分配器，原理与tcmalloc类似，简单的说就是维护一块大的全局内存，每个线程(Golang中为P)维护一块小的私有内存，私有内存不足再从全局申请。另外，内存分配与GC（垃圾回收）关系密切，所以了解GC前有必要了解内存分配的原理。

为了方便自主管理内存，做法便是先向系统申请一块内存，然后将内存切割成小块，通过一定的内存分配算法管理内存。以64位系统为例，Golang程序启动时会向系统申请的内存如下图所示：

预申请的内存划分为spans、bitmap、arena三部分。其中arena即为所谓的堆区，应用中需要的内存从这里分配。其中spans和bitmap是为了管理arena区而存在的。
arena的大小为512G，为了方便管理把arena区域划分成一个个的page，每个page为8KB,一共有512GB/8KB个页；
spans区域存放span的指针，每个指针对应一个page，所以span区域的大小为(512GB/8KB)乘以指针大小8byte = 512M
bitmap区域大小也是通过arena计算出来，不过主要用于GC。

span是用于管理arena页的关键数据结构，每个span中包含1个或多个连续页，为了满足小对象分配，span中的一页会划分更小的粒度，而对于大对象比如超过页大小，则通过多页实现。

根据对象大小，划分了一系列class，每个class都代表一个固定大小的对象，以及每个span的大小。如下表所示：

上表中每列含义如下：
class： class ID，每个span结构中都有一个class ID, 表示该span可处理的对象类型
bytes/obj：该class代表对象的字节数
bytes/span：每个span占用堆的字节数，也即页数乘以页大小
objects: 每个span可分配的对象个数，也即（bytes/spans）/（bytes/obj）waste
bytes: 每个span产生的内存碎片，也即（bytes/spans）%（bytes/obj）上表可见最大的对象是32K大小，超过32K大小的由特殊的class表示，该class ID为0，每个class只包含一个对象。

span是内存管理的基本单位,每个span用于管理特定的class对象, 跟据对象大小，span将一个或多个页拆分成多个块进行管理。src/runtime/mheap.go:mspan定义了其数据结构：

以class 10为例，span和管理的内存如下图所示：

spanclass为10，参照class表可得出npages=1,nelems=56,elemsize为144。其中startAddr是在span初始化时就指定了某个页的地址。allocBits指向一个位图，每位代表一个块是否被分配，本例中有两个块已经被分配，其allocCount也为2。next和prev用于将多个span链接起来，这有利于管理多个span，接下来会进行说明。

有了管理内存的基本单位span，还要有个数据结构来管理span，这个数据结构叫mcentral，各线程需要内存时从mcentral管理的span中申请内存，为了避免多线程申请内存时不断的加锁，Golang为每个线程分配了span的缓存，这个缓存即是cache。src/runtime/mcache.go:mcache定义了cache的数据结构

alloc为mspan的指针数组，数组大小为class总数的2倍。数组中每个元素代表了一种class类型的span列表，每种class类型都有两组span列表，第一组列表中所表示的对象中包含了指针，第二组列表中所表示的对象不含有指针，这么做是为了提高GC扫描性能，对于不包含指针的span列表，没必要去扫描。根据对象是否包含指针，将对象分为noscan和scan两类，其中noscan代表没有指针，而scan则代表有指针，需要GC进行扫描。mcache和span的对应关系如下图所示：

mchache在初始化时是没有任何span的，在使用过程中会动态的从central中获取并缓存下来，跟据使用情况，每种class的span个数也不相同。上图所示，class 0的span数比class1的要多，说明本线程中分配的小对象要多一些。

cache作为线程的私有资源为单个线程服务，而central则是全局资源，为多个线程服务，当某个线程内存不足时会向central申请，当某个线程释放内存时又会回收进central。src/runtime/mcentral.go:mcentral定义了central数据结构：

lock: 线程间互斥锁，防止多线程读写冲突
spanclass : 每个mcentral管理着一组有相同class的span列表
nonempty: 指还有内存可用的span列表
empty: 指没有内存可用的span列表
nmalloc: 指累计分配的对象个数线程从central获取span步骤如下：

将span归还步骤如下：

从mcentral数据结构可见，每个mcentral对象只管理特定的class规格的span。事实上每种class都会对应一个mcentral,这个mcentral的集合存放于mheap数据结构中。src/runtime/mheap.go:mheap定义了heap的数据结构：

lock：互斥锁
spans: 指向spans区域，用于映射span和page的关系
bitmap：bitmap的起始地址
arena_start: arena区域首地址
arena_used: 当前arena已使用区域的最大地址
central: 每种class对应的两个mcentral
从数据结构可见，mheap管理着全部的内存，事实上Golang就是通过一个mheap类型的全局变量进行内存管理的。mheap内存管理示意图如下：

系统预分配的内存分为spans、bitmap、arean三个区域，通过mheap管理起来。接下来看内存分配过程。

针对待分配对象的大小不同有不同的分配逻辑：
(0, 16B) 且不包含指针的对象： Tiny分配
(0, 16B) 包含指针的对象：正常分配
[16B, 32KB] : 正常分配
(32KB, -) : 大对象分配其中Tiny分配和大对象分配都属于内存管理的优化范畴，这里暂时仅关注一般的分配方法。
以申请size为n的内存为例，分配步骤如下：

Golang内存分配是个相当复杂的过程，其中还掺杂了GC的处理，这里仅仅对其关键数据结构进行了说明，了解其原理而又不至于深陷实现细节。1、Golang程序启动时申请一大块内存并划分成spans、bitmap、arena区域
2、arena区域按页划分成一个个小块。
3、span管理一个或多个页。
4、mcentral管理多个span供线程申请使用
5、mcache作为线程私有资源，资源来源于mcentral。

4. golang中bufio包

一、介绍go标准库中的bufio
最近用golang写了一个处理文件的脚本，由于其中涉及到了文件读写，开始使用golang中的 io 包，后来发现golang 中提供了一个bufio的包，使用这个包可以大幅提高文件读写的效率，于是在网上搜索同样的文件读写为什么bufio 要比io 的读写更快速呢？根据网上的资料和阅读源码，以下来详细解释下bufio的高效如何实现的。

bufio 包介绍
bufio包实现了有缓冲的I/O。它包装一个io.Reader或io.Writer接口对象，创建另一个也实现了该接口，且同时还提供了缓冲和一些文本I/O的帮助函数的对象。

以上为官方包的介绍，在其中我们能了解到的信息如下：

bufio 是通过缓冲来提高效率

简单的说就是，把文件读取进缓冲（内存）之后再读取的时候就可以避免文件系统的io 从而提高速度。同理，在进行写操作时，先把文件写入缓冲（内存），然后由缓冲写入文件系统。看完以上解释有人可能会表示困惑了，直接把内容->文件和内容->缓冲->文件相比，缓冲区好像没有起到作用嘛。其实缓冲区的设计是为了存储多次的写入，最后一口气把缓冲区内容写入文件。下面会详细解释

bufio 封装了io.Reader或io.Writer接口对象，并创建另一个也实现了该接口的对象

io.Reader或io.Writer 接口实现read() 和 write() 方法，对于实现这个接口的对象都是可以使用这两个方法的

注明：介绍内容来自博主 LiangWenT
，原文链接： https://blog.csdn.net/LiangWenT/article/details/78995468 ，在查找资料时，发现这篇博客的内容很好理解

bufio包实现了缓存IO。它包装了io.Reader和io.Write对象，创建了另外的Reader和Writer对象，它们也实现了io.Reader和io.Write接口，具有缓存。注意：缓存是放在主存中，既然是保存在主存里，断电会丢失数据，那么要及时保存数据。

二、常用内容
1、Reader类型

NewReaderSize

作用：NewReaderSize将rd封装成一个带缓存的bufio.Reader对象。缓存大小由size指定（如果小于16则会被设为16）。如果rd的基类型就是有足够缓存的bufio.Reader类型，则直接将rd转换为基类型返回。
NewReader

funcReader相当于NewReaderSize(rd, 4096)
Peek

Peek返回缓存的一个切片，该切片引用缓存中前n个字节的数据，该操作不会将数据读出，只是引用，引用的数据在下一次读取操作之前有效的。如果切片长度小于n，则返回一个错误信息说明原因。如果n大于缓存的总大小，则返回ErrBufferFull。
Read

Read从b中数据到p中，返回读出的字节数和遇到的错误。如果缓存不为空，则只能读出缓冲中的数据，不会从底层io.Reader中提取数据，如果缓存为空，则：
1、len(p) >= 缓存大小，则跳过缓存，直接从底层io.Reader中读出到p中
2、len(p)< 缓存大小，则先将数据从底层io.Reader中读取到缓存中，再从缓存读取到p中。
Buffered

Buffered返回缓存中未读取的数据的长度。
Discard

Discard跳过后续的n个字节的数据，返回跳过的字节数。

Writer类型和方法
write结构

NewWriteSize

NewWriterSize将wr封装成一个带缓存的bufio.Writer对象，缓存大小由size指定（如果小于4096则会被设置未4096）。
NewWrite

NewWriter相等于NewWriterSize(wr, 4096)

WriteString

WriteString功能同Write，只不过写入的是字符串
WriteRune

WriteRune向b写入r的UTF-8编码，返回r的编码长度。
Flush

Available

Available 返回缓存中未使用的空间的长度
Buffered

Buffered返回缓存中未提交的数据长度
Reset

Reset将b的底层Write重新指定为w，同时丢弃缓存中的所有数据，复位所有标记和错误信息。相当于创建了一个新的bufio.Writer。

GO中还提供了Scanner类型，处理一些比较简单的场景。如处理按行读取输入序列或空格分隔的词等。
内容来自： https://blog.csdn.net/wangshubo1989/article/details/70177928

参考链接：
1） https://blog.csdn.net/LiangWenT/article/details/78995468
2） https://blog.csdn.net/wangshubo1989/article/details/70177928

5. golang sync.pool对象复用并发原理缓存池

在go http每一次go serve(l)都会构建Request数据结构。在大量数据请求或高并发的场景中，频繁创建销毁对象，会导致GC压力。解决办法之一就是使用对象复用技术。在http协议层之下，使用对象复用技术创建Request数据结构。在http协议层之上，可以使用对象复用技术创建(w,*r,ctx)数据结构。这样即可以回快TCP层读包之后的解析速度，也可也加快请求处理的速度。

先上一个测试：

结论是这样的：

貌似使用池化，性能弱爆了？？？这似乎与net/http使用sync.pool池化Request来优化性能的选择相违背。这同时也说明了一个问题，好的东西，如果滥用反而造成了性能成倍的下降。在看过pool原理之后，结合实例，将给出正确的使用方法，并给出预期的效果。

sync.Pool是一个 协程安全 的 临时对象池 。数据结构如下：

local 成员的真实类型是一个 poolLocal 数组，localSize 是数组长度。这涉及到Pool实现，pool为每个P分配了一个对象，P数量设置为runtime.GOMAXPROCS(0)。在并发读写时，goroutine绑定的P有对象，先用自己的，没有去偷其它P的。go语言将数据分散在了各个真正运行的P中，降低了锁竞争，提高了并发能力。

不要习惯性地误认为New是一个关键字，这里的New是Pool的一个字段，也是一个闭包名称。其API：

如果不指定New字段，对象池为空时会返回nil，而不是一个新构建的对象。Get()到的对象是随机的。

原生sync.Pool的问题是，Pool中的对象会被GC清理掉，这使得sync.Pool只适合做简单地对象池，不适合作连接池。

pool创建时不能指定大小，没有数量限制。pool中对象会被GC清掉，只存在于两次GC之间。实现是pool的init方法注册了一个poolCleanup()函数，这个方法在GC之前执行，清空pool中的所有缓存对象。

为使多协程使用同一个POOL。最基本的想法就是每个协程，加锁去操作共享的POOL，这显然是低效的。而进一步改进，类似于ConcurrentHashMap（JDK7）的分Segment，提高其并发性可以一定程度性缓解。

注意到pool中的对象是无差异性的，加锁或者分段加锁都不是较好的做法。go的做法是为每一个绑定协程的P都分配一个子池。每个子池又分为私有池和共享列表。共享列表是分别存放在各个P之上的共享区域，而不是各个P共享的一块内存。协程拿自己P里的子池对象不需要加锁，拿共享列表中的就需要加锁了。

Get对象过程：

Put过程：

如何解决Get最坏情况遍历所有P才获取得对象呢：

方法1止前sync.pool并没有这样的设置。方法2由于goroutine被分配到哪个P由调度器调度不可控，无法确保其平衡。

由于不可控的GC导致生命周期过短，且池大小不可控，因而不适合作连接池。仅适用于增加对象重用机率，减少GC负担。2

执行结果:

单线程情况下，遍历其它无元素的P，长时间加锁性能低下。启用协程改善。

结果：

测试场景在goroutines远大于GOMAXPROCS情况下，与非池化性能差异巨大。

测试结果

可以看到同样使用*sync.pool，较大池大小的命中率较高，性能远高于空池。

结论：pool在一定的使用条件下提高并发性能，条件1是协程数远大于GOMAXPROCS，条件2是池中对象远大于GOMAXPROCS。归结成一个原因就是使对象在各个P中均匀分布。

池pool和缓存cache的区别。池的意思是，池内对象是可以互换的，不关心具体值，甚至不需要区分是新建的还是从池中拿出的。缓存指的是KV映射，缓存里的值互不相同，清除机制更为复杂。缓存清除算法如LRU、LIRS缓存算法。

池空间回收的几种方式。一些是GC前回收，一些是基于时钟或弱引用回收。最终确定在GC时回收Pool内对象，即不回避GC。用java的GC解释弱引用。GC的四种引用：强引用、弱引用、软引用、虚引用。虚引用即没有引用，弱引用GC但有空间则保留，软引用GC即清除。ThreadLocal的值为弱引用的例子。

regexp 包为了保证并发时使用同一个正则，而维护了一组状态机。

fmt包做字串拼接，从sync.pool拿[]byte对象。避免频繁构建再GC效率高很多。

6. Golang 语言深入理解：channel

本文是对 Gopher 2017 中一个非常好的 Talk�: [Understanding Channel](GopherCon 2017: Kavya Joshi - Understanding Channels) 的学习笔记，希望能够通过对 channel 的关键特性的理解，进一步掌握其用法细节以及 Golang 语言设计哲学的管窥蠡测。

channel 是可以让一个 goroutine 发送特定值到另一个 gouroutine 的通信机制。

原生的 channel 是没有缓存的(unbuffered channel)，可以用于 goroutine 之间实现同步。

关闭后不能再写入，可以读取直到 channel 中再没有数据，并返回元素类型的零值。

gopl/ch3/netcat3

首先从 channel 是怎么被创建的开始:

在 heap 上分配一个 hchan 类型的对象，并将其初始化，然后返回一个指向这个 hchan 对象的指针。

理解了 channel 的数据结构实现，现在转到 channel 的两个最基本方法: sends 和 receivces ，看一下以上的特性是如何体现在 sends 和 receives 中的:

假设发送方先启动，执行 ch <- task0 :

如此为 channel 带来了 goroutine-safe 的特性。

在这样的模型里， sender goroutine -> channel -> receiver goroutine 之间， hchan 是唯一的共享内存，而这个唯一的共享内存又通过 mutex 来确保 goroutine-safe ，所有在队列中的内容都只是副本。
这便是着名的 golang 并发原则的体现:

发送方 goroutine 会阻塞，暂停，并在收到 receive 后才恢复。

goroutine 是一种 用户态线程 , 由 Go runtime 创建并管理，而不是操作系统，比起操作系统线程来说，goroutine更加轻量。
Go runtime scheler 负责将 goroutine 调度到操作系统线程上。

runtime scheler 怎么将 goroutine 调度到操作系统线程上？

当阻塞发生时，一次 goroutine 上下文切换的全过程:

然而，被阻塞的 goroutine 怎么恢复过来？

阻塞发生时，调用 runtime sheler 执行 gopark 之前，G1 会创建一个 sudog ，并将它存放在 hchan 的 sendq 中。 sudog 中便记录了即将被阻塞的 goroutine G1 ，以及它要发送的数据元素 task4 等等。
接收方 将通过这个 sudog 来恢复 G1

接收方 G2 接收数据, 并发出一个 receivce ，将 G1 置为 runnable :

同样的, 接收方 G2 会被阻塞，G2 会创建 sudoq ，存放在 recvq ，基本过程和发送方阻塞一样。
不同的是，发送方 G1如何恢复接收方 G2，这是一个非常神奇的实现。

理论上可以将 task 入队，然后恢复 G2, 但恢复 G2后，G2会做什么呢？
G2会将队列中的 task 复制出来，放到自己的 memory 中，基于这个思路，G1在这个时候，直接将 task 写到 G2的 stack memory 中！

这是违反常规的操作，理论上 goroutine 之间的 stack 是相互独立的，只有在运行时可以执行这样的操作。
这么做纯粹是出于性能优化的考虑，原来的步骤是：

优化后，相当于减少了 G2 获取锁并且执行 mem 的性能消耗。

channel 设计背后的思想可以理解为 simplicity 和 performance 之间权衡抉择，具体如下：

queue with a lock prefered to lock-free implementation:

比起完全 lock-free 的实现，使用锁的队列实现更简单，容易实现

7. 嵌入式golang占用内存高

嵌入式golang占用内存高可能问题在于缓存。
清空日志后比较惊喜地发现，内存瞬间暴降至20M。
嵌入式系统由硬件和软件组成．是能够独立进行运作的器件。其软件内容只包括软件运行环境及其操作系统。硬件内容包括信号处理器、存储器、通信模块等在内的多方面的内容。相比于一般的计算机处理系统而言，嵌入式系统存在较大的差异性，它不能实现大容量的存储功能，因为没有与之相匹配的大容量介质，大部分采用的存储介质有E-PROM、EEPROM等，软件部分以API编程接口作为开发平台的核心。嵌入式系统最核心的层次是中央处理单元部分，它包含运算器和控制器模块，在cpu的基础上进一步配上存储器模块、电源模块、复位模块等就构成了通常所说的最小系统。由于技术的进步，集成电路生产商通常会把许多外设做进同一个集成电路中，这样在使用上更加方便，这样一个芯片通常称之为微控制器。在微控制器的基础上进一步扩展电源传感与检测、执行器模块以及配套软件并构成一个具有特定功能的完整单元，就称之为一个嵌入式系统或嵌入式应用。

8. golang怎么使用redis，最基础的有效的方法

与memcached一样，为了保证效率，数据都是缓存在内存中。
区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。数据可以从主服务器向任意数量的从服务器上同步，从服务器可以是关联其他从服务器的主服务器。
这使得Redis可执行单层树复制。从盘可以有意无意的对数据进行写操作。
由于完全实现了发布/订阅机制，使得从数据库在任何地方同步树时，可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。

golang装饰模式缓存

与golang装饰模式缓存相关的内容