谷动谷力

 找回密码
 立即注册
查看: 912|回复: 0
打印 上一主题 下一主题
收起左侧

图解数据读写与 Cache 操作

[复制链接]
跳转到指定楼层
楼主
发表于 2022-12-6 08:33:51 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
图解数据读写与 Cache 操作


以下文章来源于洛奇看世界 ,作者guyongqiangx




昨天读了 Baron 大佬写的介绍 Cache 细节的文档,天哪,太详细了,简直面面俱到~ 大佬就是大佬。

看完不禁想起我在 CSDN 博客上公开发表的第一篇文章,关于 Cache  何时需要对作废、何时需要刷新的分析说明,原文写于 2016 年,忍不住在这里分享一下,比较简单,希望对 Cache 操作不了解的朋友有些帮助。

Baron 写了很多安全方面的文章,自谦是非著名的Trustzone/TEE/安全渣渣,研究方向包括 ARM Trustzone、TEE, 各种 Linux 和 Android 安全, CSDN 博客地址: https://blog.csdn.net/weixin_42135087

1. 什么是 Cache?
高速缓存(Cache)主要是为了解决CPU运算速度与内存(Memory)读写速度不匹配的矛盾而存在, 是CPU与内存之间的临时存贮器,容量小,但是交换速度比内存快。

百度百科是这样介绍缓存的:

CPU要读取一个数据时,首先从Cache中查找,如果找到就立即读取并送给CPU处理;如果没有找到,就用相对慢的速度从内存中读取并送给CPU处理,同时把这个数据所在的数据块调入Cache中,可以使得以后对整块数据的读取都从Cache中进行,不必再调用内存。

正是这样的读取机制使CPU读取Cache的命中率非常高(大多数CPU可达90%左右),也就是说CPU下一次要读取的数据90%都在Cache中,只有大约10%需要从内存读取。这大大节省了CPU直接读取内存的时间,也使CPU读取数据时基本无需等待。总的来说,CPU读取数据的顺序是先Cache后内存。

2. Cache 的分类
Cache 的硬件实现中通常包含一级 Cache(L1 Cache),二级 Cache(L2 Cache)甚至多级 Cache;

对于一级Cache,又有 Instruction Cache(指令缓存,通常称为 I-Cache)和 Data Cache(数据缓存,通常称为 D-Cache)之分,本文准备不讨论各级 Cache 的区别以及 I-Cache 和 D-Cache 的细节,仅将这些所有实现笼统称为Cache。

本文仅针对 Cache 的读写进行简单说明并通过示意图演示什么时候需要写回(flush)缓存,什么时候需要作废(Invalidate)缓存。

目前我所知的非常强的一款 CPU: AMD RYZEN 3970x (线程撕裂者) 32 核心 64 线程,其一级缓存 3MB, 二级缓存 16MB, 三级缓存 128MB, 有朋友用这颗芯片配置了一台个人电脑,编译最新的 Android S (12) 只要 20 多分钟,绝大部分公司的服务器还做不到这个性能。

对于指令缓存的 I-Cache 和数据缓存的 D-Cache,平时 D-Cache 访问比较多,以下主要以 D-Cache 的访问为例说明,指令缓存 I-Cache 原理一样。

3. Cache 数据访问原理
图片
Cache读写原理
图一、Cache读写原理

Cache读写原理写入数据时:

第一步,CPU 将数据写入 Cache;
第二步,将 Cache 数据传送到 Memory 中相应的位置;
读取数据时:

第一步,将 Memory 中的数据传送到 Cache 中;
第二步,CPU 从 Cache 中读取数据;
在具体的硬件实现上,Cache 有写操作有透写(Write-Through)和回写(Write-Back)两种方式:

透写(Write-Through)
在透写式 Cache 中,CPU 的数据总是写入到内存中,如果对应内存位置的数据在 Cache 中有一个备份,那么这个备份也要更新,保证内存和 Cache 中的数据永远同步。所以每次操作总会执行图一中的步骤 1 和 2。

回写(Write-Back)
在回写式 Cache 中,把要写的数据只写到 Cache 中,并对 Cache 对应的位置做一个标记,只在必要的时候才会将数据更新到内存中。所以每次写操作都会执行步骤中的图 1,但并不是每次执行步骤 1 后都执行步骤 2 操作。

透写方式存在性能瓶颈,性能低于回写方式,现在的 CPU 设计基本上都是采用 Cache 回写方式。

通常情况下,数据只通过 CPU 进行访问,每次访问都会经过 Cache,此时数据同步不会有问题。

在有设备进行 DMA 操作的情况下,设备读写数据不再通过 Cache,而是直接访问内存。在设备和 CPU 读写同一块内存时,所取得的数据可能会不一致,如图二。



设备和CPU读写同一块内存时数据不一致
图二、设备和CPU读写同一块内存时数据不一致

CPU 执行步骤1将数据 A 写入 Cache,但并不是每次都会执行步骤 2 将数据 A 同步到内存,导致 Cache 中的数据 A 和内存中的数据 A’不一致;步骤 3 中,外部设备通过 DMA 操作时直接从内存访问数据,从而取得的是A’而不是A。

设备DMA操作完成后,通过步骤 4 将数据 B 写入内存;但是由于内存中的数据不会和 Cache 自动进行同步,步骤 5不会被执行,所以 CPU 执行步骤 3 读取数据时,获取的可能是 Cache 中的数据 B’,而不是内存中的数据B;

在 CPU 和外设访问同一片内存区域的情况下,如何操作 Cache 以确保设备和 CPU 访问的数据一致就显得尤为重要,见图三。

图片
Cache操作同步数据
图三、Cache操作同步数据

Cache操作同步数据CPU 执行步骤 1 将数据 A 写入 Cache,由于设备也需要访问数据 A,因此执行步骤 2 将数据 A 通过 flush 操作同步到内存;步骤 3 中,外部设备通过 DMA 操作时直接从内存访问数据 A,最终 CPU 和设备访问的都是相同的数据。

设备 DMA 操作完成后,通过步骤 4 将数据 B 写入内存;由于 CPU 也需要访问数据 B,访问前通过 invalidate 操作作废 Cache 中的数据,从而通过 Cache 读取数据时 Cache 会从内存取数据,所以 CPU 执行步骤 6 读取数据时,获取到的是从内存更新后的数据;

4. Cache操作举例
4.1 外设数据 DMA 传输
例如,在某顶盒平台中,内存加解密在单独的安全芯片中进行,安全芯片访问的数据通过 DMA 进行传输操作。

因此,在进行内存加解密前,需要 flush D-Cache 操作将数据同步到到内存中供安全芯片访问;

加解密完成后需要执行invalidate D-Cache操作,以确保CPU访问的数据是安全芯片加解密的结果,而不是Cache之前保存的数据;

DMA进行数据加解密的示例代码:

void mem_dma_desc(
  unsigned long Mode,
  unsigned long SrcAddr, /* input data addr */
  unsigned long DestAddr, /* output data addr */
  unsigned long Slot,
  unsigned long Size) /* dma data size */
{
  ...prepare for dma encryption/decryption operation...

  /* flush data in SrcAddr from D-Cache to memory
     to ensure dma device get the correct data */
  flush_d_cache(SrcAddr, Size);

  ...do dma operation, output will be redirect to DestAddr...

  /* invalidate D-Cache to ensure fetch data from memory
     instead of cached data in D-Cache */
  invalidate_d_cache(DestAddr, Size);
  return;
}

4.2 外设 flash 的 I/O
某平台的 nand flash 的控制器也支持 DMA 读取的方式。在数据向 nand flash 写入数据时需要先 flash dcache 确保DMA 操作的数据是真实要写入的数据,而不是内存中已经过期的数据;

从nand flash 读取数据后需要 invalidate dcache,使 cache 中的数据失效,从而确保 cpu 读取的是内存数据,而不是上一次访问时缓存的结果。

nand flash 通过 DMA 方式读取数据的示例代码:

static int nand_dma_read(
   struct nand_dev *nand,
   uint64_t addr, /* read addr */
   void *buf,     /* output buffer */
   size_t len)
{
int ret;

...prepare for nand flash read and device dma transfer...

/* flush dma descriptor for nand flash read operation */
flush_d_cache(descs, ndescs * sizeof(*descs));

/* nand flash dma read operation */
ret = nand_dma_run(nand, (uintptr_t)descs);

/* invalidate read output buffer to ensure fetch data from memory
    instead of cached data in D-Cache */
invalidate_d_cache(buf, len);

...other operations...

return ret;
}

除了 nand flash 之外,很多硬盘也支持 DMA 方式读取。

4.3 I-Cache 和 D-Cache 的转换
通常 Cache 分为 I-Cache 和 D-Cache,取指令时访问 I-Cache,读写数据时访问 D-Cache。

但在代码搬运时,外设上存放的指令会被当作数据进行处理。

例如一段代码保存在外设(如nand  flash或硬盘)上,CPU想执行这段代码,需要先将这段代码作为数据复制到内存再将这段代码作为指令执行。

由于写入数据和读取指令分别通过 D-Cache 和 I-Cache,所以需要同步 D-Cache 和 I-Cache,即复制后需要先将 D-Cache 写回到内存,而且还需要作废当前的 I-Cache 以确保执行的是 Memory 内更新的代码,而不是 I-Cache 中缓存的数据,如图四所示:

图四、CPU复制代码后执行
图四、CPU复制代码后执行

CPU复制代码后执行的示例代码:

void copy_code_and_execution(
  unsigned char *src,
  unsigned char *dest,
  size_t len)
{
...copy code from src addr to dest addr...

/* flush instructions data in D-Cache to memory */
flush_all_d_cache();

/* invalidate I-Cache to ensure fetch instructions from memory
    instead of cached data in I-Cache */
invalidate_all_i_cache();

...jump to dest address for execution and never return...

/* actually it never reach here if it jumps to dest successfully */
printf("failed to jumping...\r\n");

return;
}


+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|深圳市光明谷科技有限公司|光明谷商城|Sunshine Silicon Corpporation ( 粤ICP备14060730号|Sitemap

GMT+8, 2024-5-9 00:46 , Processed in 0.084740 second(s), 42 queries .

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表