如何提高FPGA工作频率

阅读：评论：0

对于设计者来说，我们当然希望我们设计的电路的工作频率（在这里如无特别说明，工作频率指FPGA片内的工作频率）尽量高。我们也经常听说用资源换速度，用流水的方式可以提高工作频率，这确实是一个很重要的方法，今天我想进一步去分析该如何提高电路的工作频率。
我们先来分析下是什么影响了电路的工作频率。
我们电路的工作频率主要与寄存器到寄存器之间的信号传播时延及clock skew有关。在FPGA内部如果时钟走长线的话，clock skew很小，基本上可以忽略, 在这里为了简单起见，我们只考虑信号的传播时延的因素。
第一中文信号的传播时延包括寄存器的开关时延、走线时延、经过组合逻辑的时延（这样划分或许不是很准确，不过对分析问题来说应该是没有可以的），要提高电路的工作频率，我们就要在这三个时延中做文章，使其尽可能的小。
我们先来看开关时延，这个时延是由器件物理特性决定的，我们没有办法去改变，所以我们只能通过改变走线方式和减少组合逻辑的方法来提高工作频率。
1.通过改变走线的方式减少时延。
以altera的器件为例，我们在quartus里面的timing closure floorplan可以看到有很多条条块块，我们可以将条条块块按行和按列分，每一个条块代表1个LAB，每个LAB里有8个或者是10个LE。它们的走线时延的关系如下：同一个LAB中（最快） < 同列或者同行 < 不同行且不同列。
我们通过给综合器加适当的约束（不可贪心，一般以加5%裕量较为合适，比如电路工作在100Mhz，则加约束加到105Mhz就可以了，贪心效果反而不好，且极大增加综合时间）可以将相关的逻辑在布线时尽量布的靠近一点，从而减少走线的时延。（注：约束的实现不完全是通过改进布局布线方式去提高工作频率，还有其它的改进措施）
2.通过减少组合逻辑的减少时延。
上面我们讲了可以通过加约束来提高工作频率，但是我们在做设计之初可万万不可将提高工作频率的美好愿望寄托在加约束上，我们要通过合理的设计去避免出现大的组合逻辑，从而提高电路的工作频率，这才能增强设计的可移植性，才可以使得我们的设计在移植到另一同等速度级别的芯片时还能使用。
我们知道，目前大部分FPGA都基于4输入LUT的，如果一个输出对应的判断条件大于四输入的话就要由多个LUT级联才能完成，这样就引入一级组合逻辑时延，我们要减少组合逻辑，无非就是要输入条件尽可能的少，，这样就可以级联的LUT更少，从而减少了组合逻辑引起的时延。
我们平时听说的流水就是一种通过切割大的组合逻辑（在其中插入一级或多级D触发器，从而使寄存器与寄存器之间的组合逻辑减少）来提高工作频率的方法。比如一个32位的计数器，该计数器的进位链很长，必然会降低工作频率，我们可以将其分割成4位和8位的计数，每当4位的计数器计到15后触发一次8位的计数器，这样就实现了计数器的切割，也提高了工作频率。
在状态机中，一般也要将大的计数器移到状态机外，因为计数器这东西一般是经常是大于4输入的，如果再和其它条件一起做为状态的跳变判据的话，必然会增加LUT的级联，从而增大组合逻辑。以一个6输入的计数器为例，我们原希望当计数器计到111100后状态跳变，现在我们将计数器放到状态机外，当计数器计到111011后产生个enable信号去触发状态跳变，这样就将组合逻辑减少了。
上面说的都是可以通过流水的方式切割组合逻辑的情况，但是有些情况下我们是很难去切割组合逻辑的，在这些情况下我们又该怎么做呢？
状态机就是这么一个例子，我们不能通过往状态译码组合逻辑中加入流水。如果我们的设计中有一个几十个状态的状态机，它的状态译码逻辑将非常之巨大，毫无疑问，这极有可能是设计中的关键路径。那我们该怎么做呢？还是老思路，减少组合逻辑。我们可以对状态的输出进行分析，对它们进行重新分类，并根据这个重新定义成一组组小状态机，通过对输入进行选择(case语句)并去触发相应的小状态机，从而实现了将大的状态机切割成小的状态机。在ATA6的规范中（硬盘的标准），输入的命令大概有20十种，每一个命令又对应很多种状态，如果用一个大的状态机（状态套状态）去做那是不可想象的，我们可以通过case语句去对命令进行译码，并触发相应的状态机，这样做下来
这一个模块的频率就可以跑得比较高了。
总结：提高工作频率的本质就是要减少寄存器到寄存器的时延，最有效的方法就是避免出现大的组合逻辑，也就是要尽量去满足四输入的条件，减少LUT级联的数量。我们可以通过加约束、流水、切割状态的方法提高工作频率。

以上资料是从网上搜到的，觉得对设计fpga很有帮助，贴出来和大建分享。

FPGA设计的四种常用思想与技巧

类别：电子综合阅读：988

本文讨论的四种常用FPGA/CPLD设计思想与技巧：乒乓操作、串并转换、流水线操作、数据接口同步化，都是FPGA/CPLD逻辑设计的内在规律的体现，合理地采用这些设计思想能在FPGA/CPLD设计工作种取得事半功倍的效果。 FPGA/CPLD的设计思想与技巧是一个非常大的话题，由于篇幅所限，本文仅介绍一些常用的设计思想与技巧，包括乒乓球操作、串并转换、流水线操作和数据接口的同步方法。希望本文能引起工程师们的注意，如果能有意识地利用这些原则指导日后的设计工作，将取得事半功倍的效果！乒乓操作

“乒乓操作”是一个常常应用于数据流控制的处理技巧，典型的乒乓操作方法如图1所示。乒乓操作的处理流程为：输入数据流通过“输入数据选择单元”将数据流等时分配到两个数据缓冲区，数据缓冲模块可以为任何存储模块，比较常用的存储单元为双口RAM(DPRAM)、单口RAM(SPRAM)、FIFO等。在第一个缓冲周期，将输入的数据流缓存到“数据缓冲模块1”；在第2个缓冲周期，通过“输入数据选择单元”的切换，将输入的数据流缓存到“数据缓冲模块2”，同时将“数据缓冲模块1”缓存的第1个周期数据通过“输入数据选择单元”的选择，送到“数据流运算处理模块”进行运算处理；在第3个缓冲周期通过“输入数据选择单元”的再次切换，将输入的数据流缓存到“数据缓冲模块1”，同时将“数据缓冲模块2”缓存的第2个周期的数据通过“输入数据选择单元”切换，送到“数据流运算处理模块”进行运算处理。如此循环。乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换，将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。把乒乓操作模块当做一个整体，站在这个模块的两端看数据，输入数据流和输出数据流都是连续不断的，没有任何停顿，因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法，完成数据的无缝缓冲与处理。乒乓操作的第二个优点是可以节约缓冲区空间。比如在WCDMA基带应用中，镭射贴1个帧是由15个时隙组成的，有时需要将1整帧的数据延时一个时隙后处理，比较直接的办法是将这帧数据缓存起来，然后延时1个时隙进行处理。这时缓冲区的长度是1整帧数据长，假设数据速率是3.84Mbps，1帧长10ms，则此时需要缓冲区长度是38400位。如果采用乒乓操作，只需定义两个能缓冲1个时隙数据的RAM(单口RAM即可)。当向一块RAM写数据的时候，从另一块RAM读数据，然后送到处理单元处理，此时每块RAM的容量仅需2560位即可，2块RAM加起来也只有5120位的容量。另外，巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图2所示，数据缓冲模块采用了双口RAM，并在DPRAM后引入了一级数据预处理模块，这个数据预处理可以根据需要的各种数据运算，比如在WCDMA设计中，对输入数据流的解扩、解扰、去旋转等。假设端口A的输入数据流的速率为100Mbps，乒乓操作的缓冲周期是10ms。以下分析各个节点端口的数据速率。

A端口处输入数据流速率为100Mbps，在第1个缓冲周期10ms内，通过“输入数据选择单元”，从B1到达DPRAM1。B1的数据速率也是100Mbps，DPRAM1要在10ms内写入1Mb数据。同理，在第2个10ms，数据流被切换到DPRAM2，端口B2的数据速率也是100Mbps，DPRAM2在第2个10ms被写入1Mb数据。在第3个10ms，数据流又切换到DPRAM1，DPRAM1被写入1Mb数据。仔细分析就会发现到第3个缓冲周期时，留给DPRAM1读取数据并送到“数据预处理模块1”的时间一共是20ms。有的工程师困惑于DPRAM1的读数时间为什么是20ms，这个时间是这样得来的：首先，在在第2个缓冲周期向DPRAM2写数据的10ms内，DPRAM1可以进行读操作；另外，在第1个缓冲周期的第5ms起(绝对时间为5ms时刻)，DPRAM1就可以一边向500K以后的地址写数据，一边从地址0读数，到达10ms时，DPRAM1刚好写完了1Mb数据，并且读了500K数据，这个缓冲时间内DPRAM1读了5ms；在第3个缓冲周期的第5ms起(绝对时间为35ms时刻)，同理可以一边向500K以后的地址写数据一边从地址0读数，又读取了5个ms，所以截止DPRAM1第一个周期存入的数据被完全覆盖以前，DPRAM1最多可以读取20ms时间，而所需读取的数据为1Mb，所以端口C1的数据速率为：1Mb/20ms=50Mbps。因此，“数据预处理模块1”的最低数据吞吐能力也仅仅要求为50Mbps。同理，“数据预处理模块2”的最低数据吞吐能力也仅仅要求为50Mbps。换言之，通过乒乓操作，“数据预处理模块”的时序压力减轻了，所要求的数据处理速率仅仅为输入数据速率的1/2。通过乒乓操作实现低速模块处理高速数据的实质是：通过DPRAM这种缓存单元实现了数据流的串并转换，并行用“数据预处理模块1”和“数据预处理模块2”处理分流的数据，是面积与速度互换原则的体现！串并转换设计技巧串并转换是FPGA设计的一个重要技巧，它是数据流处理的常用手段，也是面积与速度互换思想的直接体现。串并转换的实现方法多种多样，根据数据的排序和数量的要求，可以选用寄存器、RAM等实现。前面在乒乓操作的图例中，就是通过DPRAM实现了数据流的串并转换，而且由于使用了DPRAM，数据的缓冲区可以开得很大，对于数量比较小的设计可以采用寄存器完成串并转换。如无特殊需求，应该用同步时序设计完成串并之间的转换。比如数据从串行到并行，数据排列顺序是高位在前，可以用下面的编码实现：

prl_temp<={prl_temp,srl_in};

其中，prl_temp是并行输出缓存寄存器，srl_in是串行数据输入。对于排列顺序有规定的串并转换，可以用case语句判断实现。对于复杂的串并转换，还可以用状态机实现。串并转换的方法比较简单，在此不必赘述。流水线操作设计思想首先需要声明的是，这里所讲述的流水线是指一种处理流程和顺序操作的设计思想，并非FPGA、ASIC设计中优化时序所用的“Pipelining接地母排”。流水线处理是高速设计中的一个常用设计手段。如果某个设计的处理流程分为若干步骤，而且整个数据处理是“单流向”的，即没有反馈或者迭代运算，前一个步骤的输出是下一个步骤的输入，则可以考虑采用流水线设计方法来提高系统的工作频率。流水线设计的结构示意图如图3所示。其基本结构为：将适当划分的n个操作步骤单流向串联起来。流水线操作的最大特点和要求是，数据流在各个步骤的处理从时间上看是连续的，如果将每个操作步骤简化假设为通过一个D触发器(就是用寄存器打一个节拍)，那么流水线操作就类似一个移位寄存器组，数据流依次流经D触发器，完成每个步骤的操作。流水线设计时序如图4所示。流水线设计的一个关键在于整个设计时序的合理安排，要求每个操作步骤的划分合理。如果前级操作时间恰好等于后级的操作时间，设计最为简单，前级的输出直接汇入后级的输入即可；如果前级操作时间大于后级的操作时间，则需要对前级的输出数据适当缓存才能汇入到后级输入端；如果前级操作时间恰好小于后级的操作时间，则必须通过复制逻辑，将数据流分流，或者在前级对数据采用存储、后处理方式，否则会造成后级数据溢出。在WCDMA设计中经常使用到流水线处理的方法，如RAKE接收机、搜索器、前导捕获等。流水线处理方式之所以频率较高，是因为复制了处理模块，它是面积换取速度思想的又一种具体体现。数据接口的同步方法数据接口的同步是电脑绣花制版FPGA/CPLD设计的一个常见问题，也是一个重点和难点，很多设计不稳定都是源于数据接口的同步有问题。在电路图设计阶段，一些工程师手工加入BUFT或者非门调整数据延迟，从而保证本级模块的时钟对上级模块数据的建立、保持时间要求。还有一些工程师为了有稳定的采样，生成了很多相差90度的时钟信号，时而用正沿打一下数据，时而用负沿打一下数据，用以调整数据的采样位置。这两种做法都十分不可取，因为一旦芯片更新换代或者移植到其它芯片组的芯片上，采样实现必须从新设计。而且，这两种做法造成电路实现的余量不够，一旦外界条件变换(比如温度升高)，采样时序就有可能完全紊乱，造成电路瘫痪。下面简单介绍几种不同情况下数据接口的同步方法： 1. 输入、输出的延时(芯片间、PCB布线、一些驱动接口元件的延时等)不可测，或者有可能变动的条件下，如何完成数据同步？对于数据的延迟不可测或变动，就需要建立同步机制，可以用一个同步使能或同步指示信号。另外，使数据通过RAM或者FIFO的存取，也可以达到数据同步目的。把数据存放在RAM或FIFO的方法如下：将上级芯片提供的数据随路时钟作为写信号，将数据写入RAM真空过滤装置或者FIFO，然后使用本级的采样时钟(一般是数据处理的主时钟)将数据读出来即可。这种做法的关键是数据写入RAM或者FIFO要可靠，如果使用同步RAM或者FIFO，就要求应该有一个与数据相对延迟关系固定的随路指示信号，这个信号可以是数据的有效指示，也可以是上级模块将数据打出来的时钟。对于慢速数据，也可以采样异步RAM或者FIFO，但是不推荐这种做法。

数据是有固定格式安排的，很多重要信息在数据的起始位置，这种情况在通信系统中非常普遍。通讯系统中，很多数据是按照“帧”组织的。而由于整个系统对时钟要求很高，常常专门设计一块时钟板完成高精度时钟的产生与驱动。而数据又是有起始位置的，如何完成数据的同步，并发现数据的“头”呢？数据的同步方法完全可以采用上面的方法，采用同步指示信号，或者使用RAM、FIFO缓存一下。到数据头的方法有两种，第一种很简单，随路传输一个数据起始位置的指示信号即可，对于有些系统，特别是异步系统，则常常在数据中插入一段同步码(比如训练序列)，接收端通过状态机检测到同步码后就能发现数据的“头”了，这种做法叫做“盲检测”。上级数据和本级时钟是异步的，也就是说上级芯片或模块和本级芯片或模块的时钟是异步时钟域的。前面在输入数据同步化中已经简单介绍了一个原则：如果输入数据的节拍和本级芯片的处理时钟同频，可以直接用本级芯片的主时钟对输入数据寄存器采样，完成输入数据的同步化；如果输入数据和本级芯片的处理时钟是异步的，特别是频率不匹配的时候，则只有用处理时钟对输入数据做两次寄存器采样，才能完成输入数据的同步化。需要说明的是，用寄存器对异步时钟域的数据进行两次采样，其作用是有效防止亚稳态(数据状态不稳定)的传播，使后级电路处理的数据都是有效电平。但是这种做法并不能保证两级寄存器采样后的数据是正确的电平，这种方式处理一般都会产生一定数量的错误电平数据。所以仅仅适用于对少量错误不敏感的功能单元。为了避免异步时钟域产生错误的采样电平，一般使用RAM、FIFO缓存的方法完成异步时钟域的数据转换。最常用的缓存单元是DPRAM，在输入端口使用上级时钟写数据，在输出端口使用本级时钟读数据，这样就非常方便的完成了异步时钟域之间的数据交换。 2. 暗访摄像包设计数据接口同步是否需要添加约束？建议最好添加适当的约束，特别是对于高速设计，一定要对周期、建立、保持时间等添加相应的约束。这里附加约束的作用有两点： a. 提高设计的工作频率，满足接口数据同步要求。通过附加周期、建立时间、保持时间等约束可以控制逻辑的综合、映射、布局和布线，以减小逻辑和布线延时，从而提高工作频率，满足接口数据同步要求。 b. 获得正确的时序分析报告。几乎所有的FPGA设计平台都包含静态时序分析工具，利用这类工具可以获得映射或布局布线后的时序分析报告，从而对设计的性能做出评估。静态时序分析工具以约束作为判断时序是否满足设计要求的标准，因此要求设计者正确输入约束，以便静态时序分析工具输出正确的时序分析报告。 Xilinx和数据接口相关的常用约束有Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE和OFFSET_OUT_AFTER等；Altera与数据接口相关的常用约束有Period、tsu、tH、tco等。作者：王诚

Lattice Semiconductor 吴蕾高级工程师

Email: westor@edacn

本文发布于:2023-06-05 06:28:04，感谢您对本站的认可！

本文链接：https://patent.en369.cn/patent/4/126855.html

上一篇：乒乓对时算法

下一篇：计算机系统结构第三章（习题解答）