青青久草在线视频,亚洲天天操,久久成年网站

類型分類：: 科普知識

數據分類：: 電阻加熱器

充分利用數字信號處理器上的片內FIR和IIR硬件加速器

發布日期：2022-10-18 點擊率：53

有限脈沖響應(FIR)和無限脈沖響應(IIR)濾波器都是常用的數字信號處理算法 --- 尤其適用于音頻處理應用。因此，在典型的音頻系統中，處理器內核的很大一部分時間用于 FIR 和 IIR 濾波。數字信號處理器上的片內 FIR 和 IIR 硬件加速器也分別稱為 FIRA 和 IIRA，我們可以利用這些硬件加速器來分擔 FIR 和 IIR 處理任務，讓內核去執行其他處理任務。在本文中，我們將借助不同的使用模型以及實時測試示例來探討如何在實踐中利用這些加速器。

簡介

圖 1.FIRA 和 IIRA 系統方框圖

圖 1 顯示了 FIRA 和 IIRA 的簡化方框圖，以及它們與其余處理器系統和資源的交互方式。

FIRA 和 IIRA 模塊均主要包含一個計算引擎（乘累加(MAC)單元）以及一個小的本地數據和系數 RAM。

為開始進行 FIRA/IIRA 處理，內核使用通道特定信息初始化處理器存儲器中的 DMA 傳輸控制塊(TCB)鏈。然后將該 TCB 鏈的起始地址寫入 FIRA/IIRA 鏈指針寄存器，隨后配置 FIRA/IIRA 控制寄存器以啟動加速器處理。一旦所有通道的配置完成，就會向內核發送一個中斷，以便內核將處理后的輸出用于后續操作。

從理論上講，最好的方法是將所有 FIR 和 / 或 IIR 任務從內核轉移給加速器，并允許內核同時執行其他操作。但在實踐中，這并非始終可行，特別是當內核需要使用加速器輸出進一步處理，并且沒有其他獨立的任務需要同時完成時。在這種情況下，我們需要選擇合適的加速器使用模型來達到最佳效果。.

在本文中，我們將討論針對不同應用場景充分利用這些加速器的各種模型。

實時使用 FIRA 和 IIRA

圖 2. 典型實時音頻數據流

圖 2 顯示了典型實時 PCM 音頻數據流圖。一幀數字化 PCM 音頻數據通過同步串行端口(SPORT)接收，并通過直接存儲器訪問(DMA)發送至存儲器。在繼續接收幀 N+1 時，幀 N 由內核和 / 或加速器處理，之前處理的幀(N-1)的輸出通過 SPORT 發送至 DAC 進行數模轉換。

加速器使用模型

如前所述，根據應用的不同，可能需要以不同的方式使用加速器，以最大限度分擔 FIR 和 / 或 IIR 處理任務，并盡可能節省內核周期以用于其他操作。從高層次角度來看，加速器使用模型可分為三類：直接替代、拆分任務和數據流水線。

直接替代

內核 FIR 和 / 或 IIR 處理直接被加速器替代，內核只需等待加速器完成此任務。

此模型僅在加速器的處理速度比內核快時才有效；即，使用 FIRA 模塊。

拆分任務

FIR 和 / 或 IIR 處理任務在內核和加速器之間分配。

當多個通道可并行處理時，此模型特別有用。

根據粗略的時序估算，在內核和加速器之間分配通道總數，使二者大致能夠同時完成任務。

如圖 3 所示，與直接替代模型相比，此使用模型可節省更多的內核周期。

數據流水線

內核和加速器之間的數據流可進行流水線處理，使二者能夠在不同數據幀上并行處理。

如圖 3 所示，內核處理第 N 個幀，然后啟動加速器對該幀進行處理。內核隨后繼續進一步并行處理加速器在上一迭代中產生的第 N-1 幀的輸出。該序列允許將 FIR 和 / 或 IIR 處理任務完全轉移給加速器，但輸出會有一些延遲。

流水線級以及輸出延遲都可能會增加，具體取決于完整處理鏈中此類 FIR 和 / 或 IIR 處理級的數量。

圖 3 說明了音頻數據幀如何在不同加速器使用模型的三個階段之間傳輸 ---DMA IN、內核 / 加速器處理和 DMA OUT。它還顯示了通過采用不同的加速器使用模型將 FIR/IIR 全部或部分處理轉移到加速器上，與僅使用內核模型相比，內核空閑周期如何增加。

圖 3. 加速器使用模型比較

SHARC 處理器上的 FIRA 和 IIRA

以下 ADI SHARC?處理器系列支持片內 FIRA 和 IIRA（從舊到新）。

https://www.analog.com/en/search.html?q=ADSP-214xxADSP-214xx? (例如， https://www.analog.com/cn/products/adsp-21489.htmlADSP-21489)

https://www.analog.com/cn/products/landing-pages/001/adsp-sc58x-adsp-2158x-series.htmlADSP-SC58x

https://www.analog.com/cn/products/landing-pages/001/adsp-sc57x-2157x-family.htmlADSP-SC57x? /https://www.analog.com/cn/products/landing-pages/001/adsp-sc57x-2157x-family.htmlADSP-2157x

https://www.analog.com/cn/products/landing-pages/001/adsp-2156x-family.htmlADSP-2156x

這些處理器系列：

計算速度不同

基本編程模型保持不變，ADSP-2156x 處理器上的自動配置模式(ACM)除外。

FIRA 有四個 MAC 單元，而 IIRA 只有一個 MAC 單元。

ADSP-2156x 處理器上的 FIRA/IIRA 改進

ADSP-2156x 是 SHARC 處理器系列中的最新的產品。它是第一款單核 1 GHz SHARC 處理器，其 FIRA 和 IIRA 也可在 1 GHz 下運行。ADSP-2156x 處理器上的 FIRA 和 IIRA 與其前代 ADSP-SC58x/ADSP-SC57x 處理器相比，具有多項改進。

性能改進

計算速度提高了 8 倍（從 SCLK-125 MHz 至 CCLK-1 GHz）。

由于內核和加速器借助專用內核結構實現了更緊密的集成，因此減少了內核和加速器之間的數據和 MMR 訪問延遲。

功能改進

添加了 ACM 支持，以盡量減少進行加速器處理所需的內核干預。此模式主要具有以下新特性：

允許加速器暫停以進行動態任務排隊。

無通道數限制。

支持觸發生成（主器件）和觸發等待（從器件）。

為每個通道生成選擇性中斷。

實驗結果

在本節中，我們將討論在 ADSP-2156x 評估板上，借助不同的加速器使用模型實施兩個實時多通道 FIR/IIR 用例的結果

用例 1

圖 4 顯示用例 1 的方框圖。采樣率為 48 kHz，模塊大小為 256 個采樣點，拆分任務模型中使用的內核與加速器通道比為 5:7。

表 1 顯示測得的內核和 FIRA MIPS 數量，以及與僅使用內核模型相比獲得的節約內核 MIPS 結果。表中還顯示了相應使用模型增加的額外輸出延遲。正如我們所看到的，使用加速器配合數據流水線使用模型，可節約高達 335 內核 MIPS，但導致 1 塊(5.33 ms)的輸出延遲。直接替代和拆分任務使用模型也分別可節約 98 MIPS 和 189 MIPS，而且未導致任何額外的輸出延遲。

圖 4. 用例 1 方框圖

表 1. 用例 1 的內核和 FIR/IIRA MIPS 總結

用例 2

圖 5 顯示用例 2 的方框圖。采樣率為 48 kHz，模塊大小為 128 個采樣點，拆分任務模型中使用的內核與加速器通道比為 1:1。

與表 1 一樣，表 2 也顯示了此用例的結果。正如我們所看到的，使用加速器配合數據流水線使用模型，可節約高達 490 內核 MIPS，但導致 1 模塊(2.67 ms)的輸出延遲。拆分任務使用模型可節約 234 內核 MIPS，而沒有導致任何額外輸出延遲。請注意，與用例 1 中不同，在用例 2 中內核使用頻域（快速卷積）處理，而非時域處理。這就是為何處理一個通道所需的內核 MIPS 比 FIRA MIPS 少的原因，這可導致直接替代使用模型實現負的內核 MIPS 節約。