CPL - Chalmers Publication Library
| Utbildning | Forskning | Styrkeområden | Om Chalmers | In English In English Ej inloggad.

Separable 2D Convolution with Polymorphic Register Files

Catalin Ciobanu (Institutionen för data- och informationsteknik, Datorteknik (Chalmers)) ; Georgi N. Gaydadjiev (Institutionen för data- och informationsteknik, Datorteknik (Chalmers))
Proc of 26th International Conference on Architecture of Computing Systems - ARCS 2013 (0302-9743). Vol. 7767 (2013), p. 317-328.
[Konferensbidrag, refereegranskat]

This paper studies the performance of separable 2D convolution on multi-lane Polymorphic Register Files (PRFs). We present a matrix transposition algorithm optimized for PRFs, and a 2D vectorized convolution algorithm which avoids strided memory accesses. We compare the throughput of our PRF to the NVIDIA Tesla C2050 GPU. The results show that even in bandwidth constrained systems, multi-lane PRFs can outperform the GPU for 9 × 9 or larger mask sizes.



Den här publikationen ingår i följande styrkeområden:

Läs mer om Chalmers styrkeområden  

Denna post skapades 2013-02-26. Senast ändrad 2016-08-30.
CPL Pubid: 174150

 

Läs direkt!


Länk till annan sajt (kan kräva inloggning)