FFTW 3.3.5: Advanced distributed-transpose interface

cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: FFTW 3.3.5: Advanced distributed-transpose interface cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: cannam@127:

cannam@127: cannam@127:

6.7.2 Advanced distributed-transpose interface

cannam@127: cannam@127:

The above routines are for a transpose of a matrix of numbers (of type cannam@127: double), using FFTW’s default block sizes. More generally, one cannam@127: can perform transposes of tuples of numbers, with cannam@127: user-specified block sizes for the input and output: cannam@127:

cannam@127:

fftw_plan fftw_mpi_plan_many_transpose
cannam@127:                 (ptrdiff_t n0, ptrdiff_t n1, ptrdiff_t howmany,
cannam@127:                  ptrdiff_t block0, ptrdiff_t block1,
cannam@127:                  double *in, double *out, MPI_Comm comm, unsigned flags);
cannam@127:

cannam@127: cannam@127: cannam@127:

In this case, one is transposing an n0 by n1 matrix of cannam@127: howmany-tuples (e.g. howmany = 2 for complex numbers). cannam@127: The input is distributed along the n0 dimension with block size cannam@127: block0, and the n1 by n0 output is distributed cannam@127: along the n1 dimension with block size block1. If cannam@127: FFTW_MPI_DEFAULT_BLOCK (0) is passed for a block size then FFTW cannam@127: uses its default block size. To get the local size of the data on cannam@127: each process, you should then call fftw_mpi_local_size_many_transposed. cannam@127: cannam@127: cannam@127:

cannam@127: cannam@127: cannam@127: cannam@127: cannam@127: