From e47f8fd96999265d1059d4eb801664394580b666 Mon Sep 17 00:00:00 2001
From: pnunna93 <Prasanth.Nunna@amd.com>
Date: Thu, 12 Oct 2023 18:38:20 +0000
Subject: [PATCH 01/49] Add hipification changes

---
 cupy/cuda/cupy_cufft.h                     |   5 +
 cupy/random/cupy_distributions.cuh         |   4 +-
 cupy_backends/cuda/libs/curand.pxd         |  48 ++-
 cupy_backends/cuda/libs/curand.pyx         | 432 ++++++++++-----------
 cupy_backends/hip/cupy_hip_common.h        |  10 +
 cupy_backends/hip/cupy_hipblas.h           |   4 +
 cupy_backends/hip/cupy_hiprand.h           |  92 +----
 cupy_backends/hip/cupy_hipsparse.h         |   4 +
 cupy_backends/hip/cupy_rccl.h              |   5 +
 install/amd_build/rocm_custom_mapping.json |   5 +
 install/cupy_builder/_command.py           |   4 +
 install/cupy_builder/_features.py          |  14 +-
 install/cupy_builder/install_build.py      |   5 +
 install/cupy_builder/install_utils.py      |  10 +
 setup.py                                   |  20 +
 15 files changed, 330 insertions(+), 332 deletions(-)
 create mode 100644 install/amd_build/rocm_custom_mapping.json

diff --git a/cupy/cuda/cupy_cufft.h b/cupy/cuda/cupy_cufft.h
index 1ccecdefb34..6ec5134a786 100644
--- a/cupy/cuda/cupy_cufft.h
+++ b/cupy/cuda/cupy_cufft.h
@@ -12,7 +12,12 @@
 #include <cufftXt.h>
 
 #elif defined(CUPY_USE_HIP)
+#include <hip/hip_version.h> //for HIP_VERSION
+#if HIP_VERSION >= 50530600
+#include <hipfft/hipfft.h>
+#else
 #include <hipfft.h>
+#endif
 
 extern "C" {
 
diff --git a/cupy/random/cupy_distributions.cuh b/cupy/random/cupy_distributions.cuh
index f010bff6cac..87678790620 100644
--- a/cupy/random/cupy_distributions.cuh
+++ b/cupy/random/cupy_distributions.cuh
@@ -34,7 +34,9 @@ struct rk_binomial_state {
 // When compiling cython extensions with hip 4.0
 // gcc will be used, but the hiprand_kernel can only be compiled with llvm
 // so we need to explicitly declare stubs for the functions
-#if HIP_VERSION > 400
+#if HIP_VERSION >= 50530600
+#include <hiprand/hiprand_kernel.h>
+#elif HIP_VERSION > 400
 #include <hiprand_kernel.h>
 #else
 #include <hiprand.h>
diff --git a/cupy_backends/cuda/libs/curand.pxd b/cupy_backends/cuda/libs/curand.pxd
index 33a4fa4e85b..fa4b6773834 100644
--- a/cupy_backends/cuda/libs/curand.pxd
+++ b/cupy_backends/cuda/libs/curand.pxd
@@ -12,21 +12,33 @@ cdef extern from *:
 ###############################################################################
 # Enum
 ###############################################################################
-
-cpdef enum:
-    CURAND_RNG_PSEUDO_DEFAULT = 100
-    CURAND_RNG_PSEUDO_XORWOW = 101
-    CURAND_RNG_PSEUDO_MRG32K3A = 121
-    CURAND_RNG_PSEUDO_MTGP32 = 141
-    CURAND_RNG_PSEUDO_MT19937 = 142
-    CURAND_RNG_PSEUDO_PHILOX4_32_10 = 161
-    CURAND_RNG_QUASI_DEFAULT = 200
-    CURAND_RNG_QUASI_SOBOL32 = 201
-    CURAND_RNG_QUASI_SCRAMBLED_SOBOL32 = 202
-    CURAND_RNG_QUASI_SOBOL64 = 203
-    CURAND_RNG_QUASI_SCRAMBLED_SOBOL64 = 204
-
-    CURAND_ORDERING_PSEUDO_BEST = 100
-    CURAND_ORDERING_PSEUDO_DEFAULT = 101
-    CURAND_ORDERING_PSEUDO_SEEDED = 102
-    CURAND_ORDERING_QUASI_DEFAULT = 201
+IF CUPY_HIP_VERSION > 0:
+    cpdef enum:
+        CURAND_RNG_PSEUDO_DEFAULT = 400
+        CURAND_RNG_PSEUDO_XORWOW = 401
+        CURAND_RNG_PSEUDO_MRG32K3A = 402
+        CURAND_RNG_PSEUDO_MTGP32 = 403
+        CURAND_RNG_PSEUDO_MT19937 = 404
+        CURAND_RNG_PSEUDO_PHILOX4_32_10 = 405
+        CURAND_RNG_QUASI_DEFAULT = 500
+        CURAND_RNG_QUASI_SOBOL32 = 501
+        CURAND_RNG_QUASI_SCRAMBLED_SOBOL32 = 502
+        CURAND_RNG_QUASI_SOBOL64 = 503
+        CURAND_RNG_QUASI_SCRAMBLED_SOBOL64 = 504
+ELSE:
+    cpdef enum:
+        CURAND_RNG_PSEUDO_DEFAULT = 100
+        CURAND_RNG_PSEUDO_XORWOW = 101
+        CURAND_RNG_PSEUDO_MRG32K3A = 121
+        CURAND_RNG_PSEUDO_MTGP32 = 141
+        CURAND_RNG_PSEUDO_MT19937 = 142
+        CURAND_RNG_PSEUDO_PHILOX4_32_10 = 161
+        CURAND_RNG_QUASI_DEFAULT = 200
+        CURAND_RNG_QUASI_SOBOL32 = 201
+        CURAND_RNG_QUASI_SCRAMBLED_SOBOL32 = 202
+        CURAND_RNG_QUASI_SOBOL64 = 203
+        CURAND_RNG_QUASI_SCRAMBLED_SOBOL64 = 204
+        CURAND_ORDERING_PSEUDO_BEST = 100
+        CURAND_ORDERING_PSEUDO_DEFAULT = 101
+        CURAND_ORDERING_PSEUDO_SEEDED = 102
+        CURAND_ORDERING_QUASI_DEFAULT = 201
diff --git a/cupy_backends/cuda/libs/curand.pyx b/cupy_backends/cuda/libs/curand.pyx
index d8e8df97036..8f254382392 100644
--- a/cupy_backends/cuda/libs/curand.pyx
+++ b/cupy_backends/cuda/libs/curand.pyx
@@ -10,224 +10,214 @@ from cupy_backends.cuda cimport stream as stream_module
 # Extern
 ###############################################################################
 
-cdef extern from '../../cupy_rand.h' nogil:
-    ctypedef void* Stream 'cudaStream_t'
-
-    # Generator
-    int curandCreateGenerator(Generator* generator, int rng_type)
-    int curandDestroyGenerator(Generator generator)
-    int curandGetVersion(int* version)
-
-    # Stream
-    int curandSetStream(Generator generator, Stream stream)
-    int curandSetPseudoRandomGeneratorSeed(
-        Generator generator, unsigned long long seed)
-    int curandSetGeneratorOffset(
-        Generator generator, unsigned long long offset)
-    int curandSetGeneratorOrdering(Generator generator, Ordering order)
-
-    # Generation functions
-    int curandGenerate(
-        Generator generator, unsigned int* outputPtr, size_t num)
-    int curandGenerateLongLong(
-        Generator generator, unsigned long long* outputPtr, size_t num)
-    int curandGenerateUniform(
-        Generator generator, float* outputPtr, size_t num)
-    int curandGenerateUniformDouble(
-        Generator generator, double* outputPtr, size_t num)
-    int curandGenerateNormal(
-        Generator generator, float* outputPtr, size_t num,
-        float mean, float stddev)
-    int curandGenerateNormalDouble(
-        Generator generator, double* outputPtr, size_t n,
-        double mean, double stddev)
-    int curandGenerateLogNormal(
-        Generator generator, float* outputPtr, size_t n,
-        float mean, float stddev)
-    int curandGenerateLogNormalDouble(
-        Generator generator, double* outputPtr, size_t n,
-        double mean, double stddev)
-    int curandGeneratePoisson(
-        Generator generator, unsigned int* outputPtr, size_t n, double lam)
-
-
-###############################################################################
-# Error handling
-###############################################################################
-
-STATUS = {
-    0: 'CURAND_STATUS_SUCCESS',
-    100: 'CURAND_STATUS_VERSION_MISMATCH',
-    101: 'CURAND_STATUS_NOT_INITIALIZED',
-    102: 'CURAND_STATUS_ALLOCATION_FAILED',
-    103: 'CURAND_STATUS_TYPE_ERROR',
-    104: 'CURAND_STATUS_OUT_OF_RANGE',
-    105: 'CURAND_STATUS_LENGTH_NOT_MULTIPLE',
-    106: 'CURAND_STATUS_DOUBLE_PRECISION_REQUIRED',
-    201: 'CURAND_STATUS_LAUNCH_FAILURE',
-    202: 'CURAND_STATUS_PREEXISTING_FAILURE',
-    203: 'CURAND_STATUS_INITIALIZATION_FAILED',
-    204: 'CURAND_STATUS_ARCH_MISMATCH',
-    999: 'CURAND_STATUS_INTERNAL_ERROR',
-}
-
-
-class CURANDError(RuntimeError):
-
-    def __init__(self, status):
-        self.status = status
-        super(CURANDError, self).__init__(STATUS[status])
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise CURANDError(status)
-
-
-###############################################################################
-# Generator
-###############################################################################
-
-cpdef size_t createGenerator(int rng_type) except? 0:
-    cdef Generator generator
-    with nogil:
-        status = curandCreateGenerator(&generator, <RngType>rng_type)
-    check_status(status)
-    return <size_t>generator
-
-
-cpdef destroyGenerator(size_t generator):
-    status = curandDestroyGenerator(<Generator>generator)
-    check_status(status)
-
-
-cpdef int getVersion() except? -1:
-    cdef int version
-    status = curandGetVersion(&version)
-    check_status(status)
-    return version
-
-
-cpdef setStream(size_t generator, size_t stream):
-    # TODO(leofang): The support of stream capture is not mentioned at all in
-    # the cuRAND docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
-        raise NotImplementedError(
-            'calling cuRAND API during stream capture is currently '
-            'unsupported')
-
-    status = curandSetStream(<Generator>generator, <Stream>stream)
-    check_status(status)
-
-
-cdef _setStream(size_t generator):
-    """Set current stream"""
-    setStream(generator, stream_module.get_current_stream_ptr())
-
-
-cpdef setPseudoRandomGeneratorSeed(size_t generator, unsigned long long seed):
-    status = curandSetPseudoRandomGeneratorSeed(<Generator>generator, seed)
-    check_status(status)
-
-
-cpdef setGeneratorOffset(size_t generator, unsigned long long offset):
-    status = curandSetGeneratorOffset(<Generator>generator, offset)
-    check_status(status)
-
-
-cpdef setGeneratorOrdering(size_t generator, int order):
-    status = curandSetGeneratorOrdering(<Generator>generator, <Ordering>order)
-    check_status(status)
-
-
-###############################################################################
-# Generation functions
-###############################################################################
-
-cpdef generate(size_t generator, size_t outputPtr, size_t num):
-    _setStream(generator)
-    status = curandGenerate(
-        <Generator>generator, <unsigned int*>outputPtr, num)
-    check_status(status)
-
-
-cpdef generateLongLong(size_t generator, size_t outputPtr, size_t num):
-    _setStream(generator)
-    status = curandGenerateLongLong(
-        <Generator>generator, <unsigned long long*>outputPtr, num)
-    check_status(status)
-
-
-cpdef generateUniform(size_t generator, size_t outputPtr, size_t num):
-    _setStream(generator)
-    status = curandGenerateUniform(
-        <Generator>generator, <float*>outputPtr, num)
-    check_status(status)
-
-
-cpdef generateUniformDouble(size_t generator, size_t outputPtr, size_t num):
-    _setStream(generator)
-    status = curandGenerateUniformDouble(
-        <Generator>generator, <double*>outputPtr, num)
-    check_status(status)
-
-
-cpdef generateNormal(size_t generator, size_t outputPtr, size_t n,
-                     float mean, float stddev):
-    if n % 2 == 1:
-        msg = ('curandGenerateNormal can only generate even number of '
-               'random variables simultaneously. See issue #390 for detail.')
-        raise ValueError(msg)
-    _setStream(generator)
-    status = curandGenerateNormal(
-        <Generator>generator, <float*>outputPtr, n, mean, stddev)
-    check_status(status)
-
-
-cpdef generateNormalDouble(size_t generator, size_t outputPtr, size_t n,
-                           float mean, float stddev):
-    if n % 2 == 1:
-        msg = ('curandGenerateNormalDouble can only generate even number of '
-               'random variables simultaneously. See issue #390 for detail.')
-        raise ValueError(msg)
-    _setStream(generator)
-    status = curandGenerateNormalDouble(
-        <Generator>generator, <double*>outputPtr, n, mean, stddev)
-    check_status(status)
-
-
-def generateLogNormal(size_t generator, size_t outputPtr, size_t n,
-                      float mean, float stddev):
-    if n % 2 == 1:
-        msg = ('curandGenerateLogNormal can only generate even number of '
-               'random variables simultaneously. See issue #390 for detail.')
-        raise ValueError(msg)
-    _setStream(generator)
-    status = curandGenerateLogNormal(
-        <Generator>generator, <float*>outputPtr, n, mean, stddev)
-    check_status(status)
-
-
-cpdef generateLogNormalDouble(size_t generator, size_t outputPtr, size_t n,
-                              float mean, float stddev):
-    if n % 2 == 1:
-        msg = ('curandGenerateLogNormalDouble can only generate even number '
-               'of random variables simultaneously. See issue #390 for '
-               'detail.')
-        raise ValueError(msg)
-    _setStream(generator)
-    status = curandGenerateLogNormalDouble(
-        <Generator>generator, <double*>outputPtr, n, mean, stddev)
-    check_status(status)
-
-
-cpdef generatePoisson(size_t generator, size_t outputPtr, size_t n,
-                      double lam):
-    _setStream(generator)
-    status = curandGeneratePoisson(
-        <Generator>generator, <unsigned int*>outputPtr, n, lam)
-    check_status(status)
+IF CUPY_USE_GEN_HIP_CODE:
+    from cupy_backends.cuda.libs.curand_hip import *
+ELSE:
+    ##########################################################################
+    # Extern
+    ##########################################################################
+
+    cdef extern from '../../cupy_rand.h' nogil:
+        ctypedef void* Stream 'cudaStream_t'
+
+        # Generator
+        int curandCreateGenerator(Generator* generator, int rng_type)
+        int curandDestroyGenerator(Generator generator)
+        int curandGetVersion(int* version)
+
+        # Stream
+        int curandSetStream(Generator generator, Stream stream)
+        int curandSetPseudoRandomGeneratorSeed(
+            Generator generator, unsigned long long seed)
+        int curandSetGeneratorOffset(
+            Generator generator, unsigned long long offset)
+        int curandSetGeneratorOrdering(Generator generator, Ordering order)
+
+        # Generation functions
+        int curandGenerate(
+            Generator generator, unsigned int* outputPtr, size_t num)
+        int curandGenerateLongLong(
+            Generator generator, unsigned long long* outputPtr, size_t num)
+        int curandGenerateUniform(
+            Generator generator, float* outputPtr, size_t num)
+        int curandGenerateUniformDouble(
+            Generator generator, double* outputPtr, size_t num)
+        int curandGenerateNormal(
+            Generator generator, float* outputPtr, size_t num,
+            float mean, float stddev)
+        int curandGenerateNormalDouble(
+            Generator generator, double* outputPtr, size_t n,
+            double mean, double stddev)
+        int curandGenerateLogNormal(
+            Generator generator, float* outputPtr, size_t n,
+            float mean, float stddev)
+        int curandGenerateLogNormalDouble(
+            Generator generator, double* outputPtr, size_t n,
+            double mean, double stddev)
+        int curandGeneratePoisson(
+            Generator generator, unsigned int* outputPtr, size_t n, double lam)
+
+    ##########################################################################
+    # Error handling
+    ##########################################################################
+
+    STATUS = {
+        0: 'CURAND_STATUS_SUCCESS',
+        100: 'CURAND_STATUS_VERSION_MISMATCH',
+        101: 'CURAND_STATUS_NOT_INITIALIZED',
+        102: 'CURAND_STATUS_ALLOCATION_FAILED',
+        103: 'CURAND_STATUS_TYPE_ERROR',
+        104: 'CURAND_STATUS_OUT_OF_RANGE',
+        105: 'CURAND_STATUS_LENGTH_NOT_MULTIPLE',
+        106: 'CURAND_STATUS_DOUBLE_PRECISION_REQUIRED',
+        201: 'CURAND_STATUS_LAUNCH_FAILURE',
+        202: 'CURAND_STATUS_PREEXISTING_FAILURE',
+        203: 'CURAND_STATUS_INITIALIZATION_FAILED',
+        204: 'CURAND_STATUS_ARCH_MISMATCH',
+        999: 'CURAND_STATUS_INTERNAL_ERROR',
+    }
+
+    class CURANDError(RuntimeError):
+        def __init__(self, status):
+            self.status = status
+            super(CURANDError, self).__init__(STATUS[status])
+
+        def __reduce__(self):
+            return (type(self), (self.status,))
+
+    @cython.profile(False)
+    cpdef inline check_status(int status):
+        if status != 0:
+            raise CURANDError(status)
+
+    ###########################################################################
+
+    cpdef size_t createGenerator(int rng_type) except? 0:
+        cdef Generator generator
+        with nogil:
+            status = curandCreateGenerator(&generator, <RngType>rng_type)
+        check_status(status)
+        return <size_t>generator
+
+    cpdef destroyGenerator(size_t generator):
+        status = curandDestroyGenerator(<Generator>generator)
+        check_status(status)
+
+    cpdef int getVersion() except? -1:
+        cdef int version
+        status = curandGetVersion(&version)
+        check_status(status)
+        return version
+
+    cpdef setStream(size_t generator, size_t stream):
+        # TODO(leofang): The support of stream capture is not mentioned at all
+        # in the cuRAND docs (as of CUDA 11.5),
+        # so we disable this functionality.
+        if not runtime._is_hip_environment and \
+           runtime.streamIsCapturing(stream):
+            raise NotImplementedError(
+                'calling cuRAND API during stream capture is currently '
+                'unsupported')
+
+        status = curandSetStream(<Generator>generator, <Stream>stream)
+        check_status(status)
+
+    cdef _setStream(size_t generator):
+        """Set current stream"""
+        setStream(generator, stream_module.get_current_stream_ptr())
+
+    cpdef setPseudoRandomGeneratorSeed(size_t generator,
+                                       unsigned long long seed):
+        status = curandSetPseudoRandomGeneratorSeed(<Generator>generator, seed)
+        check_status(status)
+
+    cpdef setGeneratorOffset(size_t generator, unsigned long long offset):
+        status = curandSetGeneratorOffset(<Generator>generator, offset)
+        check_status(status)
+
+    cpdef setGeneratorOrdering(size_t generator, int order):
+        status = curandSetGeneratorOrdering(<Generator>generator,
+                                            <Ordering>order)
+        check_status(status)
+
+    ###########################################################################
+
+    cpdef generate(size_t generator, size_t outputPtr, size_t num):
+        _setStream(generator)
+        status = curandGenerate(
+            <Generator>generator, <unsigned int*>outputPtr, num)
+        check_status(status)
+
+    cpdef generateLongLong(size_t generator, size_t outputPtr, size_t num):
+        _setStream(generator)
+        status = curandGenerateLongLong(
+            <Generator>generator, <unsigned long long*>outputPtr, num)
+        check_status(status)
+
+    cpdef generateUniform(size_t generator, size_t outputPtr, size_t num):
+        _setStream(generator)
+        status = curandGenerateUniform(
+            <Generator>generator, <float*>outputPtr, num)
+        check_status(status)
+
+    cpdef generateUniformDouble(size_t generator, size_t outputPtr,
+                                size_t num):
+        _setStream(generator)
+        status = curandGenerateUniformDouble(
+            <Generator>generator, <double*>outputPtr, num)
+        check_status(status)
+
+    cpdef generateNormal(size_t generator, size_t outputPtr, size_t n,
+                         float mean, float stddev):
+        if n % 2 == 1:
+            msg = ('curandGenerateNormal can only generate even number of '
+                   'random variables simultaneously.'
+                   'See issue #390 for detail.')
+            raise ValueError(msg)
+        _setStream(generator)
+        status = curandGenerateNormal(
+            <Generator>generator, <float*>outputPtr, n, mean, stddev)
+        check_status(status)
+
+    cpdef generateNormalDouble(size_t generator, size_t outputPtr, size_t n,
+                               float mean, float stddev):
+        if n % 2 == 1:
+            msg = ('curandGenerateNormalDouble can only generate '
+                   'even number of random variables simultaneously. '
+                   'See issue #390 for detail.')
+            raise ValueError(msg)
+        _setStream(generator)
+        status = curandGenerateNormalDouble(
+            <Generator>generator, <double*>outputPtr, n, mean, stddev)
+        check_status(status)
+
+    def generateLogNormal(size_t generator, size_t outputPtr, size_t n,
+                          float mean, float stddev):
+        if n % 2 == 1:
+            msg = ('curandGenerateLogNormal can only generate even number of '
+                   'random variables simultaneously. '
+                   'See issue #390 for detail.')
+            raise ValueError(msg)
+        _setStream(generator)
+        status = curandGenerateLogNormal(
+            <Generator>generator, <float*>outputPtr, n, mean, stddev)
+        check_status(status)
+
+    cpdef generateLogNormalDouble(size_t generator, size_t outputPtr, size_t n,
+                                  float mean, float stddev):
+        if n % 2 == 1:
+            msg = ('curandGenerateLogNormalDouble can only generate '
+                   'even number of random variables simultaneously. '
+                   'See issue #390 for detail.')
+            raise ValueError(msg)
+        _setStream(generator)
+        status = curandGenerateLogNormalDouble(
+            <Generator>generator, <double*>outputPtr, n, mean, stddev)
+        check_status(status)
+
+    cpdef generatePoisson(size_t generator, size_t outputPtr, size_t n,
+                          double lam):
+        _setStream(generator)
+        status = curandGeneratePoisson(
+            <Generator>generator, <unsigned int*>outputPtr, n, lam)
+        check_status(status)
diff --git a/cupy_backends/hip/cupy_hip_common.h b/cupy_backends/hip/cupy_hip_common.h
index 37b96cd1122..0bb138e6c93 100644
--- a/cupy_backends/hip/cupy_hip_common.h
+++ b/cupy_backends/hip/cupy_hip_common.h
@@ -2,8 +2,16 @@
 #define INCLUDE_GUARD_HIP_CUPY_COMMON_H
 
 #include <hip/hip_runtime_api.h>
+#include <hip/library_types.h>
+#if HIP_VERSION >= 50530600
+#include <hipblas/hipblas.h>
+#include <rocsolver/rocsolver.h>
+#include <hipsolver/hipsolver.h>
+#else
 #include <hipblas.h>
 #include <rocsolver.h>
+#include <hipsolver.h>
+#endif
 
 #define CUDA_VERSION 0
 
@@ -151,6 +159,8 @@ typedef enum libraryPropertyType_t {
     PATCH_LEVEL
 } libraryPropertyType;
 
+typedef enum hipLibraryPropertyType hipLibraryPropertyType_t;
+
 } // extern "C"
 
 #endif // #ifndef INCLUDE_GUARD_HIP_CUPY_COMMON_H
diff --git a/cupy_backends/hip/cupy_hipblas.h b/cupy_backends/hip/cupy_hipblas.h
index 627bc8681d8..1c406f1fd9e 100644
--- a/cupy_backends/hip/cupy_hipblas.h
+++ b/cupy_backends/hip/cupy_hipblas.h
@@ -2,7 +2,11 @@
 #define INCLUDE_GUARD_HIP_CUPY_HIPBLAS_H
 
 #include "cupy_hip_common.h"
+#if HIP_VERSION >= 50530600
+#include <hipblas/hipblas.h>
+#else
 #include <hipblas.h>
+#endif
 #include <hip/hip_version.h>  // for HIP_VERSION
 #include <stdexcept>  // for gcc 10
 
diff --git a/cupy_backends/hip/cupy_hiprand.h b/cupy_backends/hip/cupy_hiprand.h
index d3f7a6a974e..77f52e8cfcb 100644
--- a/cupy_backends/hip/cupy_hiprand.h
+++ b/cupy_backends/hip/cupy_hiprand.h
@@ -2,102 +2,20 @@
 #define INCLUDE_GUARD_HIP_CUPY_HIPRAND_H
 
 #include <hiprand/hiprand.h>
-#include "cupy_hip_common.h"
 
 extern "C" {
 
-typedef enum {} curandOrdering_t;
-typedef hiprandRngType curandRngType_t;
-typedef hiprandStatus_t curandStatus_t;
+typedef enum {} hiprandOrdering_t;
 
-typedef hiprandGenerator_t curandGenerator_t;
-
-curandRngType_t convert_hiprandRngType(curandRngType_t t) {
-    switch(static_cast<int>(t)) {
-    case 100: return HIPRAND_RNG_PSEUDO_DEFAULT;
-    case 101: return HIPRAND_RNG_PSEUDO_XORWOW;
-    case 121: return HIPRAND_RNG_PSEUDO_MRG32K3A;
-    case 141: return HIPRAND_RNG_PSEUDO_MTGP32;
-    case 142: return HIPRAND_RNG_PSEUDO_MT19937;
-    case 161: return HIPRAND_RNG_PSEUDO_PHILOX4_32_10;
-    case 200: return HIPRAND_RNG_QUASI_DEFAULT;
-    case 201: return HIPRAND_RNG_QUASI_SOBOL32;
-    case 202: return HIPRAND_RNG_QUASI_SCRAMBLED_SOBOL32;
-    case 203: return HIPRAND_RNG_QUASI_SOBOL64;
-    case 204: return HIPRAND_RNG_QUASI_SCRAMBLED_SOBOL64;
-    }
-    return HIPRAND_RNG_TEST;
-}
-
-// curandGenerator_t
-curandStatus_t curandCreateGenerator(curandGenerator_t *generator, curandRngType_t rng_type) {
-    rng_type = convert_hiprandRngType(rng_type);
-    return hiprandCreateGenerator(generator, rng_type);
-}
-
-curandStatus_t curandDestroyGenerator(curandGenerator_t generator) {
-    return hiprandDestroyGenerator(generator);
-}
-
-curandStatus_t curandGetVersion(int *version) {
-    return hiprandGetVersion(version);
-}
-
-
-// Stream
-curandStatus_t curandSetStream(curandGenerator_t generator, cudaStream_t stream) {
-    return hiprandSetStream(generator, stream);
-}
-
-curandStatus_t curandSetPseudoRandomGeneratorSeed(curandGenerator_t generator, unsigned long long seed) {
-    return hiprandSetPseudoRandomGeneratorSeed(generator, seed);
-}
-
-curandStatus_t curandSetGeneratorOffset(curandGenerator_t generator, unsigned long long offset) {
-    return hiprandSetGeneratorOffset(generator, offset);
-}
-
-curandStatus_t curandSetGeneratorOrdering(...) {
+hiprandStatus_t hiprandSetGeneratorOrdering(...) {
     return HIPRAND_STATUS_NOT_IMPLEMENTED;
 }
 
-
-// Generation functions
-curandStatus_t curandGenerate(curandGenerator_t generator, unsigned int *output_data, size_t n) {
-    return hiprandGenerate(generator, output_data, n);
-}
-
-curandStatus_t curandGenerateLongLong(...) {
+#if HIP_VERSION < 50530201
+hiprandStatus_t hiprandGenerateLongLong(...) {
     return HIPRAND_STATUS_NOT_IMPLEMENTED;
 }
-
-curandStatus_t curandGenerateUniform(curandGenerator_t generator, float *output_data, size_t n) {
-    return hiprandGenerateUniform(generator, output_data, n);
-}
-
-curandStatus_t curandGenerateUniformDouble(curandGenerator_t generator, double *output_data, size_t n) {
-    return hiprandGenerateUniformDouble(generator, output_data, n);
-}
-
-curandStatus_t curandGenerateNormal(curandGenerator_t generator, float *output_data, size_t n, float mean, float stddev) {
-    return hiprandGenerateNormal(generator, output_data, n, mean, stddev);
-}
-
-curandStatus_t curandGenerateNormalDouble(curandGenerator_t generator, double *output_data, size_t n, double mean, double stddev) {
-    return hiprandGenerateNormalDouble(generator, output_data, n, mean, stddev);
-}
-
-curandStatus_t curandGenerateLogNormal(curandGenerator_t generator, float *output_data, size_t n, float mean, float stddev) {
-    return hiprandGenerateLogNormal(generator, output_data, n, mean, stddev);
-}
-
-curandStatus_t curandGenerateLogNormalDouble(curandGenerator_t generator, double *output_data, size_t n, double mean, double stddev) {
-    return hiprandGenerateLogNormalDouble(generator, output_data, n, mean, stddev);
-}
-
-curandStatus_t curandGeneratePoisson(curandGenerator_t generator, unsigned int *output_data, size_t n, double lambda) {
-    return hiprandGeneratePoisson(generator, output_data, n, lambda);
-}
+#endif
 
 } // extern "C"
 
diff --git a/cupy_backends/hip/cupy_hipsparse.h b/cupy_backends/hip/cupy_hipsparse.h
index 5b2e9388ef2..db008ebcc0d 100644
--- a/cupy_backends/hip/cupy_hipsparse.h
+++ b/cupy_backends/hip/cupy_hipsparse.h
@@ -2,7 +2,11 @@
 
 #ifndef INCLUDE_GUARD_HIP_CUPY_HIPSPARSE_H
 #define INCLUDE_GUARD_HIP_CUPY_HIPSPARSE_H
+#if HIP_VERSION >= 50530600
+#include <hipsparse/hipsparse.h>
+#else
 #include <hipsparse.h>
+#endif
 #include <hip/hip_version.h>    // for HIP_VERSION
 #include <hip/library_types.h>  // for hipDataType
 #include <stdexcept>  // for gcc 10.0
diff --git a/cupy_backends/hip/cupy_rccl.h b/cupy_backends/hip/cupy_rccl.h
index 94dde35054b..27162014a1b 100644
--- a/cupy_backends/hip/cupy_rccl.h
+++ b/cupy_backends/hip/cupy_rccl.h
@@ -1,7 +1,12 @@
 #ifndef INCLUDE_GUARD_HIP_CUPY_RCCL_H
 #define INCLUDE_GUARD_HIP_CUPY_RCCL_H
 
+#include <hip/hip_version.h>
+#if HIP_VERSION >= 50530600
+#include <rccl/rccl.h>
+#else
 #include <rccl.h>
+#endif
 typedef hipStream_t cudaStream_t;
 
 #endif
diff --git a/install/amd_build/rocm_custom_mapping.json b/install/amd_build/rocm_custom_mapping.json
new file mode 100644
index 00000000000..728ed421b85
--- /dev/null
+++ b/install/amd_build/rocm_custom_mapping.json
@@ -0,0 +1,5 @@
+{
+    "custom_map": {
+        "CUPY_USE_GEN_HIP_CODE" : "CUPY_DONT_USE_GEN_HIP_CODE"
+    }
+}
diff --git a/install/cupy_builder/_command.py b/install/cupy_builder/_command.py
index 6d264c8a402..5526a926d63 100644
--- a/install/cupy_builder/_command.py
+++ b/install/cupy_builder/_command.py
@@ -122,13 +122,17 @@ def _cythonize(self, nthreads: int) -> None:
         if ctx.use_stub:  # on RTD
             compile_time_env['CUPY_CUDA_VERSION'] = 0
             compile_time_env['CUPY_HIP_VERSION'] = 0
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 0
         elif ctx.use_hip:  # on ROCm/HIP
             compile_time_env['CUPY_CUDA_VERSION'] = 0
             compile_time_env['CUPY_HIP_VERSION'] = build.get_hip_version()
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 1
+            compile_time_env['CUPY_DONT_USE_GEN_HIP_CODE'] = 0
         else:  # on CUDA
             compile_time_env['CUPY_CUDA_VERSION'] = (
                 ctx.features['cuda'].get_version())
             compile_time_env['CUPY_HIP_VERSION'] = 0
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 0
 
         print('Compile-time constants: ' +
               json.dumps(compile_time_env, indent=4))
diff --git a/install/cupy_builder/_features.py b/install/cupy_builder/_features.py
index 5329f7e67ad..b6b1f8cbc27 100644
--- a/install/cupy_builder/_features.py
+++ b/install/cupy_builder/_features.py
@@ -152,6 +152,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
     # the HIP stubs (hip/cupy_*.h) would cause many symbols
     # to leak into all these modules even if unused. It's easier for all of
     # them to link to the same set of shared libraries.
+    rocm_version = utils.get_rocm_version()
     HIP_cuda_nvtx_cusolver = {
         # TODO(leofang): call this "rocm" or "hip" to avoid confusion?
         'name': 'cuda',
@@ -160,16 +161,18 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'cupy_backends.cuda.libs.nvtx',
             'cupy_backends.cuda.libs.cusolver',
             'cupyx.cusolver',
+            'cupy_backends.cuda.libs.curand_hip',
         ],
         'include': [
             'hip/hip_runtime_api.h',
             'hip/hiprtc.h',
-            'hipblas.h',
+            'hipblas/hipblas.h' if rocm_version >= 560 else 'hipblas.h',
             'hiprand/hiprand.h',
-            'hipsparse.h',
-            'hipfft.h',
+            'hipsparse/hipsparse.h' if rocm_version >= 560 else 'hipsparse.h',
+            'hipfft/hipfft.h' if rocm_version >= 560 else 'hipfft.h',
             'roctx.h',
-            'rocsolver.h',
+            'rocsolver/rocsolver.h' if rocm_version >= 560 else 'rocsolver.h',
+            'hipsolver/hipsolver.h' if rocm_version >= 560 else 'hipsolver.h',
         ],
         'libraries': [
             'amdhip64',  # was hiprtc and hip_hcc before ROCm 3.8.0
@@ -182,6 +185,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'rocblas',
             'rocsolver',
             'rocsparse',
+            'hipsolver',
         ],
         'check_method': build.check_hip_version,
         'version_method': build.get_hip_version,
@@ -367,7 +371,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'cupy_backends.cuda.libs.nccl',
         ],
         'include': [
-            'rccl.h',
+            'rccl/rccl.h' if rocm_version >= 560 else 'rccl.h',
         ],
         'libraries': [
             'rccl',
diff --git a/install/cupy_builder/install_build.py b/install/cupy_builder/install_build.py
index d1f9be5ccf0..137fc5ec953 100644
--- a/install/cupy_builder/install_build.py
+++ b/install/cupy_builder/install_build.py
@@ -448,8 +448,13 @@ def check_nccl_version(compiler, settings):
                             #ifndef CUPY_USE_HIP
                             #include <nccl.h>
                             #else
+                            #include <hip/hip_version.h>
+                            #if HIP_VERSION >= 50530600
+                            #include <rccl/rccl.h>
+                            #else
                             #include <rccl.h>
                             #endif
+                            #endif
                             #include <stdio.h>
                             #ifdef NCCL_MAJOR
                             #ifndef NCCL_VERSION_CODE
diff --git a/install/cupy_builder/install_utils.py b/install/cupy_builder/install_utils.py
index b7dd550b6bc..caf39c574f5 100644
--- a/install/cupy_builder/install_utils.py
+++ b/install/cupy_builder/install_utils.py
@@ -20,3 +20,13 @@ def search_on_path(filenames: List[str]) -> Optional[str]:
             if os.path.exists(full):
                 return os.path.abspath(full)
     return None
+
+
+def get_rocm_version() -> int:
+    rocm_version = -1
+    if os.getenv("ROCM_HOME"):
+        rocm_home = str(os.getenv("ROCM_HOME"))
+        version_path = os.path.join(rocm_home, ".info", "version")
+        rocm_version = int(
+            open(version_path).read().split("-")[0].replace(".", ""))
+    return rocm_version
diff --git a/setup.py b/setup.py
index 63e4d6bb1d6..c7296478def 100644
--- a/setup.py
+++ b/setup.py
@@ -10,12 +10,32 @@
 
 import cupy_builder  # NOQA
 from cupy_builder import cupy_setup_build  # NOQA
+from cupy_builder.install_utils import get_rocm_version  # NOQA
 
 ctx = cupy_builder.Context(source_root)
 cupy_builder.initialize(ctx)
 if not cupy_builder.preflight_check(ctx):
     sys.exit(1)
 
+# hipify cupy
+if get_rocm_version() > 0:
+    # run hipify.
+    from hipify_torch import hipify_python
+    proj_dir = os.path.join(source_root, "cupy_backends", "cuda")
+    print("INFO: hipification of cupy_backends in progress ...")
+    with hipify_python.GeneratedFileCleaner(keep_intermediates=True) as \
+            clean_ctx:
+        hipify_python.hipify(
+            project_directory=proj_dir,
+            output_directory=proj_dir,
+            includes=['*'],
+            extra_extensions=(".pyx", ".pxd"),
+            show_detailed=True,
+            header_include_dirs=[],
+            custom_map_list="install/amd_build/rocm_custom_mapping.json",
+            is_pytorch_extension=True,
+            clean_ctx=clean_ctx,
+        )
 
 # TODO(kmaehashi): migrate to pyproject.toml (see #4727, #4619)
 setup_requires = [

From fc7f9fa860a46e71b474f87d5eb4769a8943e175 Mon Sep 17 00:00:00 2001
From: pnunna93 <Prasanth.Nunna@amd.com>
Date: Thu, 12 Oct 2023 21:35:12 +0000
Subject: [PATCH 02/49] Enable hipification for nvrtc soft linking

---
 cupy_backends/cuda/libs/nvrtc.pxd |  40 +--
 cupy_backends/cuda/libs/nvrtc.pyx | 459 +++++++++++++++---------------
 install/cupy_builder/_features.py |   1 +
 setup.py                          |   2 +-
 4 files changed, 254 insertions(+), 248 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pxd b/cupy_backends/cuda/libs/nvrtc.pxd
index 12a13cef718..55e57707915 100644
--- a/cupy_backends/cuda/libs/nvrtc.pxd
+++ b/cupy_backends/cuda/libs/nvrtc.pxd
@@ -11,23 +11,23 @@ IF CUPY_USE_CUDA_PYTHON:
     # TODO(kmaehashi): Remove these aliases.
     ctypedef nvrtcProgram Program
 
-cpdef check_status(int status)
-
-cpdef tuple getVersion()
-cpdef tuple getSupportedArchs()
-
-
-###############################################################################
-# Program
-###############################################################################
-
-cpdef intptr_t createProgram(unicode src, unicode name, headers,
-                             include_names) except? 0
-cpdef destroyProgram(intptr_t prog)
-cpdef compileProgram(intptr_t prog, options)
-cpdef bytes getPTX(intptr_t prog)
-cpdef bytes getCUBIN(intptr_t prog)
-cpdef bytes getNVVM(intptr_t prog)
-cpdef unicode getProgramLog(intptr_t prog)
-cpdef addNameExpression(intptr_t prog, str name)
-cpdef str getLoweredName(intptr_t prog, str name)
+IF CUPY_HIP_VERSION == 0:
+    cpdef check_status(int status)
+
+    cpdef tuple getVersion()
+    cpdef tuple getSupportedArchs()
+
+    ##########################################################################
+    # Program
+    ##########################################################################
+
+    cpdef intptr_t createProgram(unicode src, unicode name, headers,
+                                 include_names) except? 0
+    cpdef destroyProgram(intptr_t prog)
+    cpdef compileProgram(intptr_t prog, options)
+    cpdef bytes getPTX(intptr_t prog)
+    cpdef bytes getCUBIN(intptr_t prog)
+    cpdef bytes getNVVM(intptr_t prog)
+    cpdef unicode getProgramLog(intptr_t prog)
+    cpdef addNameExpression(intptr_t prog, str name)
+    cpdef str getLoweredName(intptr_t prog, str name)
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index 38cc2b5c8be..fa0804ef43c 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -20,233 +20,238 @@ from cupy_backends.cuda.api cimport runtime
 ###############################################################################
 # Extern
 ###############################################################################
-
-IF CUPY_USE_CUDA_PYTHON:
-    from cuda.cnvrtc cimport *
-    cdef inline void initialize():
-        pass
+IF CUPY_USE_GEN_HIP_CODE:
+    from cupy_backends.cuda.libs.nvrtc_hip import *
 ELSE:
-    include "_cnvrtc.pxi"
-    pass
-
-
-###############################################################################
-# Error handling
-###############################################################################
-
-class NVRTCError(RuntimeError):
-
-    def __init__(self, status):
-        self.status = status
-        cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
-        super(NVRTCError, self).__init__(
-            '{} ({})'.format(msg.decode(), status))
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise NVRTCError(status)
-
-
-cpdef tuple getVersion():
-    initialize()
-    cdef int major, minor
-    with nogil:
-        status = nvrtcVersion(&major, &minor)
-    check_status(status)
-    return major, minor
-
-
-cpdef tuple getSupportedArchs():
-    initialize()
-    cdef int status, num_archs
-    cdef vector.vector[int] archs
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getSupportedArchs")
-    if runtime.runtimeGetVersion() < 11020:
-        raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
-    with nogil:
-        status = nvrtcGetNumSupportedArchs(&num_archs)
-        if status == 0:
-            archs.resize(num_archs)
-            status = nvrtcGetSupportedArchs(archs.data())
-    check_status(status)
-    return tuple(archs)
-
+    IF CUPY_USE_CUDA_PYTHON:
+        from cuda.cnvrtc cimport *
+        cdef inline void initialize():
+            pass
+    ELSE:
+        IF CUPY_DONT_USE_GEN_HIP_CODE:
+            include "_cnvrtc.pxi"
+        ELSE:
+            include "_cnvrtc_hip.pxi"
+        pass
 
-###############################################################################
-# Program
-###############################################################################
 
-cpdef intptr_t createProgram(unicode src, unicode name, headers,
-                             include_names) except? 0:
-    initialize()
-    cdef Program prog
-    cdef bytes b_src = src.encode()
-    cdef const char* src_ptr = b_src
-    cdef bytes b_name = name.encode()
-    cdef const char* name_ptr
-    if len(name) > 0:
-        name_ptr = b_name
-    else:
-        name_ptr = NULL
-    cdef int num_headers = len(headers)
-    cdef vector.vector[const char*] header_vec
-    cdef vector.vector[const char*] include_name_vec
-    cdef const char** header_vec_ptr = NULL
-    cdef const char** include_name_vec_ptr = NULL
-    assert num_headers == len(include_names)
-    for i in headers:
-        header_vec.push_back(<const char*>i)
-    for i in include_names:
-        include_name_vec.push_back(<const char*>i)
-    if num_headers > 0:
-        header_vec_ptr = header_vec.data()
-        include_name_vec_ptr = include_name_vec.data()
-    with nogil:
-        status = nvrtcCreateProgram(
-            &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
-            include_name_vec_ptr)
-    check_status(status)
-    return <intptr_t>prog
-
-
-cpdef destroyProgram(intptr_t prog):
-    initialize()
-    cdef Program p = <Program>prog
-    with nogil:
-        status = nvrtcDestroyProgram(&p)
-    check_status(status)
-
-
-cpdef compileProgram(intptr_t prog, options):
-    initialize()
-    cdef int option_num = len(options)
-    cdef vector.vector[const char*] option_vec
-    cdef option_list = [opt.encode() for opt in options]
-    cdef const char** option_vec_ptr = NULL
-    for i in option_list:
-        option_vec.push_back(<const char*>i)
-    if option_num > 0:
-        option_vec_ptr = option_vec.data()
-    with nogil:
-        status = nvrtcCompileProgram(<Program>prog, option_num,
-                                     option_vec_ptr)
-    check_status(status)
-
-
-cpdef bytes getPTX(intptr_t prog):
-    initialize()
-    cdef size_t ptxSizeRet
-    cdef vector.vector[char] ptx
-    cdef char* ptx_ptr = NULL
-    with nogil:
-        status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
-    check_status(status)
-    if ptxSizeRet == 0:
-        return b''
-    ptx.resize(ptxSizeRet)
-    ptx_ptr = ptx.data()
-    with nogil:
-        status = nvrtcGetPTX(<Program>prog, ptx_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return ptx_ptr[:ptxSizeRet-1]
-
-
-cpdef bytes getCUBIN(intptr_t prog):
-    initialize()
-    cdef size_t cubinSizeRet = 0
-    cdef vector.vector[char] cubin
-    cdef char* cubin_ptr = NULL
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getCUBIN")
-    if runtime.runtimeGetVersion() < 11010:
-        raise RuntimeError("getCUBIN is supported since CUDA 11.1")
-    with nogil:
-        status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
-    check_status(status)
-    if cubinSizeRet <= 1:
-        # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
-        # spec says it should be 0 in this case...
-        raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
-                           'not provided')
-    cubin.resize(cubinSizeRet)
-    cubin_ptr = cubin.data()
-    with nogil:
-        status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return cubin_ptr[:cubinSizeRet-1]
-
-
-cpdef bytes getNVVM(intptr_t prog):
-    initialize()
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getNVVM")
-    if runtime.runtimeGetVersion() < 11040:
-        raise RuntimeError("getNVVM is supported since CUDA 11.4")
-
-    cdef size_t nvvmSizeRet = 0
-    cdef vector.vector[char] nvvm
-    cdef char* nvvm_ptr = NULL
-
-    with nogil:
-        status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
-    check_status(status)
-
-    nvvm.resize(nvvmSizeRet)
-    nvvm_ptr = nvvm.data()
-    with nogil:
-        status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return nvvm_ptr[:nvvmSizeRet-1]
-
-
-cpdef unicode getProgramLog(intptr_t prog):
-    initialize()
-    cdef size_t logSizeRet
-    cdef vector.vector[char] log
-    cdef char* log_ptr = NULL
-    with nogil:
-        status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
-    check_status(status)
-    if logSizeRet == 0:
-        return ''
-    log.resize(logSizeRet)
-    log_ptr = log.data()
-    with nogil:
-        status = nvrtcGetProgramLog(<Program>prog, log_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return log_ptr[:logSizeRet-1].decode('UTF-8')
-
-
-cpdef addNameExpression(intptr_t prog, str name):
-    initialize()
-    cdef bytes b_name = name.encode()
-    cdef const char* c_name = b_name
-    with nogil:
-        status = nvrtcAddNameExpression(<Program>prog, c_name)
-    check_status(status)
-
-
-cpdef str getLoweredName(intptr_t prog, str name):
-    initialize()
-    cdef bytes b_name = name.encode()
-    cdef const char* c_name = b_name
-    cdef const char* mangled_name
-    with nogil:
-        status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
-    check_status(status)
-    b_name = mangled_name
-    return b_name.decode('UTF-8')
+    ###############################################################################
+    # Error handling
+    ###############################################################################
+
+    class NVRTCError(RuntimeError):
+
+        def __init__(self, status):
+            self.status = status
+            cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
+            super(NVRTCError, self).__init__(
+                '{} ({})'.format(msg.decode(), status))
+
+        def __reduce__(self):
+            return (type(self), (self.status,))
+
+
+    @cython.profile(False)
+    cpdef inline check_status(int status):
+        if status != 0:
+            raise NVRTCError(status)
+
+
+    cpdef tuple getVersion():
+        initialize()
+        cdef int major, minor
+        with nogil:
+            status = nvrtcVersion(&major, &minor)
+        check_status(status)
+        return major, minor
+
+
+    cpdef tuple getSupportedArchs():
+        initialize()
+        cdef int status, num_archs
+        cdef vector.vector[int] archs
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getSupportedArchs")
+        if runtime.runtimeGetVersion() < 11020:
+            raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
+        with nogil:
+            status = nvrtcGetNumSupportedArchs(&num_archs)
+            if status == 0:
+                archs.resize(num_archs)
+                status = nvrtcGetSupportedArchs(archs.data())
+        check_status(status)
+        return tuple(archs)
+
+
+    ###############################################################################
+    # Program
+    ###############################################################################
+
+    cpdef intptr_t createProgram(unicode src, unicode name, headers,
+                                 include_names) except? 0:
+        initialize()
+        cdef Program prog
+        cdef bytes b_src = src.encode()
+        cdef const char* src_ptr = b_src
+        cdef bytes b_name = name.encode()
+        cdef const char* name_ptr
+        if len(name) > 0:
+            name_ptr = b_name
+        else:
+            name_ptr = NULL
+        cdef int num_headers = len(headers)
+        cdef vector.vector[const char*] header_vec
+        cdef vector.vector[const char*] include_name_vec
+        cdef const char** header_vec_ptr = NULL
+        cdef const char** include_name_vec_ptr = NULL
+        assert num_headers == len(include_names)
+        for i in headers:
+            header_vec.push_back(<const char*>i)
+        for i in include_names:
+            include_name_vec.push_back(<const char*>i)
+        if num_headers > 0:
+            header_vec_ptr = header_vec.data()
+            include_name_vec_ptr = include_name_vec.data()
+        with nogil:
+            status = nvrtcCreateProgram(
+                &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
+                include_name_vec_ptr)
+        check_status(status)
+        return <intptr_t>prog
+
+
+    cpdef destroyProgram(intptr_t prog):
+        initialize()
+        cdef Program p = <Program>prog
+        with nogil:
+            status = nvrtcDestroyProgram(&p)
+        check_status(status)
+
+
+    cpdef compileProgram(intptr_t prog, options):
+        initialize()
+        cdef int option_num = len(options)
+        cdef vector.vector[const char*] option_vec
+        cdef option_list = [opt.encode() for opt in options]
+        cdef const char** option_vec_ptr = NULL
+        for i in option_list:
+            option_vec.push_back(<const char*>i)
+        if option_num > 0:
+            option_vec_ptr = option_vec.data()
+        with nogil:
+            status = nvrtcCompileProgram(<Program>prog, option_num,
+                                         option_vec_ptr)
+        check_status(status)
+
+
+    cpdef bytes getPTX(intptr_t prog):
+        initialize()
+        cdef size_t ptxSizeRet
+        cdef vector.vector[char] ptx
+        cdef char* ptx_ptr = NULL
+        with nogil:
+            status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
+        check_status(status)
+        if ptxSizeRet == 0:
+            return b''
+        ptx.resize(ptxSizeRet)
+        ptx_ptr = ptx.data()
+        with nogil:
+            status = nvrtcGetPTX(<Program>prog, ptx_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return ptx_ptr[:ptxSizeRet-1]
+
+
+    cpdef bytes getCUBIN(intptr_t prog):
+        initialize()
+        cdef size_t cubinSizeRet = 0
+        cdef vector.vector[char] cubin
+        cdef char* cubin_ptr = NULL
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getCUBIN")
+        if runtime.runtimeGetVersion() < 11010:
+            raise RuntimeError("getCUBIN is supported since CUDA 11.1")
+        with nogil:
+            status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
+        check_status(status)
+        if cubinSizeRet <= 1:
+            # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
+            # spec says it should be 0 in this case...
+            raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
+                               'not provided')
+        cubin.resize(cubinSizeRet)
+        cubin_ptr = cubin.data()
+        with nogil:
+            status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return cubin_ptr[:cubinSizeRet-1]
+
+
+    cpdef bytes getNVVM(intptr_t prog):
+        initialize()
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getNVVM")
+        if runtime.runtimeGetVersion() < 11040:
+            raise RuntimeError("getNVVM is supported since CUDA 11.4")
+
+        cdef size_t nvvmSizeRet = 0
+        cdef vector.vector[char] nvvm
+        cdef char* nvvm_ptr = NULL
+
+        with nogil:
+            status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
+        check_status(status)
+
+        nvvm.resize(nvvmSizeRet)
+        nvvm_ptr = nvvm.data()
+        with nogil:
+            status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return nvvm_ptr[:nvvmSizeRet-1]
+
+
+    cpdef unicode getProgramLog(intptr_t prog):
+        initialize()
+        cdef size_t logSizeRet
+        cdef vector.vector[char] log
+        cdef char* log_ptr = NULL
+        with nogil:
+            status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
+        check_status(status)
+        if logSizeRet == 0:
+            return ''
+        log.resize(logSizeRet)
+        log_ptr = log.data()
+        with nogil:
+            status = nvrtcGetProgramLog(<Program>prog, log_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return log_ptr[:logSizeRet-1].decode('UTF-8')
+
+
+    cpdef addNameExpression(intptr_t prog, str name):
+        initialize()
+        cdef bytes b_name = name.encode()
+        cdef const char* c_name = b_name
+        with nogil:
+            status = nvrtcAddNameExpression(<Program>prog, c_name)
+        check_status(status)
+
+
+    cpdef str getLoweredName(intptr_t prog, str name):
+        initialize()
+        cdef bytes b_name = name.encode()
+        cdef const char* c_name = b_name
+        cdef const char* mangled_name
+        with nogil:
+            status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
+        check_status(status)
+        b_name = mangled_name
+        return b_name.decode('UTF-8')
diff --git a/install/cupy_builder/_features.py b/install/cupy_builder/_features.py
index b6b1f8cbc27..fdb4e891fba 100644
--- a/install/cupy_builder/_features.py
+++ b/install/cupy_builder/_features.py
@@ -162,6 +162,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'cupy_backends.cuda.libs.cusolver',
             'cupyx.cusolver',
             'cupy_backends.cuda.libs.curand_hip',
+            'cupy_backends.cuda.libs.nvrtc_hip',
         ],
         'include': [
             'hip/hip_runtime_api.h',
diff --git a/setup.py b/setup.py
index c7296478def..6615808373a 100644
--- a/setup.py
+++ b/setup.py
@@ -29,7 +29,7 @@
             project_directory=proj_dir,
             output_directory=proj_dir,
             includes=['*'],
-            extra_extensions=(".pyx", ".pxd"),
+            extra_extensions=(".pyx", ".pxd",".pxi"),
             show_detailed=True,
             header_include_dirs=[],
             custom_map_list="install/amd_build/rocm_custom_mapping.json",

From 28646f113fb3d54882e52b3e8c504d077ad44b4f Mon Sep 17 00:00:00 2001
From: pnunna93 <Prasanth.Nunna@amd.com>
Date: Tue, 17 Oct 2023 17:29:14 +0000
Subject: [PATCH 03/49] use CUPY_CUDA_VERSION for pxi loading

---
 cupy_backends/cuda/libs/nvrtc.pyx | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index fa0804ef43c..b957db0a785 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -28,7 +28,7 @@ ELSE:
         cdef inline void initialize():
             pass
     ELSE:
-        IF CUPY_DONT_USE_GEN_HIP_CODE:
+        IF CUPY_CUDA_VERSION!=0:
             include "_cnvrtc.pxi"
         ELSE:
             include "_cnvrtc_hip.pxi"

From a95bba3ebc070b1f2c9f051b7d4d1067e59fc91a Mon Sep 17 00:00:00 2001
From: pnunna93 <Prasanth.Nunna@amd.com>
Date: Tue, 17 Oct 2023 17:31:33 +0000
Subject: [PATCH 04/49] Remove prefix in softlink class

---
 cupy_backends/cuda/_softlink.pyx    |  5 ++--
 cupy_backends/cuda/libs/_cnvrtc.pxi | 38 ++++++++++++++---------------
 2 files changed, 20 insertions(+), 23 deletions(-)

diff --git a/cupy_backends/cuda/_softlink.pyx b/cupy_backends/cuda/_softlink.pyx
index 0e7fa6ed571..cbe732a2335 100644
--- a/cupy_backends/cuda/_softlink.pyx
+++ b/cupy_backends/cuda/_softlink.pyx
@@ -6,9 +6,8 @@ cimport cython
 
 
 cdef class SoftLink:
-    def __init__(self, object libname, str prefix, *, bint mandatory=False):
+    def __init__(self, object libname, *, bint mandatory=False):
         self.error = None
-        self.prefix = prefix
         self._cdll = None
         if libname is None:
             # Stub build or CUDA/HIP only library.
@@ -31,7 +30,7 @@ cdef class SoftLink:
         """
         if self._cdll is None:
             return <func_ptr>_fail_unsupported
-        cdef str funcname = f'{self.prefix}{name}'
+        cdef str funcname = f'{name}'
         cdef object func = getattr(self._cdll, funcname, None)
         if func is None:
             return <func_ptr>_fail_not_found
diff --git a/cupy_backends/cuda/libs/_cnvrtc.pxi b/cupy_backends/cuda/libs/_cnvrtc.pxi
index 2606ac5831f..24d1b4309f2 100644
--- a/cupy_backends/cuda/libs/_cnvrtc.pxi
+++ b/cupy_backends/cuda/libs/_cnvrtc.pxi
@@ -76,44 +76,43 @@ cdef void _initialize() except *:
     _L = _get_softlink()
 
     global nvrtcGetErrorString
-    nvrtcGetErrorString = <F_nvrtcGetErrorString>_L.get('GetErrorString')
+    nvrtcGetErrorString = <F_nvrtcGetErrorString>_L.get('nvrtcGetErrorString')
     global nvrtcVersion
-    nvrtcVersion = <F_nvrtcVersion>_L.get('Version')
+    nvrtcVersion = <F_nvrtcVersion>_L.get('nvrtcVersion')
     global nvrtcCreateProgram
-    nvrtcCreateProgram = <F_nvrtcCreateProgram>_L.get('CreateProgram')
+    nvrtcCreateProgram = <F_nvrtcCreateProgram>_L.get('nvrtcCreateProgram')
     global nvrtcDestroyProgram
-    nvrtcDestroyProgram = <F_nvrtcDestroyProgram>_L.get('DestroyProgram')
+    nvrtcDestroyProgram = <F_nvrtcDestroyProgram>_L.get('nvrtcDestroyProgram')
     global nvrtcCompileProgram
-    nvrtcCompileProgram = <F_nvrtcCompileProgram>_L.get('CompileProgram')
+    nvrtcCompileProgram = <F_nvrtcCompileProgram>_L.get('nvrtcCompileProgram')
     global nvrtcGetPTXSize
-    nvrtcGetPTXSize = <F_nvrtcGetPTXSize>_L.get('GetPTXSize' if _L.prefix == 'nvrtc' else 'GetCodeSize')  # NOQA
+    nvrtcGetPTXSize = <F_nvrtcGetPTXSize>_L.get('nvrtcGetPTXSize')  # NOQA
     global nvrtcGetPTX
-    nvrtcGetPTX = <F_nvrtcGetPTX>_L.get('GetPTX' if _L.prefix == 'nvrtc' else 'GetCode')  # NOQA
+    nvrtcGetPTX = <F_nvrtcGetPTX>_L.get('nvrtcGetPTX')  # NOQA
     global nvrtcGetCUBINSize
-    nvrtcGetCUBINSize = <F_nvrtcGetCUBINSize>_L.get('GetCUBINSize')
+    nvrtcGetCUBINSize = <F_nvrtcGetCUBINSize>_L.get('nvrtcGetCUBINSize')
     global nvrtcGetCUBIN
-    nvrtcGetCUBIN = <F_nvrtcGetCUBIN>_L.get('GetCUBIN')
+    nvrtcGetCUBIN = <F_nvrtcGetCUBIN>_L.get('nvrtcGetCUBIN')
     global nvrtcGetProgramLogSize
-    nvrtcGetProgramLogSize = <F_nvrtcGetProgramLogSize>_L.get('GetProgramLogSize')  # NOQA
+    nvrtcGetProgramLogSize = <F_nvrtcGetProgramLogSize>_L.get('nvrtcGetProgramLogSize')  # NOQA
     global nvrtcGetProgramLog
-    nvrtcGetProgramLog = <F_nvrtcGetProgramLog>_L.get('GetProgramLog')
+    nvrtcGetProgramLog = <F_nvrtcGetProgramLog>_L.get('nvrtcGetProgramLog')
     global nvrtcAddNameExpression
-    nvrtcAddNameExpression = <F_nvrtcAddNameExpression>_L.get('AddNameExpression')  # NOQA
+    nvrtcAddNameExpression = <F_nvrtcAddNameExpression>_L.get('nvrtcAddNameExpression')  # NOQA
     global nvrtcGetLoweredName
-    nvrtcGetLoweredName = <F_nvrtcGetLoweredName>_L.get('GetLoweredName')
+    nvrtcGetLoweredName = <F_nvrtcGetLoweredName>_L.get('nvrtcGetLoweredName')
     global nvrtcGetNumSupportedArchs
-    nvrtcGetNumSupportedArchs = <F_nvrtcGetNumSupportedArchs>_L.get('GetNumSupportedArchs')  # NOQA
+    nvrtcGetNumSupportedArchs = <F_nvrtcGetNumSupportedArchs>_L.get('nvrtcGetNumSupportedArchs')  # NOQA
     global nvrtcGetSupportedArchs
-    nvrtcGetSupportedArchs = <F_nvrtcGetSupportedArchs>_L.get('GetSupportedArchs')  # NOQA
+    nvrtcGetSupportedArchs = <F_nvrtcGetSupportedArchs>_L.get('nvrtcGetSupportedArchs')  # NOQA
     global nvrtcGetNVVMSize
-    nvrtcGetNVVMSize = <F_nvrtcGetNVVMSize>_L.get('GetNVVMSize')
+    nvrtcGetNVVMSize = <F_nvrtcGetNVVMSize>_L.get('nvrtcGetNVVMSize')
     global nvrtcGetNVVM
-    nvrtcGetNVVM = <F_nvrtcGetNVVM>_L.get('GetNVVM')
+    nvrtcGetNVVM = <F_nvrtcGetNVVM>_L.get('nvrtcGetNVVM')
 
 
 cdef SoftLink _get_softlink():
     cdef int runtime_version
-    cdef str prefix = 'nvrtc'
     cdef object libname = None
 
     if CUPY_CUDA_VERSION != 0:
@@ -132,7 +131,6 @@ cdef SoftLink _get_softlink():
                 libname = 'nvrtc64_120_0.dll'
     elif CUPY_HIP_VERSION != 0:
         runtime_version = runtime.runtimeGetVersion()
-        prefix = 'hiprtc'
         if runtime_version < 5_00_00000:
             # ROCm 4.x
             libname = 'libamdhip64.so.4'
@@ -140,4 +138,4 @@ cdef SoftLink _get_softlink():
             # ROCm 5.x
             libname = 'libamdhip64.so.5'
 
-    return SoftLink(libname, prefix, mandatory=True)
+    return SoftLink(libname, mandatory=True)

From d66e262b6ff5a9948d92e105bcfd4cc828614d54 Mon Sep 17 00:00:00 2001
From: omkar kakarparthi <75638701+okakarpa@users.noreply.github.com>
Date: Tue, 17 Oct 2023 14:13:40 -0500
Subject: [PATCH 05/49] Update pretest.yml

---
 .github/workflows/pretest.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/pretest.yml b/.github/workflows/pretest.yml
index a55dcf48ce4..8d4212816aa 100644
--- a/.github/workflows/pretest.yml
+++ b/.github/workflows/pretest.yml
@@ -4,7 +4,7 @@ on: [push, pull_request]
 
 jobs:
   static-checks:
-    runs-on: ubuntu-22.04
+    runs-on: rocm
 
     steps:
     - name: Checkout
@@ -104,7 +104,7 @@ jobs:
         python -c 'import cupy, cupyx'
 
   build-rocm:
-    runs-on: ubuntu-22.04
+    runs-on: rocm
 
     steps:
     - name: Checkout

From c1cfcb36f4964a7a162cbe98b234e77c5c28bddb Mon Sep 17 00:00:00 2001
From: pnunna93 <Prasanth.Nunna@amd.com>
Date: Thu, 19 Oct 2023 16:44:52 +0000
Subject: [PATCH 06/49] rename library to fix issue with nvrtc linking

---
 cupy_backends/cuda/libs/_cnvrtc.pxi | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/cupy_backends/cuda/libs/_cnvrtc.pxi b/cupy_backends/cuda/libs/_cnvrtc.pxi
index 24d1b4309f2..6a3b0f08a35 100644
--- a/cupy_backends/cuda/libs/_cnvrtc.pxi
+++ b/cupy_backends/cuda/libs/_cnvrtc.pxi
@@ -131,11 +131,6 @@ cdef SoftLink _get_softlink():
                 libname = 'nvrtc64_120_0.dll'
     elif CUPY_HIP_VERSION != 0:
         runtime_version = runtime.runtimeGetVersion()
-        if runtime_version < 5_00_00000:
-            # ROCm 4.x
-            libname = 'libamdhip64.so.4'
-        elif runtime_version < 6_00_00000:
-            # ROCm 5.x
-            libname = 'libamdhip64.so.5'
+        libname = 'libamdhip64.so'
 
     return SoftLink(libname, mandatory=True)

From 0171e9cb5ea822c9902a92d6e825009ff148a013 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Tue, 24 Oct 2023 21:05:33 +0000
Subject: [PATCH 07/49] Fix merge errors and update with latest upstream
 changes

---
 cupy_backends/cuda/libs/nvrtc.pyx | 52 +------------------------------
 1 file changed, 1 insertion(+), 51 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index 1b763e440e5..f74e4a4fea9 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -35,57 +35,6 @@ ELSE:
         pass
 
 
-###############################################################################
-# Error handling
-###############################################################################
-
-class NVRTCError(RuntimeError):
-
-    def __init__(self, status):
-        initialize()
-        self.status = status
-        cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
-        super(NVRTCError, self).__init__(
-            '{} ({})'.format(msg.decode(), status))
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise NVRTCError(status)
-
-
-cpdef tuple getVersion():
-    initialize()
-    cdef int major, minor
-    with nogil:
-        status = nvrtcVersion(&major, &minor)
-    check_status(status)
-    return major, minor
-
-
-cpdef tuple getSupportedArchs():
-    initialize()
-    cdef int status, num_archs
-    cdef vector.vector[int] archs
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getSupportedArchs")
-    if runtime.runtimeGetVersion() < 11020:
-        raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
-    with nogil:
-        status = nvrtcGetNumSupportedArchs(&num_archs)
-        if status == 0:
-            archs.resize(num_archs)
-            status = nvrtcGetSupportedArchs(archs.data())
-    check_status(status)
-    return tuple(archs)
-
->>>>>>> rocm6.1_internal_testing
-
-
     ###############################################################################
     # Error handling
     ###############################################################################
@@ -93,6 +42,7 @@ cpdef tuple getSupportedArchs():
     class NVRTCError(RuntimeError):
 
         def __init__(self, status):
+            initialize()
             self.status = status
             cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
             super(NVRTCError, self).__init__(

From 8952ad251bc3e40c24fdcbfd120cc36b51da16d4 Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Fri, 27 Oct 2023 18:14:10 +0000
Subject: [PATCH 08/49] cudnn , miopen changes on 6.1 branch

---
 cupy_backends/cuda/libs/cudnn.pyx  |  563 ++++--
 cupy_backends/cuda/libs/miopen.pyx | 2543 ++++++++++++++++++++++++++++
 2 files changed, 2949 insertions(+), 157 deletions(-)
 create mode 100644 cupy_backends/cuda/libs/miopen.pyx

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index 464c59d8a00..bd4c50f3d41 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -9,6 +9,7 @@ from cupy_backends.cuda.api cimport driver
 from cupy_backends.cuda.api cimport runtime
 from cupy_backends.cuda cimport stream as stream_module
 
+from cupy_backends.cuda.libs.miopen import *
 ###############################################################################
 # Extern
 ###############################################################################
@@ -758,7 +759,10 @@ class CuDNNError(RuntimeError):
 
     def __init__(self, int status):
         self.status = status
-        msg = cudnnGetErrorString(<Status>status)
+        if runtime._is_hip_environment:
+            msg = miopenGetErrorString(<Status>status)
+        else:
+            msg = cudnnGetErrorString(<Status>status)
         super(CuDNNError, self).__init__(
             'cuDNN Error: {}'.format(msg.decode()))
         self._infos = []
@@ -799,7 +803,10 @@ def get_build_version():
 ###############################################################################
 
 cpdef size_t getVersion() except? 0:
-    return cudnnGetVersion()
+    if runtime._is_hip_environment:
+        return miopenGetVersion()
+    else:
+        return cudnnGetVersion()
 
 
 ###############################################################################
@@ -822,14 +829,20 @@ cpdef queryRuntimeError(intptr_t handle, int mode):
 cpdef intptr_t create() except? 0:
     cdef Handle handle
     with nogil:
-        status = cudnnCreate(&handle)
+        if runtime._is_hip_environment:
+            status = miopenCreate(&handle)
+        else:
+            status = cudnnCreate(&handle)
     check_status(status)
     return <intptr_t>handle
 
 
 cpdef destroy(intptr_t handle):
     with nogil:
-        status = cudnnDestroy(<Handle>handle)
+        if runtime._is_hip_environment:
+            status = miopenDestroy(<Handle>handle)
+        else:
+            status = cudnnDestroy(<Handle>handle)
     check_status(status)
 
 
@@ -840,14 +853,19 @@ cpdef setStream(intptr_t handle, size_t stream):
         raise NotImplementedError(
             'calling cuDNN API during stream capture is currently '
             'unsupported')
-
-    status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
+    if runtime._is_hip_environment:
+        status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
+    else:
+        status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
     check_status(status)
 
 
 cpdef size_t getStream(intptr_t handle) except? 0:
     cdef driver.Stream stream
-    status = cudnnGetStream(<Handle>handle, &stream)
+    if runtime._is_hip_environment:
+        status = cudnnGetStream(<Handle>handle, &stream)
+    else:
+        status = miopenGetStream(<Handle>handle, &stream)
     check_status(status)
     return <size_t>stream
 
@@ -862,7 +880,10 @@ cdef _setStream(intptr_t handle):
 
 cpdef size_t createTensorDescriptor() except? 0:
     cdef TensorDescriptor descriptor
-    status = cudnnCreateTensorDescriptor(&descriptor)
+    if runtime._is_hip_environment:
+        status = miopenCreateTensorDescriptor(&descriptor)
+    else:
+        status = cudnnCreateTensorDescriptor(&descriptor)
     check_status(status)
     return <size_t>descriptor
 
@@ -903,7 +924,10 @@ cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
 
 
 cpdef destroyTensorDescriptor(size_t tensorDesc):
-    status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    else:
+        status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     check_status(status)
 
 
@@ -957,11 +981,18 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
                size_t B, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        status = cudnnOpTensor(
-            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
-            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
-            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
-            <TensorDescriptor>cDesc, <void*>C)
+        if runtime._is_hip_environment:
+            status = miopenOpTensor(
+                <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+                <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+                <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+                <TensorDescriptor>cDesc, <void*>C)
+        else:
+            status = cudnnOpTensor(
+                <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+                <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+                <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+                <TensorDescriptor>cDesc, <void*>C)
     check_status(status)
 
 
@@ -971,7 +1002,10 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
 
 cpdef size_t createReduceTensorDescriptor() except? 0:
     cdef ReduceTensorDescriptor reduceTensorDesc
-    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
+    else:
+        status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
     check_status(status)
     return <size_t>reduceTensorDesc
 
@@ -979,12 +1013,20 @@ cpdef setReduceTensorDescriptor(
         size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
         int reduceTensorNanOpt, int reduceTensorIndices,
         int reduceTensorIndicesType):
-    status = cudnnSetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc,
-        <ReduceTensorOp>reduceTensorOp,
-        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
-        <ReduceTensorIndices>reduceTensorIndices,
-        <IndicesType>reduceTensorIndicesType)
+    if runtime._is_hip_environment:
+        status = miopenSetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc,
+            <ReduceTensorOp>reduceTensorOp,
+            <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+            <ReduceTensorIndices>reduceTensorIndices,
+            <IndicesType>reduceTensorIndicesType)
+    else:
+        status = cudnnSetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc,
+            <ReduceTensorOp>reduceTensorOp,
+            <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+            <ReduceTensorIndices>reduceTensorIndices,
+            <IndicesType>reduceTensorIndicesType)
     check_status(status)
 
 
@@ -994,25 +1036,39 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
     cdef NanPropagation redNanOpt
     cdef ReduceTensorIndices redIndices
     cdef IndicesType redIndicesType
-    status = cudnnGetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
-        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    if runtime._is_hip_environment:
+        status = miopenGetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+            &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    else:
+        status = cudnnGetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+            &redCompType, &redNanOpt, &redIndices, &redIndicesType)
     check_status(status)
     return redOp, redCompType, redNanOpt, redIndices, redIndicesType
 
 
 cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    status = cudnnDestroyReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc)
+    else:
+        status = cudnnDestroyReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc)
     check_status(status)
 
 
 cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
                                      size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetReductionIndicesSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetReductionIndicesSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    else:
+        status = cudnnGetReductionIndicesSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)    
     check_status(status)
     return sizeInBytes
 
@@ -1021,10 +1077,16 @@ cpdef size_t getReductionWorkspaceSize(intptr_t handle,
                                        size_t reduceTensorDesc,
                                        size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetReductionWorkspaceSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
-        &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetReductionWorkspaceSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+            &sizeInBytes)
+    else:
+        status = cudnnGetReductionWorkspaceSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+            &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -1035,29 +1097,46 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
                    size_t A, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        status = cudnnReduceTensor(
-            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-            <void*>indices, indicesSizeInBytes, <void*>workspace,
-            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
-            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+        if runtime._is_hip_environment:
+            status = miopenReduceTensor(
+                <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+                <void*>indices, indicesSizeInBytes, <void*>workspace,
+                workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+                <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+        else:
+            status = cudnnReduceTensor(
+                <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+                <void*>indices, indicesSizeInBytes, <void*>workspace,
+                workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+                <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
     check_status(status)
 
 
 cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
     _setStream(handle)
     with nogil:
-        status = cudnnSetTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
-            <void*>valuePtr)
+        if runtime._is_hip_environment:
+            status = miopenSetTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+                <void*>valuePtr)
+        else:
+            status = cudnnSetTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+                <void*>valuePtr)
     check_status(status)
 
 
 cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
     _setStream(handle)
     with nogil:
-        status = cudnnScaleTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
-            <void*>alpha)
+        if runtime._is_hip_environment:
+            status = miopenScaleTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+                <void*>alpha)
+        else:
+            status = cudnnScaleTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+                <void*>alpha)
     check_status(status)
 
 
@@ -1115,7 +1194,10 @@ cpdef destroyFilterDescriptor(size_t filterDesc):
 
 cpdef size_t createConvolutionDescriptor() except? 0:
     cdef ConvolutionDescriptor desc
-    status = cudnnCreateConvolutionDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateConvolutionDescriptor(&desc)
+    else:
+        status = cudnnCreateConvolutionDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
@@ -1130,21 +1212,27 @@ cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
     cdef MathType mathType
     status = cudnnGetConvolutionMathType(
         <ConvolutionDescriptor>convDesc, &mathType)
-    check_status(status)
     return <size_t>mathType
 
 
 cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    status = cudnnSetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, groupCount)
+    if runtime._is_hip_environment:
+        status = miopenSetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, groupCount)
+    else:
+        status = cudnnSetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, groupCount)
     check_status(status)
 
 
 cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
     cdef int groupCount
-    status = cudnnGetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, &groupCount)
-    check_status(status)
+    if runtime._is_hip_environment:
+        status = miopenGetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, &groupCount)
+    else:
+        status = cudnnGetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, &groupCount)
     return groupCount
 
 
@@ -1177,8 +1265,12 @@ cpdef setConvolutionNdDescriptor_v3(
 
 
 cpdef destroyConvolutionDescriptor(size_t convDesc):
-    status = cudnnDestroyConvolutionDescriptor(
-        <ConvolutionDescriptor>convDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyConvolutionDescriptor(
+            <ConvolutionDescriptor>convDesc)
+    else:
+        status = cudnnDestroyConvolutionDescriptor(
+            <ConvolutionDescriptor>convDesc)
     check_status(status)
 
 
@@ -1286,13 +1378,21 @@ cpdef convolutionForward(
         size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        status = cudnnConvolutionForward(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
+	if runtime._is_hip_environment:
+		status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
+				<TensorDescriptor>srcDesc, <void*>srcData,
+				<FilterDescriptor>filterDesc, <void*>filterData,
+				<ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+				<void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+				<TensorDescriptor>destDesc, <void*>destData)
+        else:
+            status = cudnnConvolutionForward(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData,
+                <FilterDescriptor>filterDesc, <void*>filterData,
+                <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+                <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
     check_status(status)
 
 
@@ -1301,10 +1401,16 @@ cpdef convolutionBackwardBias(
         size_t beta, size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        status = cudnnConvolutionBackwardBias(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
+        if runtime._is_hip_environment:
+            status = miopenConvolutionBackwardBias(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
+        else:
+            status = cudnnConvolutionBackwardBias(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
     check_status(status)
 
 
@@ -1545,7 +1651,10 @@ cpdef convolutionBackwardData_v3(
 
 cpdef size_t createPoolingDescriptor() except? 0:
     cdef PoolingDescriptor desc
-    status = cudnnCreatePoolingDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreatePoolingDescriptor(&desc)
+    else:
+        status = cudnnCreatePoolingDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
@@ -1572,7 +1681,10 @@ cpdef setPoolingNdDescriptor_v4(
 
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
-    status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+	if runtime._is_hip_environment:
+        status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+    else:
+        status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     check_status(status)
 
 
@@ -1611,9 +1723,14 @@ CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
 
 cpdef deriveBNTensorDescriptor(
         size_t derivedBnDesc, size_t xDesc, int mode):
-    status = cudnnDeriveBNTensorDescriptor(
-        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
-        <BatchNormMode> mode)
+    if runtime._is_hip_environment:
+        status = miopenDeriveBNTensorDescriptor(
+            <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+            <BatchNormMode> mode)
+    else:
+        status = cudnnDeriveBNTensorDescriptor(
+            <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+            <BatchNormMode> mode)
     check_status(status)
 
 
@@ -1627,14 +1744,24 @@ cpdef batchNormalizationForwardTraining(
         double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationForwardTraining(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationForwardTraining(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, exponentialAverageFactor,
+                <void*>resultRunningMean, <void*>resultRunningVariance,
+                epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+        else:
+            status = cudnnBatchNormalizationForwardTraining(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, exponentialAverageFactor,
+                <void*>resultRunningMean, <void*>resultRunningVariance,
+                epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
     check_status(status)
 
 
@@ -1647,13 +1774,22 @@ cpdef batchNormalizationForwardInference(
         double epsilon):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationForwardInference(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
-            epsilon)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationForwardInference(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+                epsilon)
+        else:
+            status = cudnnBatchNormalizationForwardInference(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+                epsilon)
     check_status(status)
 
 
@@ -1668,16 +1804,28 @@ cpdef batchNormalizationBackward(
         double epsilon, size_t savedMean, size_t savedInvVariance):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationBackward(
-            <Handle>handle, <BatchNormMode>mode,
-            <void*>alphaDataDiff, <void*>betaDataDiff,
-            <void*>alphaParamDiff, <void*>betaParamDiff,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>dyDesc, <void*>dy,
-            <TensorDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
-            <void*>dBnScaleResult, <void*>dBnBiasResult,
-            epsilon, <void*>savedMean, <void*>savedInvVariance)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationBackward(
+                <Handle>handle, <BatchNormMode>mode,
+                <void*>alphaDataDiff, <void*>betaDataDiff,
+                <void*>alphaParamDiff, <void*>betaParamDiff,
+                <TensorDescriptor>xDesc, <void*>x,
+                <TensorDescriptor>dyDesc, <void*>dy,
+                <TensorDescriptor>dxDesc, <void*>dx,
+                <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+                <void*>dBnScaleResult, <void*>dBnBiasResult,
+                epsilon, <void*>savedMean, <void*>savedInvVariance)
+        else:
+            status = cudnnBatchNormalizationBackward(
+                <Handle>handle, <BatchNormMode>mode,
+                <void*>alphaDataDiff, <void*>betaDataDiff,
+                <void*>alphaParamDiff, <void*>betaParamDiff,
+                <TensorDescriptor>xDesc, <void*>x,
+                <TensorDescriptor>dyDesc, <void*>dy,
+                <TensorDescriptor>dxDesc, <void*>dx,
+                <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+                <void*>dBnScaleResult, <void*>dBnBiasResult,
+                epsilon, <void*>savedMean, <void*>savedInvVariance)
     check_status(status)
 
 
@@ -1823,7 +1971,10 @@ cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
 
 cpdef size_t createActivationDescriptor() except? 0:
     cdef ActivationDescriptor activationDesc
-    status = cudnnCreateActivationDescriptor(&activationDesc)
+    if runtime._is_hip_environment:
+        status = miopenCreateActivationDescriptor(&activationDesc)
+    else:
+        status = cudnnCreateActivationDescriptor(&activationDesc)
     check_status(status)
     return <size_t>activationDesc
 
@@ -1837,8 +1988,12 @@ cpdef setActivationDescriptor(
 
 
 cpdef destroyActivationDescriptor(size_t activationDesc):
-    status = cudnnDestroyActivationDescriptor(
-        <ActivationDescriptor>activationDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyActivationDescriptor(
+            <ActivationDescriptor>activationDesc)
+    else:
+        status = cudnnDestroyActivationDescriptor(
+            <ActivationDescriptor>activationDesc)
     check_status(status)
 
 
@@ -1847,10 +2002,16 @@ cpdef softmaxForward(
         size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
     _setStream(handle)
     with nogil:
-        status = cudnnSoftmaxForward(
-            <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+        if runtime._is_hip_environment:
+            status = miopenSoftmaxForward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+        else:
+            status = cudnnSoftmaxForward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
     check_status(status)
 
 
@@ -1860,11 +2021,18 @@ cpdef softmaxBackward(
         size_t destDiffDesc, size_t destDiffData):
     _setStream(handle)
     with nogil:
-        status = cudnnSoftmaxBackward(
-            <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+        if runtime._is_hip_environment:
+            status = miopenSoftmaxBackward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+                <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+        else:
+            status = cudnnSoftmaxBackward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+                <TensorDescriptor>destDiffDesc, <void*>destDiffData)
     check_status(status)
 
 
@@ -1902,20 +2070,30 @@ cpdef activationBackward_v4(
 
 cpdef size_t createDropoutDescriptor() except? 0:
     cdef DropoutDescriptor desc
-    status = cudnnCreateDropoutDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateDropoutDescriptor(&desc)
+    else:
+        status = cudnnCreateDropoutDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 
 cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    else:
+        status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     check_status(status)
 
 
 cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
     cdef size_t sizeInBytes
-    status = cudnnDropoutGetStatesSize(
-        <Handle>handle, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenDropoutGetStatesSize(
+            <Handle>handle, &sizeInBytes)
+    else:
+        status = cudnnDropoutGetStatesSize(
+            <Handle>handle, &sizeInBytes)
     check_status(status)
     return <Py_ssize_t>sizeInBytes
 
@@ -1931,8 +2109,12 @@ cpdef setDropoutDescriptor(
 
 cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnDropoutGetReserveSpaceSize(
-        <TensorDescriptor>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenDropoutGetReserveSpaceSize(
+            <TensorDescriptor>xDesc, &sizeInBytes)
+    else:
+        status = cudnnDropoutGetReserveSpaceSize(
+            <TensorDescriptor>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -1972,12 +2154,18 @@ cpdef dropoutBackward(
 ###############################################################################
 cpdef size_t createCTCLossDescriptor() except? 0:
     cdef CTCLossDescriptor desc
-    status = cudnnCreateCTCLossDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateCTCLossDescriptor(&desc)
+    else:
+        status = cudnnCreateCTCLossDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    else:
+        status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     check_status(status)
 
 cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
@@ -1997,11 +2185,18 @@ cpdef size_t getCTCLossWorkspaceSize(
         size_t labels, size_t labelLengths, size_t inputLengths,
         int algo, size_t ctcLossDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetCTCLossWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>probsDesc,
-        <TensorDescriptor>gradientsDesc,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetCTCLossWorkspaceSize(
+            <Handle>handle, <TensorDescriptor>probsDesc,
+            <TensorDescriptor>gradientsDesc,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    else:
+        status = cudnnGetCTCLossWorkspaceSize(
+            <Handle>handle, <TensorDescriptor>probsDesc,
+            <TensorDescriptor>gradientsDesc,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2011,12 +2206,20 @@ cpdef CTCLoss(
         size_t costs, size_t gradientsDesc, size_t gradients,
         int algo, size_t ctcLossDesc,
         size_t workspace, size_t workSpaceSizeInBytes):
-    status = cudnnCTCLoss(
-        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
-        <void*>workspace, <size_t>workSpaceSizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenCTCLoss(
+            <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+            <void*>workspace, <size_t>workSpaceSizeInBytes)
+    else:
+        status = cudnnCTCLoss(
+            <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+            <void*>workspace, <size_t>workSpaceSizeInBytes)
     check_status(status)
 
 
@@ -2026,13 +2229,19 @@ cpdef CTCLoss(
 
 cpdef size_t createRNNDescriptor() except? 0:
     cdef RNNDescriptor desc
-    status = cudnnCreateRNNDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateRNNDescriptor(&desc)
+    else:
+        status = cudnnCreateRNNDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 
 cpdef destroyRNNDescriptor(size_t rnnDesc):
-    status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    else:
+        status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     check_status(status)
 
 
@@ -2134,9 +2343,14 @@ cpdef getRNNDataDescriptor(
 cpdef getRNNWorkspaceSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNWorkspaceSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNWorkspaceSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
+    else:
+        status = cudnnGetRNNWorkspaceSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2144,9 +2358,14 @@ cpdef getRNNWorkspaceSize(
 cpdef getRNNTrainingReserveSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNTrainingReserveSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNTrainingReserveSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
+    else:
+        status = cudnnGetRNNTrainingReserveSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2154,9 +2373,14 @@ cpdef getRNNTrainingReserveSize(
 cpdef getRNNParamsSize(
         intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNParamsSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
-        &sizeInBytes, <DataType>dataType)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNParamsSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+            &sizeInBytes, <DataType>dataType)
+    else:
+        status = cudnnGetRNNParamsSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+            &sizeInBytes, <DataType>dataType)
     check_status(status)
     return sizeInBytes
 
@@ -2190,16 +2414,28 @@ cpdef RNNForwardInference(
         size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        status = cudnnRNNForwardInference(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes)
+        if runtime._is_hip_environment:
+            status = miopenRNNForwardInference(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*>hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes)
+        else:
+            status = cudnnRNNForwardInference(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*>hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes)
     check_status(status)
 
 
@@ -2212,17 +2448,30 @@ cpdef RNNForwardTraining(
         size_t reserveSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        status = cudnnRNNForwardTraining(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*> hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
+        if runtime._is_hip_environment:
+            status = miopenRNNForwardTraining(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*> hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes,
+                <void*>reserveSpace, reserveSpaceSizeInBytes)
+        else:
+            status = cudnnRNNForwardTraining(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*> hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes,
+                <void*>reserveSpace, reserveSpaceSizeInBytes)
     check_status(status)
 
 
diff --git a/cupy_backends/cuda/libs/miopen.pyx b/cupy_backends/cuda/libs/miopen.pyx
new file mode 100644
index 00000000000..c7c3811c885
--- /dev/null
+++ b/cupy_backends/cuda/libs/miopen.pyx
@@ -0,0 +1,2543 @@
+# distutils: language = c++
+
+"""Thin wrapper of cuDNN."""
+# NOTE: This wrapper does not cover all APIs of cuDNN v4.
+cimport cython  # NOQA
+from libcpp cimport vector
+
+from cupy_backends.cuda.api cimport driver
+from cupy_backends.cuda.api cimport runtime
+from cupy_backends.cuda cimport stream as stream_module
+
+###############################################################################
+# Extern
+###############################################################################
+
+cdef extern from '../../cupy_cudnn.h' nogil:
+    # Types
+    ctypedef int ActivationMode 'miopenActivationMode_t'
+    ctypedef int AddMode 'cudnnAddMode_t'
+    ctypedef int BatchNormMode 'miopenBatchNormMode_t'
+    ctypedef int BatchNormOps 'cudnnBatchNormOps_t'
+    ctypedef int ConvolutionBwdDataAlgo 'miopenBwdDataAlgorithm_t'
+    ctypedef int ConvolutionBwdDataPreference \
+        'cudnnConvolutionBwdDataPreference_t'
+    ctypedef struct ConvolutionBwdDataAlgoPerf \
+        'cudnnConvolutionBwdDataAlgoPerf_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionBwdDataAlgoPerf_v7 \
+        'cudnnConvolutionBwdDataAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionBwdFilterAlgo 'miopenConvBwdWeightsAlgorithm_t'
+    ctypedef int ConvolutionBwdFilterPreference \
+        'cudnnConvolutionBwdFilterPreference_t'
+    ctypedef struct ConvolutionBwdFilterAlgoPerf \
+        'cudnnConvolutionBwdFilterAlgoPerf_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionBwdFilterAlgoPerf_v7 \
+        'cudnnConvolutionBwdFilterAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionFwdAlgo 'miopenConvolutionFwdAlgorithm_t'
+    ctypedef int ConvolutionFwdPreference 'cudnnConvolutionFwdPreference_t'
+    ctypedef struct ConvolutionFwdAlgoPerf 'cudnnConvolutionFwdAlgoPerf_t':
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionFwdAlgoPerf_v7 \
+        'cudnnConvolutionFwdAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionMode 'miopenConvolutionMode_t'
+    ctypedef int DataType 'miopenDataType_t'
+    ctypedef int MathType 'cudnnMathType_t'
+    ctypedef int DirectionMode 'miopenRNNDirectionMode_t'
+    ctypedef int NanPropagation 'miopenNanPropagation_t'
+    ctypedef int PoolingMode 'miopenPoolingMode_t'
+    ctypedef int RNNInputMode 'miopenRNNInputMode_t'
+    ctypedef int CTCLossAlgo 'miopenCTCLossAlgo_t'
+    ctypedef int RNNMode 'miopenRNNMode_t'
+    ctypedef int RNNAlgo 'miopenRNNAlgo_t'
+    ctypedef int RNNDataLayout 'cudnnRNNDataLayout_t'
+    ctypedef int RNNPaddingMode 'cudnnRNNPaddingMode_t'
+    ctypedef int SoftmaxAlgorithm 'miopenSoftmaxAlgorithm_t'
+    ctypedef int SoftmaxMode 'miopenSoftmaxMode_t'
+    ctypedef int Status 'miopenStatus_t'
+    ctypedef int TensorFormat 'cudnnTensorFormat_t'
+    ctypedef int OpTensorOp 'miopenTensorOp_t'
+	
+    ctypedef int ReduceTensorOp 'miopenReduceTensorOp_t'
+    ctypedef int ReduceTensorIndices 'miopenReduceTensorIndices_t'
+    ctypedef int IndicesType 'miopenIndicesType_t'
+    ctypedef int ErrQueryMode 'cudnnErrQueryMode_t'
+    ctypedef int FusedOps 'cudnnFusedOps_t'
+    ctypedef int FusedOpsConstParamLabel 'cudnnFusedOpsConstParamLabel_t'
+    ctypedef int FusedOpsPointerPlaceHolder 'cudnnFusedOpsPointerPlaceHolder_t'
+    ctypedef int FusedOpsVariantParamLabel 'cudnnFusedOpsVariantParamLabel_t'
+    ctypedef struct RuntimeTag 'cudnnRuntimeTag_t'
+
+    ctypedef void* ActivationDescriptor 'miopenActivationDescriptor_t'
+    ctypedef void* ConvolutionDescriptor 'miopenConvolutionDescriptor_t'
+    ctypedef void* DropoutDescriptor 'miopenDropoutDescriptor_t'
+    ctypedef void* FilterDescriptor 'cudnnFilterDescriptor_t'
+    ctypedef void* Handle 'miopenHandle_t'
+    ctypedef void* PoolingDescriptor 'miopenPoolingDescriptor_t'
+    ctypedef void* CTCLossDescriptor 'miopenCTCLossDescriptor_t'
+    ctypedef void* RNNDescriptor 'miopenRNNDescriptor_t'
+    ctypedef void* RNNDataDescriptor 'miopenRNNDataDescriptor_t'
+    ctypedef void* PersistentRNNPlan 'cudnnPersistentRNNPlan_t'
+    ctypedef void* TensorDescriptor 'miopenTensorDescriptor_t'
+    ctypedef void* OpTensorDescriptor 'miopenTensorDescriptor_t'
+    ctypedef void* ReduceTensorDescriptor 'miopenReduceTensorDescriptor_t'
+    ctypedef void* SpatialTransformerDescriptor \
+        'cudnnSpatialTransformerDescriptor_t'
+    ctypedef void* SamplerType 'cudnnSamplerType_t'
+    ctypedef void* FusedOpsConstParamPack 'cudnnFusedOpsConstParamPack_t'
+    ctypedef void* FusedOpsVariantParamPack 'cudnnFusedOpsVariantParamPack_t'
+    ctypedef void* FusedOpsPlan 'cudnnFusedOpsPlan_t'
+
+    # Error handling
+    const char* miopenGetErrorString(Status status)
+
+    # Version
+    size_t miopenGetVersion()
+
+    # Runtime error checking
+    int cudnnQueryRuntimeError(Handle handle, Status *rstatus,
+                               ErrQueryMode mode, RuntimeTag *tag)
+
+    # Initialization and CUDA cooperation
+    int miopenCreate(Handle* handle)
+    int miopenDestroy(Handle handle)
+    int miopenSetStream(Handle handle, driver.Stream stream)
+    int miopenGetStream(Handle handle, driver.Stream* stream)
+
+    # Tensor manipulation
+    int miopenCreateTensorDescriptor(TensorDescriptor* descriptor)
+    int miopenSet4dTensorDescriptor(
+        TensorDescriptor tensorDesc, 
+        DataType dataType, int n, int c, int h, int w)
+    int miopenSet4dTensorDescriptorEx(
+        TensorDescriptor tensorDesc, DataType dataType,
+        int n, int c, int h, int w,
+        int nStride, int cStride, int hStride, int wStride)
+    int miopenGet4dTensorDescriptor(
+        TensorDescriptor tensorDesc, DataType* dataType,
+        int* n, int* c, int* h, int* w,
+        int* nStride, int* cStride, int* hStride, int* wStride)
+    int cudnnSetTensorNdDescriptor(
+        TensorDescriptor tensorDesc, DataType dataType, int nbDims,
+        int* dimA, int* strideA)
+    int miopenDestroyTensorDescriptor(TensorDescriptor tensorDesc)
+    int cudnnAddTensor_v3(
+        Handle handle, void* alpha, TensorDescriptor bDesc,
+        void* b, void* beta, TensorDescriptor yDesc, void* y)
+
+    # Tensor operations
+    int cudnnCreateOpTensorDescriptor(OpTensorDescriptor* opTensorDesc)
+    int cudnnSetOpTensorDescriptor(
+        OpTensorDescriptor opTensorDesc, OpTensorOp opTensorOp,
+        DataType opTensorCompType, NanPropagation opTensorNanOpt)
+    int cudnnGetOpTensorDescriptor(
+        OpTensorDescriptor opTensorDesc, OpTensorOp* opTensorOp,
+        DataType* opTensorCompType, NanPropagation* opTensorNanOpt)
+    int cudnnDestroyOpTensorDescriptor(OpTensorDescriptor opTensorDesc)
+    int miopenOpTensor(
+        Handle handle, OpTensorDescriptor opTensorDesc, void* alpha1,
+        TensorDescriptor aDesc, void* A, void* alpha2,
+        TensorDescriptor bDesc, void* B, void* beta,
+        TensorDescriptor cDesc, void* C)
+
+    # Tensor reductions
+    int miopenCreateReduceTensorDescriptor(
+        ReduceTensorDescriptor* reduceTensorDesc)
+    int miopenSetReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc, ReduceTensorOp reduceTensorOp,
+        DataType reduceTensorCompType, NanPropagation reduceTensorNanOpt,
+        ReduceTensorIndices reduceTensorIndices,
+        IndicesType reduceTensorIndicesType)
+    int miopenGetReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc,
+        ReduceTensorOp* reduceTensorOp, DataType* reduceTensorCompType,
+        NanPropagation* reduceTensorNanOpt,
+        ReduceTensorIndices* reduceTensorIndices,
+        IndicesType* reduceTensorIndicesType)
+    int miopenDestroyReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc)
+    int miopenGetReductionIndicesSize(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc,
+        TensorDescriptor aDesc, TensorDescriptor cDesc, size_t* sizeInBytes)
+    int miopenGetReductionWorkspaceSize(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc,
+        TensorDescriptor aDesc, TensorDescriptor cDesc, size_t* sizeInBytes)
+    int miopenReduceTensor(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc, void* indices,
+        size_t indicesSizeInBytes, void* workspace,
+        size_t workspaceSizeInBytes, void* alpha, TensorDescriptor aDesc,
+        void* A, void* beta, TensorDescriptor cDesc, void* c)
+    int miopenSetTensor(
+        Handle handle, TensorDescriptor yDesc, void* y, void* valuePtr)
+    int miopenScaleTensor(
+        Handle handle, TensorDescriptor yDesc, void* y, void* alpha)
+
+    # Filter manipulation
+    int cudnnCreateFilterDescriptor(FilterDescriptor* filterDesc)
+    int cudnnSetFilter4dDescriptor_v4(
+        FilterDescriptor filterDesc, DataType dataType,
+        TensorFormat format, int k, int c, int h, int w)
+    int cudnnSetFilterNdDescriptor_v4(
+        FilterDescriptor filterDesc, DataType dataType,
+        TensorFormat format, int nbDims, const int filterDimA[])
+    int cudnnGetFilterNdDescriptor_v4(
+        FilterDescriptor wDesc, int nbDimsRequested, DataType* dataType,
+        TensorFormat* format, int* nbDims, int filterDimA[])
+    int cudnnDestroyFilterDescriptor(FilterDescriptor filterDesc)
+
+    # Convolution
+    int miopenCreateConvolutionDescriptor(ConvolutionDescriptor* convDesc)
+    int cudnnSetConvolutionMathType(
+        ConvolutionDescriptor convDesc, MathType mathType)
+    int cudnnGetConvolutionMathType(
+        ConvolutionDescriptor convDesc, MathType *mathType)
+    int miopenSetConvolutionGroupCount(
+        ConvolutionDescriptor convDesc, int groupCount)
+    int miopenGetConvolutionGroupCount(
+        ConvolutionDescriptor convDesc, int *groupCount)
+    int cudnnSetConvolution2dDescriptor_v4(
+        ConvolutionDescriptor convDesc, int pad_h, int pad_w, int u,
+        int v, int dilation_h, int dilation_w, ConvolutionMode mode)
+    int cudnnSetConvolution2dDescriptor_v5(
+        ConvolutionDescriptor convDesc, int pad_h, int pad_w, int u,
+        int v, int dilation_h, int dilation_w, ConvolutionMode mode,
+        DataType computeType)
+    int cudnnSetConvolutionNdDescriptor_v3(
+        ConvolutionDescriptor convDesc, int arrayLength, int* padA,
+        int* filterStrideA, int* dilationA, ConvolutionMode mode,
+        DataType dataType)
+    int miopenDestroyConvolutionDescriptor(ConvolutionDescriptor conDesc)
+    int cudnnFindConvolutionForwardAlgorithm(
+        Handle handle, TensorDescriptor xDesc, FilterDescriptor wDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor yDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionFwdAlgoPerf* perfResults)
+    int cudnnFindConvolutionForwardAlgorithmEx(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        FilterDescriptor wDesc, void* w, ConvolutionDescriptor convDesc,
+        TensorDescriptor yDesc, void* y, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionForwardAlgorithmEx_v7(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        FilterDescriptor wDesc, void* w, ConvolutionDescriptor convDesc,
+        TensorDescriptor yDesc, void* y, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnGetConvolutionForwardAlgorithm_v6(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc, ConvolutionFwdPreference preference,
+        size_t memoryLimitInbytes, ConvolutionFwdAlgo* algo)
+    int cudnnGetConvolutionForwardAlgorithm_v7(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf_v7* perfResults)
+    int miopenConvolutionForwardGetWorkSpaceSize(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc,
+        size_t* sizeInBytes)
+    int cudnnConvolutionForward(
+        Handle handle, void* alpha, TensorDescriptor srcDesc,
+        void* srcData, FilterDescriptor filterDesc, void* filterData,
+        ConvolutionDescriptor convDesc, ConvolutionFwdAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        TensorDescriptor destDesc, void* destData)
+    int cudnnConvolutionBackwardBias(
+        Handle handle, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor destDesc, void* destData)
+    int cudnnFindConvolutionBackwardFilterAlgorithm(
+        Handle handle, TensorDescriptor xDesc, TensorDescriptor dyDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor dwDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdFilterAlgoPerf* perfResults)
+    int cudnnFindConvolutionBackwardFilterAlgorithmEx(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        FilterDescriptor dwDesc, void* dw, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdFilterAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        FilterDescriptor dwDesc, void* dw, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdFilterAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnGetConvolutionBackwardFilterAlgorithm_v6(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor filterDesc,
+        ConvolutionBwdFilterPreference preference,
+        size_t memoryLimitInbytes, ConvolutionBwdFilterAlgo* algo)
+    int cudnnGetConvolutionBackwardFilterAlgorithm_v7(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor gradDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdFilterAlgoPerf_v7* perfResults)
+    int cudnnGetConvolutionBackwardFilterWorkspaceSize(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor filterDesc,
+        ConvolutionBwdFilterAlgo algo, size_t* sizeInBytes)
+    int cudnnConvolutionBackwardFilter_v3(
+        Handle handle, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor diffDesc, void* diffData,
+        ConvolutionDescriptor convDesc, ConvolutionBwdFilterAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        FilterDescriptor gradDesc, void* gradData)
+    int cudnnGetConvolutionBackwardDataAlgorithm_v6(
+        Handle handle, FilterDescriptor filterDesc,
+        TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor gradDesc,
+        ConvolutionBwdDataPreference preference,
+        size_t memoryLimitInbytes, ConvolutionBwdDataAlgo* algo)
+    int cudnnGetConvolutionBackwardDataAlgorithm_v7(
+        Handle handle, TensorDescriptor filterDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor gradDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdDataAlgoPerf_v7* perfResults)
+    int cudnnFindConvolutionBackwardDataAlgorithm(
+        Handle handle, TensorDescriptor wDesc, TensorDescriptor dyDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor dxDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdDataAlgoPerf* perfResults)
+    int cudnnFindConvolutionBackwardDataAlgorithmEx(
+        Handle handle, FilterDescriptor wDesc, void* w,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        TensorDescriptor dxDesc, void* dx, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdDataAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
+        Handle handle, FilterDescriptor wDesc, void* w,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        TensorDescriptor dxDesc, void* dx, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdDataAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int miopenConvolutionBackwardDataGetWorkSpaceSize(
+        Handle handle, FilterDescriptor filterDesc,
+        TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor gradDesc,
+        size_t* sizeInBytes)
+    int cudnnConvolutionBackwardData_v3(
+        Handle handle, void* alpha,
+        FilterDescriptor filterDesc, void* filterData,
+        TensorDescriptor diffDesc, void* diffData,
+        ConvolutionDescriptor convDesc, ConvolutionBwdDataAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        TensorDescriptor gradDesc, void* gradData)
+
+    # Pooling
+    int miopenCreatePoolingDescriptor(PoolingDescriptor* desc)
+    int cudnnSetPooling2dDescriptor_v4(
+        PoolingDescriptor poolingDesc, PoolingMode mode,
+        NanPropagation maxpoolingNanOpt, int windowHeight, int windowWidth,
+        int verticalPadding, int horizontalPadding, int verticalStride,
+        int horizontalStride)
+    int cudnnSetPoolingNdDescriptor_v4(
+        PoolingDescriptor poolingDesc, PoolingMode mode,
+        NanPropagation maxpoolingNanOpt, int nbDims,
+        int* windowDimA, int* paddingA, int* strideA)
+    int miopenDestroyPoolingDescriptor(PoolingDescriptor poolingDesc)
+    int cudnnPoolingForward(
+        Handle handle, PoolingDescriptor poolingDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor dstDesc, void* dstData)
+    int cudnnPoolingBackward(
+        Handle handle, PoolingDescriptor poolingDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData,
+        TensorDescriptor destDesc, void* destData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+
+    # Batch Normalization
+    int miopenDeriveBNTensorDescriptor(
+        TensorDescriptor derivedBnDesc, TensorDescriptor xDesc,
+        BatchNormMode mode)
+    int miopenBatchNormalizationForwardTraining(
+        Handle handle, BatchNormMode mode,
+        void* alpha, void* beta, TensorDescriptor xDesc,
+        void* x, TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc, void* bnScale,
+        void* bnBias, double exponentialAverageFactor,
+        void* resultRunningMean, void* resultRunningVariance,
+        double epsilon, void* resultSaveMean,
+        void* resultSaveInvVariance)
+    int miopenBatchNormalizationForwardInference(
+        Handle handle, BatchNormMode mode,
+        void* alpha, void* beta, TensorDescriptor xDesc,
+        void* x, TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc, void* bnScale,
+        void* bnBias, void* estimatedMean, void* estimatedVariance,
+        double epsilon)
+    int miopenBatchNormalizationBackward(
+        Handle handle, BatchNormMode mode,
+        void* alphaDataDiff, void* betaDataDiff,
+        void* alphaParamDiff, void* betaParamDiff,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy,
+        TensorDescriptor dxDesc, void* dx,
+        TensorDescriptor dBnScaleBiasDesc, void* bnScale,
+        void* dBnScaleResult, void* dBnBiasResult,
+        double epsilon, void* savedMean, void* savedInvVariance)
+
+    int cudnnBatchNormalizationForwardTrainingEx(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnOps,
+        void* alpha, void* beta,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor zDesc, void* z,
+        TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc,
+        void* bnScale, void* bnBias,
+        double exponentialAverageFactor,
+        void* resultRunningMean, void* resultRunningVariance,
+        double epsilon,
+        void* resultSaveMean, void* resultSaveInvVariance,
+        ActivationDescriptor activationDesc,
+        void* workspace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnOps,
+        TensorDescriptor xDesc,
+        TensorDescriptor zDesc,
+        TensorDescriptor yDesc,
+        TensorDescriptor bnScaleBiasMeanVarDesc,
+        ActivationDescriptor activationDesc,
+        size_t* sizeInBytes)
+    int cudnnBatchNormalizationBackwardEx(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnops,
+        void* alphaDataDiff, void* betaDataDiff,
+        void* alphaParamDiff, void* betaParamDiff,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor yDesc, void* y,
+        TensorDescriptor dyDesc, void* dy,
+        TensorDescriptor dzDesc, void* dz,
+        TensorDescriptor dxDesc, void* dx,
+        TensorDescriptor dBnScaleBiasDesc,
+        void* bnScaleData, void* bnBiasData,
+        void* dBnScaleData, void* dBnBiasData,
+        double epsilon,
+        void* savedMean, void* savedInvVariance,
+        ActivationDescriptor activationDesc,
+        void* workspace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnGetBatchNormalizationBackwardExWorkspaceSize(
+        Handle handle,
+        BatchNormMode mode,
+        BatchNormOps bnOps,
+        TensorDescriptor xDesc,
+        TensorDescriptor yDesc,
+        TensorDescriptor dyDesc,
+        TensorDescriptor dzDesc,
+        TensorDescriptor dxDesc,
+        TensorDescriptor dBnScaleBiasDesc,
+        ActivationDescriptor activationDesc,
+        size_t* sizeInBytes)
+    int cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
+        Handle handle,
+        BatchNormMode mode,
+        BatchNormOps bnOps,
+        ActivationDescriptor activationDesc,
+        TensorDescriptor xDesc,
+        size_t* sizeInBytes)
+
+    # Activation
+    int miopenCreateActivationDescriptor(
+        ActivationDescriptor* activationDesc)
+    int cudnnSetActivationDescriptor(
+        ActivationDescriptor activationDesc, ActivationMode mode,
+        NanPropagation reluNanOpt, double reluCeiling)
+    int miopenDestroyActivationDescriptor(
+        ActivationDescriptor activationDesc)
+    int miopenSoftmaxForward(
+        Handle handle, 
+        void* alpha, TensorDescriptor srcDesc, void* srcData,
+        void* beta, TensorDescriptor dstDesc, void* dstData)
+    int miopenSoftmaxBackward(
+        Handle handle, 
+        void* alpha, TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+    int cudnnActivationForward_v4(
+        Handle handle, ActivationDescriptor activationDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor dstDesc, void* dstData)
+    int cudnnActivationBackward_v4(
+        Handle handle, ActivationDescriptor activationDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData,
+        TensorDescriptor destDesc, void* destData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+
+    # Dropout
+    int miopenCreateDropoutDescriptor(DropoutDescriptor* desc)
+    int miopenDestroyDropoutDescriptor(DropoutDescriptor dropoutDesc)
+    int miopenDropoutGetStatesSize(Handle handle, size_t* sizeInBytes)
+    int miopenDropoutGetReserveSpaceSize(
+        TensorDescriptor xDesc, size_t* sizeInBytes)
+    int cudnnSetDropoutDescriptor(
+        DropoutDescriptor dropoutDesc, Handle handle, float dropout,
+        void* states, size_t stateSizeInBytes, unsigned long long seed)
+    int cudnnDropoutForward(
+        Handle handle, DropoutDescriptor dropoutDesc,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor dstDesc, void* dstData,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnDropoutBackward(
+        Handle handle, DropoutDescriptor dropoutDesc,
+        TensorDescriptor dydesc, void* dy, TensorDescriptor dxdesc,
+        void* dx, void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    # CTC
+    int miopenCreateCTCLossDescriptor(CTCLossDescriptor* ctcLossDesc)
+    int miopenDestroyCTCLossDescriptor(CTCLossDescriptor ctcLossDesc)
+    int cudnnSetCTCLossDescriptor(
+        CTCLossDescriptor ctcLossDesc, DataType dataType)
+    int cudnnGetCTCLossDescriptor(
+        CTCLossDescriptor ctcLossDesc, DataType* dataType)
+    int miopenGetCTCLossWorkspaceSize(
+        Handle handle, TensorDescriptor probsDesc,
+        TensorDescriptor gradientsDesc, int* labels,
+        int* labelLengths, int* inputLengths, CTCLossAlgo algo,
+        CTCLossDescriptor ctcLossDesc, size_t* sizeInBytes)
+    int miopenCTCLoss(
+        Handle handle, TensorDescriptor probsDesc,
+        void* probs, int* labels, int* labelLengths, int* inputLengths,
+        void* costs, TensorDescriptor gradientsDesc, void* gradients,
+        CTCLossAlgo algo, CTCLossDescriptor ctcLossDesc,
+        void* workspace, size_t workSpaceSizeInBytes)
+    # RNN
+    int miopenCreateRNNDescriptor(RNNDescriptor* rnnDesc)
+    int miopenDestroyRNNDescriptor(RNNDescriptor rnnDesc)
+    int cudnnCreatePersistentRNNPlan(
+        RNNDescriptor rnnDesc,
+        const int minibatch, DataType dataType,
+        PersistentRNNPlan* plan)
+    int cudnnSetPersistentRNNPlan(
+        RNNDescriptor rnnDesc, PersistentRNNPlan plan)
+    int cudnnDestroyPersistentRNNPlan(PersistentRNNPlan plan)
+    int cudnnSetRNNDescriptor_v5(
+        RNNDescriptor rnnDesc, int hiddenSize,
+        int numLayers, DropoutDescriptor dropoutDesc, RNNInputMode inputMode,
+        DirectionMode direction, RNNMode mode, DataType dataType)
+    int cudnnSetRNNDescriptor_v6(
+        Handle handle, RNNDescriptor rnnDesc, int hiddenSize,
+        int numLayers, DropoutDescriptor dropoutDesc, RNNInputMode inputMode,
+        DirectionMode direction, RNNMode mode, RNNAlgo algo, DataType dataType)
+    int cudnnSetRNNPaddingMode(
+        RNNDescriptor rnnDesc, RNNPaddingMode paddingMode)
+    int cudnnGetRNNPaddingMode(
+        RNNDescriptor rnnDesc, RNNPaddingMode* paddingMode)
+    int cudnnCreateRNNDataDescriptor(RNNDataDescriptor* RNNDataDesc)
+    int cudnnDestroyRNNDataDescriptor(RNNDataDescriptor RNNDataDesc)
+    int cudnnSetRNNDataDescriptor(
+        RNNDataDescriptor RNNDataDesc, DataType dataType, RNNDataLayout layout,
+        int maxSeqLength, int batchSize, int vectorSize,
+        const int seqLengthArray[], void *paddingFill)
+    int cudnnGetRNNDataDescriptor(
+        RNNDataDescriptor RNNDataDesc, DataType* dataType,
+        RNNDataLayout* layout, int* maxSeqLength, int* batchSize,
+        int* vectorSize, int arrayLengthRequested, int seqLengthArray[],
+        void* paddingFill)
+    int miopenGetRNNWorkspaceSize(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, size_t* sizeInBytes)
+    int miopenGetRNNTrainingReserveSize(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, size_t* sizeInBytes)
+    int miopenGetRNNParamsSize(
+        Handle handle, RNNDescriptor rnnDesc, TensorDescriptor xDesc,
+        size_t* sizeInBytes, DataType dataType)
+    int cudnnGetRNNLinLayerMatrixParams(
+        Handle handle, RNNDescriptor rnnDesc, int layer,
+        TensorDescriptor xDesc, FilterDescriptor wDesc, void* w,
+        int linLayerID, FilterDescriptor linLayerMatDesc,
+        void** linLayerMat)
+    int cudnnGetRNNLinLayerBiasParams(
+        Handle handle, RNNDescriptor rnnDesc, int layer,
+        TensorDescriptor xDesc, FilterDescriptor wDesc, void* w,
+        int linLayerID, FilterDescriptor linLayerBiasDesc,
+        void** linLayerBias)
+    int miopenRNNForwardInference(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc,
+        void* x, TensorDescriptor hxDesc, void* hx, TensorDescriptor cxDesc,
+        void* cx, FilterDescriptor wDesc, void* w, TensorDescriptor* yDesc,
+        void* y, TensorDescriptor hyDesc, void* hy, TensorDescriptor cyDesc,
+        void* cy, void* workspace, size_t workSpaceSizeInBytes)
+    int miopenRNNForwardTraining(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, void* x,
+        TensorDescriptor hxDesc, void* hx, TensorDescriptor cxDesc, void* cx,
+        FilterDescriptor wDesc, void* w, TensorDescriptor* yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy, TensorDescriptor cyDesc, void* cy,
+        void* workspace, size_t workSpaceSizeInBytes, void* reserveSpace,
+        size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardData(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* yDesc, void* y,
+        TensorDescriptor* dyDesc, void* dy,
+        TensorDescriptor dhyDesc, void* dhy,
+        TensorDescriptor dcyDesc, void* dcy,
+        FilterDescriptor wDesc, void* w,
+        TensorDescriptor hxDesc, void* hx,
+        TensorDescriptor cxDesc, void* cx,
+        TensorDescriptor* dxDesc, void* dx,
+        TensorDescriptor dhxDesc, void* dhx,
+        TensorDescriptor dcxDesc, void* dcx, void* workspace,
+        size_t workSpaceSizeInBytes, void* reserveSpace,
+        size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardWeights(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, void* x, TensorDescriptor hxDesc, void* hx,
+        TensorDescriptor* yDesc, void* y,
+        void* workspace, size_t workSpaceSizeInBytes, FilterDescriptor dwDesc,
+        void* dw, void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    int cudnnRNNForwardInferenceEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        FilterDescriptor wDesc, const void* w,
+        RNNDataDescriptor yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy,
+        TensorDescriptor cyDesc, void* cy,
+        RNNDataDescriptor kDesc, const void* keys,
+        RNNDataDescriptor cDesc, void* cAttn,
+        RNNDataDescriptor iDesc, void* iAttn,
+        RNNDataDescriptor qDesc, void* queries,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnRNNForwardTrainingEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        FilterDescriptor wDesc, const void* w,
+        RNNDataDescriptor yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy,
+        TensorDescriptor cyDesc, void* cy,
+        RNNDataDescriptor kDesc, const void* keys,
+        RNNDataDescriptor cDesc, void* cAttn,
+        RNNDataDescriptor iDesc, void* iAttn,
+        RNNDataDescriptor qDesc, void* queries,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardDataEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor yDesc, const void* y,
+        RNNDataDescriptor dyDesc, const void* dy,
+        RNNDataDescriptor dcDesc, const void* dcAttn,
+        TensorDescriptor dhyDesc, const void* dhy,
+        TensorDescriptor dcyDesc, const void* dcy,
+        FilterDescriptor wDesc, const void* w,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        RNNDataDescriptor dxDesc, void* dx,
+        TensorDescriptor dhxDesc, void* dhx,
+        TensorDescriptor dcxDesc, void* dcx,
+        RNNDataDescriptor dkDesc, void* dkeys,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardWeightsEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        RNNDataDescriptor yDesc, const void* y,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        FilterDescriptor dwDesc, void* dw,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    # Spatial Transformer
+    int cudnnCreateSpatialTransformerDescriptor(
+        SpatialTransformerDescriptor* stDesc)
+    int cudnnDestroySpatialTransformerDescriptor(
+        SpatialTransformerDescriptor stDesc)
+    int cudnnSetSpatialTransformerNdDescriptor(
+        SpatialTransformerDescriptor stDesc, SamplerType samplerType,
+        DataType dataType, int nbDims, int dimA[])
+    int cudnnSpatialTfGridGeneratorForward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* theta, void* grid)
+    int cudnnSpatialTfGridGeneratorBackward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* dgrid, void* dtheta)
+    int cudnnSpatialTfSamplerForward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* alpha, TensorDescriptor xDesc, void* x,
+        void* grid, void* beta, TensorDescriptor yDesc, void* y)
+    int cudnnSpatialTfSamplerBackward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* alpha, TensorDescriptor xDesc, void* x, void* beta,
+        TensorDescriptor dxDesc, void* dx, void* alphaDgrid,
+        TensorDescriptor dyDesc, void* dy, void* grid,
+        void* betaDgrid, void* dgrid)
+
+    # Fused Ops
+    int cudnnCreateFusedOpsConstParamPack(
+        FusedOpsConstParamPack* constPack, int ops)
+    int cudnnDestroyFusedOpsConstParamPack(FusedOpsConstParamPack constPack)
+    int cudnnSetFusedOpsConstParamPackAttribute(
+        FusedOpsConstParamPack constPack, FusedOpsConstParamLabel paramLabel,
+        const void *param)
+    int cudnnGetFusedOpsConstParamPackAttribute(
+        const FusedOpsConstParamPack constPack,
+        FusedOpsConstParamLabel paramLabel, void *param, int *isNULL)
+    int cudnnCreateFusedOpsVariantParamPack(
+        FusedOpsVariantParamPack *varPack, FusedOps ops)
+    int cudnnDestroyFusedOpsVariantParamPack(FusedOpsVariantParamPack varPack)
+    int cudnnSetFusedOpsVariantParamPackAttribute(
+        FusedOpsVariantParamPack varPack, FusedOpsVariantParamLabel paramLabel,
+        void *ptr)
+    int cudnnGetFusedOpsVariantParamPackAttribute(
+        const FusedOpsVariantParamPack varPack,
+        FusedOpsVariantParamLabel paramLabel, void *ptr)
+    int cudnnCreateFusedOpsPlan(FusedOpsPlan *plan, FusedOps ops)
+    int cudnnDestroyFusedOpsPlan(FusedOpsPlan plan)
+    int cudnnMakeFusedOpsPlan(
+        Handle handle, FusedOpsPlan plan,
+        const FusedOpsConstParamPack constPack, size_t *workspaceSizeInBytes)
+    int cudnnFusedOpsExecute(
+        Handle handle, const FusedOpsPlan plan,
+        FusedOpsVariantParamPack varPack)
+
+    # Build-time version
+    int CUDNN_VERSION
+
+    # Constants
+    double _CUDNN_BN_MIN_EPSILON 'CUDNN_BN_MIN_EPSILON'
+
+
+cdef class CuDNNAlgoPerf:
+
+    def __init__(self, algo, status, time, memory, determinism, mathType):
+        self.algo = algo
+        self.status = status
+        self.time = time
+        self.memory = memory
+        self.determinism = determinism
+        self.mathType = mathType
+
+
+###############################################################################
+# Error handling
+###############################################################################
+
+class CuDNNError(RuntimeError):
+
+    def __init__(self, int status):
+        self.status = status
+        msg = cudnnGetErrorString(<Status>status)
+        super(CuDNNError, self).__init__(
+            'cuDNN Error: {}'.format(msg.decode()))
+        self._infos = []
+
+    def add_info(self, info):
+        assert isinstance(info, str)
+        self._infos.append(info)
+
+    def add_infos(self, infos):
+        assert isinstance(infos, list)
+        self._infos.extend(infos)
+
+    def __str__(self):
+        base = super(CuDNNError, self).__str__()
+        return base + ''.join(
+            '\n  ' + info for info in self._infos)
+
+    def __reduce__(self):
+        return (type(self), (self.status,))
+
+
+@cython.profile(False)
+cpdef inline check_status(int status):
+    if status != 0:
+        raise CuDNNError(status)
+
+
+###############################################################################
+# Build-time version
+###############################################################################
+
+def get_build_version():
+    return CUDNN_VERSION
+
+
+###############################################################################
+# Version
+###############################################################################
+
+cpdef size_t getVersion() except? 0:
+    return cudnnGetVersion()
+
+
+###############################################################################
+# Runtime error checking
+###############################################################################
+
+cpdef queryRuntimeError(intptr_t handle, int mode):
+    cdef Status rstatus
+    with nogil:
+        status = cudnnQueryRuntimeError(<Handle>handle, &rstatus,
+                                        <ErrQueryMode>mode, <RuntimeTag*>0)
+    check_status(status)
+    return rstatus
+
+
+###############################################################################
+# Initialization and CUDA cooperation
+###############################################################################
+
+cpdef intptr_t create() except? 0:
+    cdef Handle handle
+    with nogil:
+        status = miopenCreate(&handle)
+    check_status(status)
+    return <intptr_t>handle
+
+
+cpdef destroy(intptr_t handle):
+    with nogil:
+        status = miopenDestroy(<Handle>handle)
+    check_status(status)
+
+
+cpdef setStream(intptr_t handle, size_t stream):
+    # TODO(leofang): The support of stream capture is not mentioned at all in
+    # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
+    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
+        raise NotImplementedError(
+            'calling cuDNN API during stream capture is currently '
+            'unsupported')
+
+    status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
+    check_status(status)
+
+
+cpdef size_t getStream(intptr_t handle) except? 0:
+    cdef driver.Stream stream
+    status = miopenGetStream(<Handle>handle, &stream)
+    check_status(status)
+    return <size_t>stream
+
+
+cdef _setStream(intptr_t handle):
+    """Set current stream"""
+    setStream(handle, stream_module.get_current_stream_ptr())
+
+###############################################################################
+# Tensor manipulation
+###############################################################################
+
+cpdef size_t createTensorDescriptor() except? 0:
+    cdef TensorDescriptor descriptor
+    status = miopenCreateTensorDescriptor(&descriptor)
+    check_status(status)
+    return <size_t>descriptor
+
+
+cpdef setTensor4dDescriptor(size_t tensorDesc, int format, int dataType,
+                            int n, int c, int h, int w):
+    status = miopenSet4dTensorDescriptor(
+        <TensorDescriptor>tensorDesc,
+        <DataType>dataType, n, c, h, w)
+    check_status(status)
+
+
+cpdef setTensor4dDescriptorEx(size_t tensorDesc, int dataType,
+                              int n, int c, int h, int w, int nStride,
+                              int cStride, int hStride, int wStride):
+    status = miopenSet4dTensorDescriptorEx(
+        <TensorDescriptor>tensorDesc, <DataType>dataType, n, c, h, w,
+        nStride, cStride, hStride, wStride)
+    check_status(status)
+
+
+cpdef tuple getTensor4dDescriptor(size_t tensorDesc):
+    cdef DataType dataType
+    cdef int n, c, h, w, nStride, cStride, hStride, wStride
+    status = miopenGet4dTensorDescriptor(
+        <TensorDescriptor>tensorDesc, &dataType,
+        &n, &c, &h, &w, &nStride, &cStride, &hStride, &wStride)
+    check_status(status)
+    return dataType, n, c, h, w, nStride, cStride, hStride, wStride
+
+
+cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
+                            size_t dimA, size_t strideA):
+    status = cudnnSetTensorNdDescriptor(
+        <TensorDescriptor>tensorDesc, <DataType>dataType, nbDims,
+        <int*>dimA, <int*>strideA)
+    check_status(status)
+
+
+cpdef destroyTensorDescriptor(size_t tensorDesc):
+    status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    check_status(status)
+
+
+cpdef addTensor_v3(intptr_t handle, size_t alpha, size_t bDesc,
+                   size_t b, size_t beta, size_t yDesc, size_t y):
+    _setStream(handle)
+    with nogil:
+        status = cudnnAddTensor_v3(
+            <Handle>handle, <void*>alpha, <TensorDescriptor>bDesc,
+            <void*>b, <void*>beta, <TensorDescriptor>yDesc, <void*>y)
+    check_status(status)
+
+
+###############################################################################
+# Tensor operations
+###############################################################################
+
+cpdef size_t createOpTensorDescriptor() except? 0:
+    cdef OpTensorDescriptor opTensorDesc
+    status = cudnnCreateOpTensorDescriptor(&opTensorDesc)
+    check_status(status)
+    return <size_t>opTensorDesc
+
+
+cpdef setOpTensorDescriptor(size_t opTensorDesc, int opTensorOp,
+                            int opTensorCompType, int opTensorNanOpt):
+    status = cudnnSetOpTensorDescriptor(
+        <OpTensorDescriptor>opTensorDesc, <OpTensorOp>opTensorOp,
+        <DataType>opTensorCompType, <NanPropagation>opTensorNanOpt)
+    check_status(status)
+
+
+cpdef getOpTensorDescriptor(size_t opTensorDesc):
+    cdef OpTensorOp opTensorOp
+    cdef DataType opTensorCompType
+    cdef NanPropagation opTensorNanOpt
+    status = cudnnGetOpTensorDescriptor(
+        <OpTensorDescriptor>opTensorDesc, &opTensorOp, &opTensorCompType,
+        &opTensorNanOpt)
+    check_status(status)
+    return opTensorOp, opTensorCompType, opTensorNanOpt
+
+
+cpdef destroyOpTensorDescriptor(size_t opTensorDesc):
+    status = cudnnDestroyOpTensorDescriptor(<OpTensorDescriptor>opTensorDesc)
+    check_status(status)
+
+
+cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
+               size_t aDesc, size_t A, size_t alpha2, size_t bDesc,
+               size_t B, size_t beta, size_t cDesc, size_t C):
+    _setStream(handle)
+    with nogil:
+        status = cudnnOpTensor(
+            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+            <TensorDescriptor>cDesc, <void*>C)
+    check_status(status)
+
+
+###############################################################################
+# Tensor reductions
+###############################################################################
+
+cpdef size_t createReduceTensorDescriptor() except? 0:
+    cdef ReduceTensorDescriptor reduceTensorDesc
+    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
+    check_status(status)
+    return <size_t>reduceTensorDesc
+
+cpdef setReduceTensorDescriptor(
+        size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
+        int reduceTensorNanOpt, int reduceTensorIndices,
+        int reduceTensorIndicesType):
+    status = cudnnSetReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc,
+        <ReduceTensorOp>reduceTensorOp,
+        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+        <ReduceTensorIndices>reduceTensorIndices,
+        <IndicesType>reduceTensorIndicesType)
+    check_status(status)
+
+
+cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
+    cdef ReduceTensorOp redOp
+    cdef DataType redCompType
+    cdef NanPropagation redNanOpt
+    cdef ReduceTensorIndices redIndices
+    cdef IndicesType redIndicesType
+    status = cudnnGetReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    check_status(status)
+    return redOp, redCompType, redNanOpt, redIndices, redIndicesType
+
+
+cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
+    status = cudnnDestroyReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc)
+    check_status(status)
+
+
+cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
+                                     size_t aDesc, size_t cDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetReductionIndicesSize(
+        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef size_t getReductionWorkspaceSize(intptr_t handle,
+                                       size_t reduceTensorDesc,
+                                       size_t aDesc, size_t cDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetReductionWorkspaceSize(
+        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
+                   size_t indicesSizeInBytes, size_t workspace,
+                   size_t workspaceSizeInBytes, size_t alpha, size_t aDesc,
+                   size_t A, size_t beta, size_t cDesc, size_t C):
+    _setStream(handle)
+    with nogil:
+        status = cudnnReduceTensor(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <void*>indices, indicesSizeInBytes, <void*>workspace,
+            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+    check_status(status)
+
+
+cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSetTensor(
+            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+            <void*>valuePtr)
+    check_status(status)
+
+
+cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
+    _setStream(handle)
+    with nogil:
+        status = cudnnScaleTensor(
+            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+            <void*>alpha)
+    check_status(status)
+
+
+###############################################################################
+# Filter manipulation
+###############################################################################
+
+cpdef size_t createFilterDescriptor() except? 0:
+    cdef FilterDescriptor desc
+    status = cudnnCreateFilterDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setFilter4dDescriptor_v4(
+        size_t filterDesc, int dataType,
+        int format, int k, int c, int h, int w):
+    status = cudnnSetFilter4dDescriptor_v4(
+        <FilterDescriptor>filterDesc, <DataType> dataType,
+        <TensorFormat> format, k, c, h, w)
+    check_status(status)
+
+
+cpdef setFilterNdDescriptor_v4(
+        size_t filterDesc, int dataType,
+        int format, int nbDims, size_t filterDimA):
+    status = cudnnSetFilterNdDescriptor_v4(
+        <FilterDescriptor>filterDesc, <DataType>dataType,
+        <TensorFormat>format, nbDims, <int*>filterDimA)
+    check_status(status)
+
+
+cpdef getFilterNdDescriptor(size_t wDesc, int nbDimsRequested):
+    cdef DataType dataType
+    cdef TensorFormat format
+    cdef int nbDims
+    cdef vector.vector[int] filterDimA
+    filterDimA.resize(nbDimsRequested)
+
+    status = cudnnGetFilterNdDescriptor_v4(
+        <FilterDescriptor>wDesc, nbDimsRequested, &dataType,
+        &format, &nbDims, filterDimA.data())
+    check_status(status)
+    return dataType, format, nbDims, tuple(filterDimA)
+
+
+cpdef destroyFilterDescriptor(size_t filterDesc):
+    status = cudnnDestroyFilterDescriptor(<FilterDescriptor>filterDesc)
+    check_status(status)
+
+
+###############################################################################
+# Convolution
+###############################################################################
+
+cpdef size_t createConvolutionDescriptor() except? 0:
+    cdef ConvolutionDescriptor desc
+    status = miopenCreateConvolutionDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setConvolutionMathType(size_t convDesc, size_t mathType):
+    status = cudnnSetConvolutionMathType(
+        <ConvolutionDescriptor>convDesc, <MathType>mathType)
+    check_status(status)
+
+
+cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
+    cdef MathType mathType
+    status = cudnnGetConvolutionMathType(
+        <ConvolutionDescriptor>convDesc, &mathType)
+    check_status(status)
+    return <size_t>mathType
+
+
+cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
+    status = miopenSetConvolutionGroupCount(
+        <ConvolutionDescriptor>convDesc, groupCount)
+    check_status(status)
+
+
+cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
+    cdef int groupCount
+    status = cudnnGetConvolutionGroupCount(
+        <ConvolutionDescriptor>convDesc, &groupCount)
+    check_status(status)
+    return groupCount
+
+
+cpdef setConvolution2dDescriptor_v4(
+        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
+        int dilation_w, int mode):
+    status = cudnnSetConvolution2dDescriptor_v4(
+        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
+        dilation_w, <ConvolutionMode>mode)
+    check_status(status)
+
+
+cpdef setConvolution2dDescriptor_v5(
+        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
+        int dilation_w, int mode, size_t computeType):
+    status = cudnnSetConvolution2dDescriptor_v5(
+        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
+        dilation_w, <ConvolutionMode>mode, <DataType>computeType)
+    check_status(status)
+
+
+cpdef setConvolutionNdDescriptor_v3(
+        size_t convDesc, int arrayLength, size_t padA, size_t filterStrideA,
+        size_t dilationA, int mode, int dataType):
+    status = cudnnSetConvolutionNdDescriptor_v3(
+        <ConvolutionDescriptor>convDesc, arrayLength, <int*>padA,
+        <int*>filterStrideA, <int*>dilationA, <ConvolutionMode>mode,
+        <DataType>dataType)
+    check_status(status)
+
+
+cpdef destroyConvolutionDescriptor(size_t convDesc):
+    status = miopenDestroyConvolutionDescriptor(
+        <ConvolutionDescriptor>convDesc)
+    check_status(status)
+
+
+cpdef findConvolutionForwardAlgorithm(
+        intptr_t handle, size_t xDesc, size_t wDesc, size_t convDesc,
+        size_t yDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithm(
+        <Handle> handle, <TensorDescriptor>xDesc, <FilterDescriptor>wDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>yDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionForwardAlgorithmEx(
+        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
+        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithmEx(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
+        workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionForwardAlgorithmEx_v7(
+        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
+        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithmEx_v7(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
+        workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionForwardAlgorithm_v6(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int preference, size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionFwdAlgo algo
+    status = cudnnGetConvolutionForwardAlgorithm_v6(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>destDesc, <ConvolutionFwdPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionForwardAlgorithm_v7(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionForwardAlgorithm_v7(
+        <Handle> handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>destDesc, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionForwardWorkspaceSize(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenConvolutionForwardGetWorkSpaceSize(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor> convDesc,
+        <TensorDescriptor>destDesc, &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionForward(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t filterDesc, size_t filterData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t destDesc, size_t destData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionForward(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <FilterDescriptor>filterDesc, <void*>filterData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <TensorDescriptor>destDesc, <void*>destData)
+    check_status(status)
+
+
+cpdef convolutionBackwardBias(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t beta, size_t destDesc, size_t destData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardBias(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>destDesc, <void*>destData)
+    check_status(status)
+
+
+cpdef findConvolutionBackwardFilterAlgorithm(
+        intptr_t handle, size_t xDesc, size_t dyDesc, size_t convDesc,
+        size_t dwDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithm(
+        <Handle> handle, <TensorDescriptor>xDesc, <TensorDescriptor>dyDesc,
+        <ConvolutionDescriptor>convDesc, <FilterDescriptor>dwDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionBackwardFilterAlgorithmEx(
+        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithmEx(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>dwDesc, <void*>dw,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionBackwardFilterAlgorithmEx_v7(
+        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>dwDesc, <void*>dw,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionBackwardFilterAlgorithm_v6(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t filterDesc, int preference,
+        size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionBwdFilterAlgo algo
+    status = cudnnGetConvolutionBackwardFilterAlgorithm_v6(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>filterDesc,
+        <ConvolutionBwdFilterPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionBackwardFilterAlgorithm_v7(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionBackwardFilterAlgorithm_v7(
+        <Handle>handle, <TensorDescriptor>srcDesc, <TensorDescriptor>diffDesc,
+        <ConvolutionDescriptor>convDesc, <FilterDescriptor>gradDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionBackwardFilterWorkspaceSize(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t filterDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = cudnnGetConvolutionBackwardFilterWorkspaceSize(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor> convDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionBwdFilterAlgo>algo,
+        &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionBackwardFilter_v3(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t gradDesc, size_t gradData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardFilter_v3(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>diffDesc, <void*>diffData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionBwdFilterAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <FilterDescriptor>gradDesc, <void*>gradData)
+    check_status(status)
+
+
+cpdef findConvolutionBackwardDataAlgorithm(
+        intptr_t handle, size_t wDesc, size_t dyDesc, size_t convDesc,
+        size_t dxDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithm(
+        <Handle> handle, <FilterDescriptor>wDesc, <TensorDescriptor>dyDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>dxDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionBackwardDataAlgorithmEx(
+        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dxDesc, size_t dx,
+        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithmEx(
+        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>dxDesc, <void*>dx,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionBackwardDataAlgorithmEx_v7(
+        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dxDesc, size_t dx,
+        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
+        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>dxDesc, <void*>dx,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionBackwardDataAlgorithm_v6(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, size_t preference,
+        size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionBwdDataAlgo algo
+    status = cudnnGetConvolutionBackwardDataAlgorithm_v6(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>gradDesc, <ConvolutionBwdDataPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionBackwardDataAlgorithm_v7(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionBackwardDataAlgorithm_v7(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>gradDesc, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionBackwardDataWorkspaceSize(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenConvolutionBackwardDataGetWorkSpaceSize(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>gradDesc,
+        &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionBackwardData_v3(
+        intptr_t handle, size_t alpha, size_t filterDesc, size_t filterData,
+        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t gradDesc, size_t gradData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardData_v3(
+            <Handle>handle, <void*>alpha,
+            <FilterDescriptor>filterDesc, <void*>filterData,
+            <TensorDescriptor>diffDesc, <void*>diffData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionBwdDataAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <TensorDescriptor>gradDesc, <void*>gradData)
+    check_status(status)
+
+###############################################################################
+# Pooling
+###############################################################################
+
+cpdef size_t createPoolingDescriptor() except? 0:
+    cdef PoolingDescriptor desc
+    status = miopenCreatePoolingDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setPooling2dDescriptor_v4(
+        size_t poolingDesc, int mode, int maxpoolingNanOpt, int windowHeight,
+        int windowWidth, int verticalPadding, int horizontalPadding,
+        int verticalStride, int horizontalStride):
+    status = cudnnSetPooling2dDescriptor_v4(
+        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
+        <NanPropagation>maxpoolingNanOpt, windowHeight, windowWidth,
+        verticalPadding, horizontalPadding, verticalStride, horizontalStride)
+    check_status(status)
+
+
+cpdef setPoolingNdDescriptor_v4(
+        size_t poolingDesc, int mode, int maxpoolingNanOpt, int nbDims,
+        size_t windowDimA, size_t paddingA, size_t strideA):
+    status = cudnnSetPoolingNdDescriptor_v4(
+        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
+        <NanPropagation>maxpoolingNanOpt, nbDims,
+        <int*>windowDimA, <int*>paddingA, <int*>strideA)
+    check_status(status)
+
+
+cpdef destroyPoolingDescriptor(size_t poolingDesc):
+    status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+    check_status(status)
+
+
+cpdef poolingForward(
+        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnPoolingForward(
+            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef poolingBackward(
+        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
+        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
+        size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnPoolingBackward(
+            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
+            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+###############################################################################
+# Batch Normalization
+###############################################################################
+
+CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
+
+cpdef deriveBNTensorDescriptor(
+        size_t derivedBnDesc, size_t xDesc, int mode):
+    status = miopenDeriveBNTensorDescriptor(
+        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+        <BatchNormMode> mode)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardTraining(
+        intptr_t handle, int mode,
+        size_t alpha, size_t beta, size_t xDesc,
+        size_t x, size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
+        size_t bnBias, double exponentialAverageFactor,
+        size_t resultRunningMean, size_t resultRunningVariance,
+        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationForwardTraining(
+            <Handle>handle, <BatchNormMode> mode,
+            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+            <void*>x, <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+            <void*>bnBias, exponentialAverageFactor,
+            <void*>resultRunningMean, <void*>resultRunningVariance,
+            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardInference(
+        intptr_t handle, int mode,
+        size_t alpha, size_t beta, size_t xDesc,
+        size_t x, size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
+        size_t bnBias, size_t estimatedMean, size_t estimatedVariance,
+        double epsilon):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationForwardInference(
+            <Handle>handle, <BatchNormMode> mode,
+            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+            <void*>x, <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+            epsilon)
+    check_status(status)
+
+
+cpdef batchNormalizationBackward(
+        intptr_t handle, int mode,
+        size_t alphaDataDiff, size_t betaDataDiff,
+        size_t alphaParamDiff, size_t betaParamDiff,
+        size_t xDesc, size_t x, size_t dyDesc,
+        size_t dy, size_t dxDesc, size_t dx,
+        size_t dBnScaleBiasDesc, size_t bnScale,
+        size_t dBnScaleResult, size_t dBnBiasResult,
+        double epsilon, size_t savedMean, size_t savedInvVariance):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationBackward(
+            <Handle>handle, <BatchNormMode>mode,
+            <void*>alphaDataDiff, <void*>betaDataDiff,
+            <void*>alphaParamDiff, <void*>betaParamDiff,
+            <TensorDescriptor>xDesc, <void*>x,
+            <TensorDescriptor>dyDesc, <void*>dy,
+            <TensorDescriptor>dxDesc, <void*>dx,
+            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+            <void*>dBnScaleResult, <void*>dBnBiasResult,
+            epsilon, <void*>savedMean, <void*>savedInvVariance)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardTrainingEx(
+        intptr_t handle, int mode, int bnOps,
+        size_t alpha, size_t beta,
+        size_t xDesc, size_t x,
+        size_t zDesc, size_t z,
+        size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc,
+        size_t bnScale, size_t bnBias,
+        double exponentialAverageFactor,
+        size_t resultRunningMean, size_t resultRunningVariance,
+        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance,
+        size_t activationDesc,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnBatchNormalizationForwardTrainingEx(
+            <Handle>handle, <BatchNormMode> mode, <BatchNormOps> bnOps,
+            <void*>alpha, <void*>beta,
+            <TensorDescriptor>xDesc, <void*>x,
+            <TensorDescriptor>zDesc, <void*>z,
+            <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc,
+            <void*>bnScale, <void*>bnBias,
+            exponentialAverageFactor,
+            <void*>resultRunningMean, <void*>resultRunningVariance,
+            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance,
+            <ActivationDescriptor>activationDesc,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef size_t getBatchNormalizationForwardTrainingExWorkspaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t xDesc,
+        size_t zDesc,
+        size_t yDesc,
+        size_t bnScaleBiasMeanVarDesc,
+        size_t activationDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode, <BatchNormOps> bnOps,
+        <TensorDescriptor> xDesc,
+        <TensorDescriptor> zDesc,
+        <TensorDescriptor> yDesc,
+        <TensorDescriptor> bnScaleBiasMeanVarDesc,
+        <ActivationDescriptor> activationDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef batchNormalizationBackwardEx(
+        intptr_t handle, int mode, int bnops,
+        size_t alphaDataDiff, size_t betaDataDiff,
+        size_t alphaParamDiff, size_t betaParamDiff,
+        size_t xDesc, size_t x,
+        size_t yDesc, size_t y,
+        size_t dyDesc, size_t dy,
+        size_t dzDesc, size_t dz,
+        size_t dxDesc, size_t dx,
+        size_t dBnScaleBiasDesc,
+        size_t bnScaleData, size_t bnBiasData,
+        size_t dBnScaleData, size_t dBnBiasData,
+        double epsilon,
+        size_t savedMean, size_t savedInvVariance,
+        size_t activationDesc,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnBatchNormalizationBackwardEx(
+            <Handle> handle,
+            <BatchNormMode> mode, <BatchNormOps> bnops,
+            <void*> alphaDataDiff, <void*> betaDataDiff,
+            <void*> alphaParamDiff, <void*> betaParamDiff,
+            <TensorDescriptor> xDesc, <void*> x,
+            <TensorDescriptor> yDesc, <void*> y,
+            <TensorDescriptor> dyDesc, <void*> dy,
+            <TensorDescriptor> dzDesc, <void*> dz,
+            <TensorDescriptor> dxDesc, <void*> dx,
+            <TensorDescriptor> dBnScaleBiasDesc,
+            <void*> bnScaleData, <void*> bnBiasData,
+            <void*> dBnScaleData, <void*> dBnBiasData,
+            epsilon,
+            <void*> savedMean, <void*> savedInvVariance,
+            <ActivationDescriptor> activationDesc,
+            <void*> workSpace, workSpaceSizeInBytes,
+            <void*> reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef size_t getBatchNormalizationBackwardExWorkspaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t xDesc,
+        size_t yDesc,
+        size_t dyDesc,
+        size_t dzDesc,
+        size_t dxDesc,
+        size_t dBnScaleBiasDesc,
+        size_t activationDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationBackwardExWorkspaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode,
+        <BatchNormOps> bnOps,
+        <TensorDescriptor> xDesc,
+        <TensorDescriptor> yDesc,
+        <TensorDescriptor> dyDesc,
+        <TensorDescriptor> dzDesc,
+        <TensorDescriptor> dxDesc,
+        <TensorDescriptor> dBnScaleBiasDesc,
+        <ActivationDescriptor> activationDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t activationDesc,
+        size_t xDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode,
+        <BatchNormOps> bnOps,
+        <ActivationDescriptor> activationDesc,
+        <TensorDescriptor> xDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+###############################################################################
+# Activation
+###############################################################################
+
+cpdef size_t createActivationDescriptor() except? 0:
+    cdef ActivationDescriptor activationDesc
+    status = miopenCreateActivationDescriptor(&activationDesc)
+    check_status(status)
+    return <size_t>activationDesc
+
+
+cpdef setActivationDescriptor(
+        size_t activationDesc, int mode, int reluNanOpt, double reluCeiling):
+    status = cudnnSetActivationDescriptor(
+        <ActivationDescriptor>activationDesc, <ActivationMode>mode,
+        <NanPropagation>reluNanOpt, reluCeiling)
+    check_status(status)
+
+
+cpdef destroyActivationDescriptor(size_t activationDesc):
+    status = miopenDestroyActivationDescriptor(
+        <ActivationDescriptor>activationDesc)
+    check_status(status)
+
+
+cpdef softmaxForward(
+        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = miopenSoftmaxForward(
+            <Handle>handle, 
+            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef softmaxBackward(
+        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData, size_t beta,
+        size_t destDiffDesc, size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = miopenSoftmaxBackward(
+            <Handle>handle, 
+            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+
+cpdef activationForward_v4(
+        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnActivationForward_v4(
+            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef activationBackward_v4(
+        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
+        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
+        size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnActivationBackward_v4(
+            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
+            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+
+###############################################################################
+# Dropout
+###############################################################################
+
+cpdef size_t createDropoutDescriptor() except? 0:
+    cdef DropoutDescriptor desc
+    status = miopenCreateDropoutDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyDropoutDescriptor(size_t dropoutDesc):
+    status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    check_status(status)
+
+
+cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenDropoutGetStatesSize(
+        <Handle>handle, &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef setDropoutDescriptor(
+        size_t dropoutDesc, intptr_t handle, float dropout,
+        size_t states, size_t stateSizeInBytes, unsigned long long seed):
+    status = cudnnSetDropoutDescriptor(
+        <DropoutDescriptor>dropoutDesc, <Handle>handle, dropout,
+        <void*>states, stateSizeInBytes, seed)
+    check_status(status)
+
+
+cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = miopenDropoutGetReserveSpaceSize(
+        <TensorDescriptor>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef dropoutForward(
+        intptr_t handle, size_t dropoutDesc,
+        size_t srcDesc, size_t srcData,
+        size_t dstDesc, size_t dstData,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnDropoutForward(
+            <Handle>handle, <DropoutDescriptor>dropoutDesc,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>dstDesc, <void*>dstData,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef dropoutBackward(
+        intptr_t handle, size_t dropoutDesc,
+        size_t dyDesc, size_t dyData,
+        size_t dxDesc, size_t dxData,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnDropoutBackward(
+            <Handle>handle, <DropoutDescriptor>dropoutDesc,
+            <TensorDescriptor>dyDesc, <void*>dyData,
+            <TensorDescriptor>dxDesc, <void*>dxData,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# CTC
+###############################################################################
+cpdef size_t createCTCLossDescriptor() except? 0:
+    cdef CTCLossDescriptor desc
+    status = miopenCreateCTCLossDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
+    status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    check_status(status)
+
+cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
+    status = cudnnSetCTCLossDescriptor(
+        <CTCLossDescriptor>ctcLossDesc, <DataType>dataType)
+    check_status(status)
+
+cpdef getCTCLossDescriptor(size_t ctcLossDesc):
+    cdef DataType compType
+    status = cudnnGetCTCLossDescriptor(
+        <CTCLossDescriptor>ctcLossDesc, &compType)
+    check_status(status)
+    return compType
+
+cpdef size_t getCTCLossWorkspaceSize(
+        intptr_t handle, size_t probsDesc, size_t gradientsDesc,
+        size_t labels, size_t labelLengths, size_t inputLengths,
+        int algo, size_t ctcLossDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = miopenGetCTCLossWorkspaceSize(
+        <Handle>handle, <TensorDescriptor>probsDesc,
+        <TensorDescriptor>gradientsDesc,
+        <int*>labels, <int*>labelLengths, <int*>inputLengths,
+        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+cpdef CTCLoss(
+        intptr_t handle, size_t probsDesc,
+        size_t probs, size_t labels, size_t labelLengths, size_t inputLengths,
+        size_t costs, size_t gradientsDesc, size_t gradients,
+        int algo, size_t ctcLossDesc,
+        size_t workspace, size_t workSpaceSizeInBytes):
+    status = miopenCTCLoss(
+        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+        <int*>labels, <int*>labelLengths, <int*>inputLengths,
+        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+        <void*>workspace, <size_t>workSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# RNN
+###############################################################################
+
+cpdef size_t createRNNDescriptor() except? 0:
+    cdef RNNDescriptor desc
+    status = miopenCreateRNNDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyRNNDescriptor(size_t rnnDesc):
+    status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    check_status(status)
+
+
+cpdef size_t createPersistentRNNPlan(size_t rnnDesc, int minibatch,
+                                     int dataType) except? 0:
+    cdef PersistentRNNPlan plan
+    status = cudnnCreatePersistentRNNPlan(
+        <RNNDescriptor>rnnDesc,
+        <int>minibatch, <DataType>dataType, &plan)
+    check_status(status)
+    return <size_t>plan
+
+
+cpdef setPersistentRNNPlan(size_t rnnDesc, size_t plan):
+    status = cudnnSetPersistentRNNPlan(
+        <RNNDescriptor>rnnDesc, <PersistentRNNPlan>plan)
+    check_status(status)
+
+
+cpdef destroyPersistentRNNPlan(size_t plan):
+    status = cudnnDestroyPersistentRNNPlan(<PersistentRNNPlan>plan)
+    check_status(status)
+
+
+cpdef setRNNDescriptor_v5(
+        size_t rnnDesc, int hiddenSize, int numLayers,
+        size_t dropoutDesc, int inputMode, int direction, int mode,
+        int dataType):
+    status = cudnnSetRNNDescriptor_v5(
+        <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
+        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
+        <DirectionMode>direction, <RNNMode>mode, <DataType>dataType)
+    check_status(status)
+
+
+cpdef setRNNDescriptor_v6(
+        intptr_t handle, size_t rnnDesc, int hiddenSize, int numLayers,
+        size_t dropoutDesc, int inputMode, int direction, int mode,
+        int algo, int dataType):
+    status = cudnnSetRNNDescriptor_v6(
+        <Handle>handle, <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
+        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
+        <DirectionMode>direction, <RNNMode>mode, <RNNAlgo>algo,
+        <DataType>dataType)
+    check_status(status)
+
+
+cpdef setRNNPaddingMode(
+        size_t rnnDesc, int paddingMode):
+    status = cudnnSetRNNPaddingMode(
+        <RNNDescriptor>rnnDesc, <RNNPaddingMode>paddingMode)
+    check_status(status)
+
+
+cpdef getRNNPaddingMode(size_t rnnDesc):
+    cdef RNNPaddingMode paddingMode
+    status = cudnnGetRNNPaddingMode(
+        <RNNDescriptor>rnnDesc, &paddingMode)
+    check_status(status)
+    return paddingMode
+
+
+cpdef size_t createRNNDataDescriptor() except? 0:
+    cdef RNNDataDescriptor desc
+    status = cudnnCreateRNNDataDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyRNNDataDescriptor(size_t RNNDataDesc):
+    status = cudnnDestroyRNNDataDescriptor(<RNNDataDescriptor>RNNDataDesc)
+    check_status(status)
+
+
+cpdef setRNNDataDescriptor(
+        size_t RNNDataDesc, int dataType, size_t layout,
+        int maxSeqLength, int batchSize, int vectorSize,
+        size_t seqLengthArray, size_t paddingFill):
+    status = cudnnSetRNNDataDescriptor(
+        <RNNDataDescriptor>RNNDataDesc, <DataType>dataType,
+        <RNNDataLayout>layout, maxSeqLength, batchSize, vectorSize,
+        <const int*>seqLengthArray, <void*>paddingFill)
+    check_status(status)
+
+
+cpdef getRNNDataDescriptor(
+        size_t RNNDataDesc, size_t dataType,
+        size_t layout, size_t maxSeqLength, size_t batchSize,
+        size_t vectorSize, int arrayLengthRequested, size_t seqLengthArray,
+        size_t paddingFill):
+    status = cudnnGetRNNDataDescriptor(
+        <RNNDataDescriptor>RNNDataDesc, <DataType*>dataType,
+        <RNNDataLayout*>layout, <int*>maxSeqLength, <int*>batchSize,
+        <int*>vectorSize, arrayLengthRequested, <int*>seqLengthArray,
+        <void*>paddingFill)
+    check_status(status)
+
+
+cpdef getRNNWorkspaceSize(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNWorkspaceSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+        <TensorDescriptor*>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNTrainingReserveSize(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNTrainingReserveSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+        <TensorDescriptor*>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNParamsSize(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNParamsSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+        &sizeInBytes, <DataType>dataType)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNLinLayerMatrixParams(
+        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
+        size_t w, int linLayerID, size_t linLayerMatDesc, size_t linLayerMat):
+    status = cudnnGetRNNLinLayerMatrixParams(
+        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
+        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
+        linLayerID, <FilterDescriptor>linLayerMatDesc, <void**>linLayerMat)
+    check_status(status)
+
+
+cpdef getRNNLinLayerBiasParams(
+        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
+        size_t w, int linLayerID, size_t linLayerBiasDesc,
+        size_t linLayerBias):
+    status = cudnnGetRNNLinLayerBiasParams(
+        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
+        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
+        linLayerID, <FilterDescriptor>linLayerBiasDesc, <void**>linLayerBias)
+    check_status(status)
+
+
+cpdef RNNForwardInference(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc,
+        size_t x, size_t hxDesc, size_t hx, size_t cxDesc,
+        size_t cx, size_t wDesc, size_t w, size_t yDesc,
+        size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = miopenRNNForwardInference(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <void*>workspace, workSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardTraining(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
+        size_t wDesc, size_t w, size_t yDesc, size_t y,
+        size_t hyDesc, size_t hy, size_t cyDesc, size_t cy,
+        size_t workspace, size_t workSpaceSizeInBytes, size_t reserveSpace,
+        size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = miopenRNNForwardTraining(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*> hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <void*>workspace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardData(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t yDesc, size_t y,
+        size_t dyDesc, size_t dy, size_t dhyDesc, size_t dhy,
+        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w,
+        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
+        size_t dxDesc, size_t dx, size_t dhxDesc, size_t dhx,
+        size_t dcxDesc, size_t dcx, size_t workspace,
+        size_t workSpaceSizeInBytes, size_t reserveSpace,
+        size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardData(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor*>dyDesc, <void*>dy,
+            <TensorDescriptor>dhyDesc, <void*>dhy,
+            <TensorDescriptor>dcyDesc, <void*>dcy,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <TensorDescriptor*>dxDesc, <void*>dx,
+            <TensorDescriptor>dhxDesc, <void*>dhx,
+            <TensorDescriptor>dcxDesc, <void*>dcx,
+            <void*>workspace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardWeights(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
+        size_t workspace, size_t workSpaceSizeInBytes, size_t dwDesc,
+        size_t dw, size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardWeights(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <void*>workspace, workSpaceSizeInBytes,
+            <FilterDescriptor>dwDesc, <void*>dw,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardInferenceEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
+        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
+        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNForwardInferenceEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <RNNDataDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <RNNDataDescriptor>kDesc, <const void*>keys,
+            <RNNDataDescriptor>cDesc, <void*>cAttn,
+            <RNNDataDescriptor>iDesc, <void*>iAttn,
+            <RNNDataDescriptor>qDesc, <void*>queries,
+            <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardTrainingEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
+        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
+        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNForwardTrainingEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <RNNDataDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <RNNDataDescriptor>kDesc, <const void*>keys,
+            <RNNDataDescriptor>cDesc, <void*>cAttn,
+            <RNNDataDescriptor>iDesc, <void*>iAttn,
+            <RNNDataDescriptor>qDesc, <void*>queries,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardDataEx(
+        intptr_t handle, size_t rnnDesc, size_t yDesc, size_t y, size_t dyDesc,
+        size_t dy, size_t dcDesc, size_t dcAttn, size_t dhyDesc, size_t dhy,
+        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t dxDesc, size_t dx,
+        size_t dhxDesc, size_t dhx, size_t dcxDesc, size_t dcx,
+        size_t dkDesc, size_t dkeys,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardDataEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>yDesc, <const void*>y,
+            <RNNDataDescriptor>dyDesc, <const void*>dy,
+            <RNNDataDescriptor>dcDesc, <const void*>dcAttn,
+            <TensorDescriptor>dhyDesc, <const void*>dhy,
+            <TensorDescriptor>dcyDesc, <const void*>dcy,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <RNNDataDescriptor>dxDesc, <void*>dx,
+            <TensorDescriptor>dhxDesc, <void*>dhx,
+            <TensorDescriptor>dcxDesc, <void*>dcx,
+            <RNNDataDescriptor>dkDesc, <void*>dkeys,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardWeightsEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t dwDesc, size_t dw,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardWeightsEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <RNNDataDescriptor>yDesc, <const void*>y,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <FilterDescriptor>dwDesc, <void*>dw,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# Spatial Transformer
+###############################################################################
+
+cpdef size_t createSpatialTransformerDescriptor() except? 0:
+    cdef SpatialTransformerDescriptor stDesc
+    status = cudnnCreateSpatialTransformerDescriptor(&stDesc)
+    check_status(status)
+    return <size_t>stDesc
+
+
+cpdef destroySpatialTransformerDescriptor(size_t stDesc):
+    status = cudnnDestroySpatialTransformerDescriptor(
+        <SpatialTransformerDescriptor>stDesc)
+    check_status(status)
+
+
+cpdef setSpatialTransformerDescriptor(
+        size_t stDesc, size_t samplerType, int dataType,
+        int nbDims, size_t dimA):
+    status = cudnnSetSpatialTransformerNdDescriptor(
+        <SpatialTransformerDescriptor>stDesc, <SamplerType>samplerType,
+        <DataType>dataType, nbDims, <int*>dimA)
+    check_status(status)
+
+
+cpdef spatialTfGridGeneratorForward(
+        intptr_t handle, size_t stDesc, size_t theta, size_t grid):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfGridGeneratorForward(
+            <Handle>handle, <SpatialTransformerDescriptor> stDesc,
+            <void*>theta, <void*>grid)
+    check_status(status)
+
+
+cpdef spatialTfGridGeneratorBackward(
+        intptr_t handle, size_t stDesc, size_t dgrid, size_t dtheta):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfGridGeneratorBackward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>dgrid, <void*>dtheta)
+    check_status(status)
+
+
+cpdef spatialTfSamplerForward(
+        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
+        size_t x, size_t grid, size_t beta, size_t yDesc, size_t y):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfSamplerForward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>grid,
+            <void*>beta, <TensorDescriptor>yDesc, <void*>y)
+    check_status(status)
+
+
+cpdef spatialTfSamplerBackward(
+        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
+        size_t x, size_t beta, size_t dxDesc, size_t dx, size_t alphaDgrid,
+        size_t dyDesc, size_t dy, size_t grid, size_t betaDgrid, size_t dgrid):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfSamplerBackward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>beta,
+            <TensorDescriptor>dxDesc, <void*>dx, <void*>alphaDgrid,
+            <TensorDescriptor>dyDesc, <void*>dy, <void*>grid,
+            <void*>betaDgrid, <void*>dgrid)
+    check_status(status)
+
+###############################################################################
+# Fused Ops
+###############################################################################
+
+cpdef createFusedOpsConstParamPack(int ops):
+    cdef FusedOpsConstParamPack constPack
+    with nogil:
+        status = cudnnCreateFusedOpsConstParamPack(&constPack, <FusedOps>ops)
+    check_status(status)
+    return <size_t>constPack
+
+cpdef destroyFusedOpsConstParamPack(size_t constPack):
+    with nogil:
+        status = cudnnDestroyFusedOpsConstParamPack(
+            <FusedOpsConstParamPack>constPack)
+    check_status(status)
+
+cpdef setFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
+                                         size_t param):
+    with nogil:
+        status = cudnnSetFusedOpsConstParamPackAttribute(
+            <FusedOpsConstParamPack>constPack,
+            <FusedOpsConstParamLabel>paramLabel, <const void*>param)
+    check_status(status)
+
+cpdef getFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
+                                         size_t param):
+    cdef int isNULL = 0
+    with nogil:
+        status = cudnnGetFusedOpsConstParamPackAttribute(
+            <const FusedOpsConstParamPack>constPack,
+            <FusedOpsConstParamLabel>paramLabel, <void*>param, &isNULL)
+    check_status(status)
+    return isNULL
+
+cpdef createFusedOpsVariantParamPack(int ops):
+    cdef FusedOpsVariantParamPack varPack
+    with nogil:
+        status = cudnnCreateFusedOpsVariantParamPack(&varPack, <FusedOps>ops)
+    check_status(status)
+    return <size_t>varPack
+
+cpdef destroyFusedOpsVariantParamPack(size_t varPack):
+    with nogil:
+        status = cudnnDestroyFusedOpsVariantParamPack(
+            <FusedOpsVariantParamPack>varPack)
+    check_status(status)
+
+cpdef setFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
+                                           size_t ptr):
+    with nogil:
+        status = cudnnSetFusedOpsVariantParamPackAttribute(
+            <FusedOpsVariantParamPack>varPack,
+            <FusedOpsVariantParamLabel>paramLabel, <void*>ptr)
+    check_status(status)
+
+cpdef getFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
+                                           size_t ptr):
+    with nogil:
+        status = cudnnGetFusedOpsVariantParamPackAttribute(
+            <const FusedOpsVariantParamPack>varPack,
+            <FusedOpsVariantParamLabel> paramLabel, <void*>ptr)
+    check_status(status)
+
+cpdef createFusedOpsPlan(int ops):
+    cdef FusedOpsPlan plan
+    with nogil:
+        status = cudnnCreateFusedOpsPlan(&plan, <FusedOps>ops)
+    check_status(status)
+    return <size_t>plan
+
+cpdef destroyFusedOpsPlan(size_t plan):
+    with nogil:
+        status = cudnnDestroyFusedOpsPlan(<FusedOpsPlan>plan)
+    check_status(status)
+
+cpdef makeFusedOpsPlan(intptr_t handle, size_t plan, size_t constPack):
+    cdef size_t workspaceSizeInBytes
+    _setStream(handle)
+    with nogil:
+        status = cudnnMakeFusedOpsPlan(<Handle>handle, <FusedOpsPlan>plan,
+                                       <const FusedOpsConstParamPack>constPack,
+                                       &workspaceSizeInBytes)
+    check_status(status)
+    return workspaceSizeInBytes
+
+cpdef fusedOpsExecute(intptr_t handle, size_t plan, size_t varPack):
+    _setStream(handle)
+    with nogil:
+        status = cudnnFusedOpsExecute(<Handle>handle, <const FusedOpsPlan>plan,
+                                      <FusedOpsVariantParamPack>varPack)
+    check_status(status)
+

From 6a3132aae4431ae8d4adabf8009ba92e587583d2 Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 18:23:34 +0000
Subject: [PATCH 09/49] changes for cusolver hip integration
 https://github.com/ROCmSoftwarePlatform/cupy/blob/rocm6.0_internal_testing/cupy_backends/cuda/libs/cusolver.pyx

---
 cupy_backends/cuda/libs/cusolver.pyx | 7401 +++++++++++++-------------
 1 file changed, 3802 insertions(+), 3599 deletions(-)

diff --git a/cupy_backends/cuda/libs/cusolver.pyx b/cupy_backends/cuda/libs/cusolver.pyx
index c994d4d6646..f4db63eefdb 100644
--- a/cupy_backends/cuda/libs/cusolver.pyx
+++ b/cupy_backends/cuda/libs/cusolver.pyx
@@ -7,3650 +7,3853 @@ cimport cython  # NOQA
 from cupy_backends.cuda.api cimport runtime
 from cupy_backends.cuda cimport stream as stream_module
 
+IF CUPY_USE_GEN_HIP_CODE:
+    from cupy_backends.cuda.libs.cusolver_hip import *
+    from cupy_backends.cuda.libs.cusolver_hip import _get_cuda_build_version
+    from cupy_backends.cuda.libs.cusolver_hip import _getVersion
+ELSE:
+    cpdef _get_cuda_build_version():
+        if CUPY_CUDA_VERSION > 0:
+            return CUPY_CUDA_VERSION
+        elif CUPY_HIP_VERSION > 0:
+            return CUPY_HIP_VERSION
+        else:
+            return 0
 
-cpdef _get_cuda_build_version():
-    if CUPY_CUDA_VERSION > 0:
-        return CUPY_CUDA_VERSION
-    elif CUPY_HIP_VERSION > 0:
-        return CUPY_HIP_VERSION
-    else:
-        return 0
+    ###########################################################################
+    # Extern
+    ###########################################################################
+    IF CUPY_HIP_VERSION != 0:
+        cdef extern from '../../cupy_complex.h':
+            ctypedef struct cuComplex 'hipComplex':
+                float x, y
+
+            ctypedef struct cuDoubleComplex 'hipDoubleComplex':
+                double x, y
+    ELSE:
+        cdef extern from '../../cupy_complex.h':
+            ctypedef struct cuComplex 'cuComplex':
+                float x, y
+
+            ctypedef struct cuDoubleComplex 'cuDoubleComplex':
+                double x, y
+
+    cdef extern from '../../cupy_lapack.h' nogil:
+        ctypedef void* Stream 'cudaStream_t'
+
+        # Context
+        int cusolverDnCreate(Handle* handle)
+        int cusolverSpCreate(SpHandle* handle)
+        int cusolverDnDestroy(Handle handle)
+        int cusolverSpDestroy(SpHandle handle)
+
+        # Stream
+        int cusolverDnGetStream(Handle handle, Stream* streamId)
+        int cusolverSpGetStream(SpHandle handle, Stream* streamId)
+        int cusolverDnSetStream(Handle handle, Stream streamId)
+        int cusolverSpSetStream(SpHandle handle, Stream streamId)
+
+        # Params
+        int cusolverDnCreateParams(Params* params)
+        int cusolverDnDestroyParams(Params params)
+
+        # Library Property
+        int cusolverGetProperty(LibraryPropertyType type, int* value)
+
+        # libraryPropertyType_t
+        int MAJOR_VERSION
+        int MINOR_VERSION
+        int PATCH_LEVEL
+
+        #######################################################################
+        # Dense LAPACK Functions (Linear Solver)
+        #######################################################################
+
+        # Cholesky factorization
+        int cusolverDnSpotrf_bufferSize(Handle handle, FillMode uplo, int n,
+                                        float* A, int lda, int* lwork)
+        int cusolverDnDpotrf_bufferSize(Handle handle, FillMode uplo, int n,
+                                        double* A, int lda, int* lwork)
+        int cusolverDnCpotrf_bufferSize(Handle handle, FillMode uplo, int n,
+                                        cuComplex* A, int lda, int* lwork)
+        int cusolverDnZpotrf_bufferSize(Handle handle, FillMode uplo, int n,
+                                        cuDoubleComplex* A, int lda,
+                                        int* lwork)
+
+        int cusolverDnSpotrf(Handle handle, FillMode uplo, int n,
+                             float* A, int lda,
+                             float* work, int lwork, int* devInfo)
+        int cusolverDnDpotrf(Handle handle, FillMode uplo, int n,
+                             double* A, int lda,
+                             double* work, int lwork, int* devInfo)
+        int cusolverDnCpotrf(Handle handle, FillMode uplo, int n,
+                             cuComplex* A, int lda,
+                             cuComplex* work, int lwork, int* devInfo)
+        int cusolverDnZpotrf(Handle handle, FillMode uplo, int n,
+                             cuDoubleComplex* A, int lda,
+                             cuDoubleComplex* work, int lwork, int* devInfo)
+
+        int cusolverDnSpotrs(Handle handle, FillMode uplo, int n, int nrhs,
+                             const float* A, int lda,
+                             float* B, int ldb, int* devInfo)
+        int cusolverDnDpotrs(Handle handle, FillMode uplo, int n, int nrhs,
+                             const double* A, int lda,
+                             double* B, int ldb, int* devInfo)
+        int cusolverDnCpotrs(Handle handle, FillMode uplo, int n, int nrhs,
+                             const cuComplex* A, int lda,
+                             cuComplex* B, int ldb, int* devInfo)
+        int cusolverDnZpotrs(Handle handle, FillMode uplo, int n, int nrhs,
+                             const cuDoubleComplex* A, int lda,
+                             cuDoubleComplex* B, int ldb, int* devInfo)
+
+        int cusolverDnSpotrfBatched(Handle handle, FillMode uplo, int n,
+                                    float** Aarray, int lda,
+                                    int* infoArray, int batchSize)
+        int cusolverDnDpotrfBatched(Handle handle, FillMode uplo, int n,
+                                    double** Aarray, int lda,
+                                    int* infoArray, int batchSize)
+        int cusolverDnCpotrfBatched(Handle handle, FillMode uplo, int n,
+                                    cuComplex** Aarray, int lda,
+                                    int* infoArray, int batchSize)
+        int cusolverDnZpotrfBatched(Handle handle, FillMode uplo, int n,
+                                    cuDoubleComplex** Aarray, int lda,
+                                    int* infoArray, int batchSize)
+
+        int cusolverDnSpotrsBatched(Handle handle, FillMode uplo, int n,
+                                    int nrhs, float** Aarray, int lda,
+                                    float** Barray, int ldb,
+                                    int* devInfo, int batchSize)
+        int cusolverDnDpotrsBatched(Handle handle, FillMode uplo, int n,
+                                    int nrhs, double** Aarray, int lda,
+                                    double** Barray, int ldb,
+                                    int* devInfo, int batchSize)
+        int cusolverDnCpotrsBatched(Handle handle, FillMode uplo, int n,
+                                    int nrhs, cuComplex** Aarray, int lda,
+                                    cuComplex** Barray, int ldb,
+                                    int* devInfo, int batchSize)
+        int cusolverDnZpotrsBatched(Handle handle, FillMode uplo, int n,
+                                    int nrhs, cuDoubleComplex** Aarray,
+                                    int lda, cuDoubleComplex** Barray,
+                                    int ldb, int* devInfo, int batchSize)
+
+        # LU factorization
+        int cusolverDnSgetrf_bufferSize(Handle handle, int m, int n,
+                                        float* A, int lda, int* lwork)
+        int cusolverDnDgetrf_bufferSize(Handle handle, int m, int n,
+                                        double* A, int lda, int* lwork)
+        int cusolverDnCgetrf_bufferSize(Handle handle, int m, int n,
+                                        cuComplex* A, int lda, int* lwork)
+        int cusolverDnZgetrf_bufferSize(Handle handle, int m, int n,
+                                        cuDoubleComplex* A, int lda,
+                                        int* lwork)
+
+        int cusolverDnSgetrf(Handle handle, int m, int n,
+                             float* A, int lda,
+                             float* work, int* devIpiv, int* devInfo)
+        int cusolverDnDgetrf(Handle handle, int m, int n,
+                             double* A, int lda,
+                             double* work, int* devIpiv, int* devInfo)
+        int cusolverDnCgetrf(Handle handle, int m, int n,
+                             cuComplex* A, int lda,
+                             cuComplex* work, int* devIpiv, int* devInfo)
+        int cusolverDnZgetrf(Handle handle, int m, int n,
+                             cuDoubleComplex* A, int lda,
+                             cuDoubleComplex* work, int* devIpiv, int* devInfo)
+
+        # TODO(anaruse): laswp
+
+        # LU solve
+        int cusolverDnSgetrs(Handle handle, Operation trans, int n, int nrhs,
+                             const float* A, int lda, const int* devIpiv,
+                             float* B, int ldb, int* devInfo)
+        int cusolverDnDgetrs(Handle handle, Operation trans, int n, int nrhs,
+                             const double* A, int lda, const int* devIpiv,
+                             double* B, int ldb, int* devInfo)
+        int cusolverDnCgetrs(Handle handle, Operation trans, int n, int nrhs,
+                             const cuComplex* A, int lda, const int* devIpiv,
+                             cuComplex* B, int ldb, int* devInfo)
+        int cusolverDnZgetrs(Handle handle, Operation trans, int n, int nrhs,
+                             const cuDoubleComplex* A, int lda,
+                             const int* devIpiv,
+                             cuDoubleComplex* B, int ldb, int* devInfo)
+
+        # QR factorization
+        int cusolverDnSgeqrf_bufferSize(Handle handle, int m, int n,
+                                        float* A, int lda, int* lwork)
+        int cusolverDnDgeqrf_bufferSize(Handle handle, int m, int n,
+                                        double* A, int lda, int* lwork)
+        int cusolverDnCgeqrf_bufferSize(Handle handle, int m, int n,
+                                        cuComplex* A, int lda, int* lwork)
+        int cusolverDnZgeqrf_bufferSize(Handle handle, int m, int n,
+                                        cuDoubleComplex* A, int lda,
+                                        int* lwork)
+
+        int cusolverDnSgeqrf(Handle handle, int m, int n,
+                             float* A, int lda, float* tau,
+                             float* work, int lwork, int* devInfo)
+        int cusolverDnDgeqrf(Handle handle, int m, int n,
+                             double* A, int lda, double* tau,
+                             double* work, int lwork, int* devInfo)
+        int cusolverDnCgeqrf(Handle handle, int m, int n,
+                             cuComplex* A, int lda, cuComplex* tau,
+                             cuComplex* work, int lwork, int* devInfo)
+        int cusolverDnZgeqrf(Handle handle, int m, int n,
+                             cuDoubleComplex* A, int lda, cuDoubleComplex* tau,
+                             cuDoubleComplex* work, int lwork, int* devInfo)
+
+        # Generate unitary matrix Q from QR factorization.
+        int cusolverDnSorgqr_bufferSize(Handle handle, int m, int n, int k,
+                                        const float* A, int lda,
+                                        const float* tau, int* lwork)
+        int cusolverDnDorgqr_bufferSize(Handle handle, int m, int n, int k,
+                                        const double* A, int lda,
+                                        const double* tau, int* lwork)
+        int cusolverDnCungqr_bufferSize(Handle handle, int m, int n, int k,
+                                        const cuComplex* A, int lda,
+                                        const cuComplex* tau, int* lwork)
+        int cusolverDnZungqr_bufferSize(Handle handle, int m, int n, int k,
+                                        const cuDoubleComplex* A, int lda,
+                                        const cuDoubleComplex* tau, int* lwork)
+
+        int cusolverDnSorgqr(Handle handle, int m, int n, int k,
+                             float* A, int lda,
+                             const float* tau,
+                             float* work, int lwork, int* devInfo)
+        int cusolverDnDorgqr(Handle handle, int m, int n, int k,
+                             double* A, int lda,
+                             const double* tau,
+                             double* work, int lwork, int* devInfo)
+        int cusolverDnCungqr(Handle handle, int m, int n, int k,
+                             cuComplex* A, int lda,
+                             const cuComplex* tau,
+                             cuComplex* work, int lwork, int* devInfo)
+        int cusolverDnZungqr(Handle handle, int m, int n, int k,
+                             cuDoubleComplex* A, int lda,
+                             const cuDoubleComplex* tau,
+                             cuDoubleComplex* work, int lwork, int* devInfo)
+
+        # Compute Q**T*b in solve min||A*x = b||
+        int cusolverDnSormqr_bufferSize(Handle handle, SideMode side,
+                                        Operation trans, int m, int n, int k,
+                                        const float* A, int lda,
+                                        const float* tau,
+                                        const float* C, int ldc,
+                                        int* lwork)
+        int cusolverDnDormqr_bufferSize(Handle handle, SideMode side,
+                                        Operation trans, int m, int n, int k,
+                                        const double* A, int lda,
+                                        const double* tau,
+                                        const double* C, int ldc,
+                                        int* lwork)
+        int cusolverDnCunmqr_bufferSize(Handle handle, SideMode side,
+                                        Operation trans, int m, int n, int k,
+                                        const cuComplex* A, int lda,
+                                        const cuComplex* tau,
+                                        const cuComplex* C, int ldc,
+                                        int* lwork)
+        int cusolverDnZunmqr_bufferSize(Handle handle, SideMode side,
+                                        Operation trans, int m, int n, int k,
+                                        const cuDoubleComplex* A, int lda,
+                                        const cuDoubleComplex* tau,
+                                        const cuDoubleComplex* C, int ldc,
+                                        int* lwork)
+
+        int cusolverDnSormqr(Handle handle, SideMode side, Operation trans,
+                             int m, int n, int k,
+                             const float* A, int lda,
+                             const float* tau,
+                             float* C, int ldc, float* work,
+                             int lwork, int* devInfo)
+        int cusolverDnDormqr(Handle handle, SideMode side, Operation trans,
+                             int m, int n, int k,
+                             const double* A, int lda,
+                             const double* tau,
+                             double* C, int ldc, double* work,
+                             int lwork, int* devInfo)
+        int cusolverDnCunmqr(Handle handle, SideMode side, Operation trans,
+                             int m, int n, int k,
+                             const cuComplex* A, int lda,
+                             const cuComplex* tau,
+                             cuComplex* C, int ldc, cuComplex* work,
+                             int lwork, int* devInfo)
+        int cusolverDnZunmqr(Handle handle, SideMode side, Operation trans,
+                             int m, int n, int k,
+                             const cuDoubleComplex* A, int lda,
+                             const cuDoubleComplex* tau,
+                             cuDoubleComplex* C, int ldc,
+                             cuDoubleComplex* work,
+                             int lwork, int* devInfo)
+
+        # L*D*L**T,U*D*U**T factorization
+        int cusolverDnSsytrf_bufferSize(Handle handle, int n,
+                                        float* A, int lda, int* lwork)
+        int cusolverDnDsytrf_bufferSize(Handle handle, int n,
+                                        double* A, int lda, int* lwork)
+        int cusolverDnCsytrf_bufferSize(Handle handle, int n,
+                                        cuComplex* A, int lda, int* lwork)
+        int cusolverDnZsytrf_bufferSize(Handle handle, int n,
+                                        cuDoubleComplex* A, int lda,
+                                        int* lwork)
+
+        int cusolverDnSsytrf(Handle handle, FillMode uplo, int n,
+                             float* A, int lda, int* ipiv,
+                             float* work, int lwork, int* devInfo)
+        int cusolverDnDsytrf(Handle handle, FillMode uplo, int n,
+                             double* A, int lda, int* ipiv,
+                             double* work, int lwork, int* devInfo)
+        int cusolverDnCsytrf(Handle handle, FillMode uplo, int n,
+                             cuComplex* A, int lda, int* ipiv,
+                             cuComplex* work, int lwork, int* devInfo)
+        int cusolverDnZsytrf(Handle handle, FillMode uplo, int n,
+                             cuDoubleComplex* A, int lda, int* ipiv,
+                             cuDoubleComplex* work, int lwork, int* devInfo)
+
+        # Solve A * X = B using iterative refinement
+        int cusolverDnZZgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        int *dipiv,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZCgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        int *dipiv,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZYgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        int *dipiv,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZKgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        int *dipiv,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCCgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuComplex *dA, int ldda, int *dipiv,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCYgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuComplex *dA, int ldda, int *dipiv,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCKgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        cuComplex *dA, int ldda, int *dipiv,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDDgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        double *dA, int ldda, int *dipiv,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDSgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        double *dA, int ldda, int *dipiv,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDXgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        double *dA, int ldda, int *dipiv,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDHgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        double *dA, int ldda, int *dipiv,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSSgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        float *dA, int ldda, int *dipiv,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSXgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        float *dA, int ldda, int *dipiv,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSHgesv_bufferSize(Handle handle, int n, int nrhs,
+                                        float *dA, int ldda, int *dipiv,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+
+        int cusolverDnZZgesv(Handle handle, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda, int *dipiv,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZCgesv(Handle handle, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda, int *dipiv,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZYgesv(Handle handle, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda, int *dipiv,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZKgesv(Handle handle, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda, int *dipiv,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCCgesv(Handle handle, int n, int nrhs,
+                             cuComplex *dA, int ldda, int *dipiv,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCYgesv(Handle handle, int n, int nrhs,
+                             cuComplex *dA, int ldda, int *dipiv,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCKgesv(Handle handle, int n, int nrhs,
+                             cuComplex *dA, int ldda, int *dipiv,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDDgesv(Handle handle, int n, int nrhs,
+                             double *dA, int ldda, int *dipiv,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDSgesv(Handle handle, int n, int nrhs,
+                             double *dA, int ldda, int *dipiv,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDXgesv(Handle handle, int n, int nrhs,
+                             double *dA, int ldda, int *dipiv,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDHgesv(Handle handle, int n, int nrhs,
+                             double *dA, int ldda, int *dipiv,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSSgesv(Handle handle, int n, int nrhs,
+                             float *dA, int ldda, int *dipiv,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSXgesv(Handle handle, int n, int nrhs,
+                             float *dA, int ldda, int *dipiv,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSHgesv(Handle handle, int n, int nrhs,
+                             float *dA, int ldda, int *dipiv,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+
+        # Compute least square solution to A * X = B using iterative refinement
+        int cusolverDnZZgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZCgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZYgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnZKgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuDoubleComplex *dA, int ldda,
+                                        cuDoubleComplex *dB, int lddb,
+                                        cuDoubleComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCCgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuComplex *dA, int ldda,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCYgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuComplex *dA, int ldda,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnCKgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        cuComplex *dA, int ldda,
+                                        cuComplex *dB, int lddb,
+                                        cuComplex *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDDgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        double *dA, int ldda,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDSgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        double *dA, int ldda,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDXgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        double *dA, int ldda,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnDHgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        double *dA, int ldda,
+                                        double *dB, int lddb,
+                                        double *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSSgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        float *dA, int ldda,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSXgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        float *dA, int ldda,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+        int cusolverDnSHgels_bufferSize(Handle handle, int m, int n, int nrhs,
+                                        float *dA, int ldda,
+                                        float *dB, int lddb,
+                                        float *dX, int lddx,
+                                        void *dWorkspace, size_t *lwork_bytes)
+
+        int cusolverDnZZgels(Handle handle, int m, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZCgels(Handle handle, int m, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZYgels(Handle handle, int m, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnZKgels(Handle handle, int m, int n, int nrhs,
+                             cuDoubleComplex *dA, int ldda,
+                             cuDoubleComplex *dB, int lddb,
+                             cuDoubleComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCCgels(Handle handle, int m, int n, int nrhs,
+                             cuComplex *dA, int ldda,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCYgels(Handle handle, int m, int n, int nrhs,
+                             cuComplex *dA, int ldda,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnCKgels(Handle handle, int m, int n, int nrhs,
+                             cuComplex *dA, int ldda,
+                             cuComplex *dB, int lddb,
+                             cuComplex *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDDgels(Handle handle, int m, int n, int nrhs,
+                             double *dA, int ldda,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDSgels(Handle handle, int m, int n, int nrhs,
+                             double *dA, int ldda,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDXgels(Handle handle, int m, int n, int nrhs,
+                             double *dA, int ldda,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnDHgels(Handle handle, int m, int n, int nrhs,
+                             double *dA, int ldda,
+                             double *dB, int lddb,
+                             double *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSSgels(Handle handle, int m, int n, int nrhs,
+                             float *dA, int ldda,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSXgels(Handle handle, int m, int n, int nrhs,
+                             float *dA, int ldda,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+        int cusolverDnSHgels(Handle handle, int m, int n, int nrhs,
+                             float *dA, int ldda,
+                             float *dB, int lddb,
+                             float *dX, int lddx,
+                             void *dWorkspace, size_t lwork_bytes,
+                             int *iter, int *dInfo)
+
+        #######################################################################
+        # Dense LAPACK Functions (Eigenvalue Solver)
+        #######################################################################
+
+        # Bidiagonal factorization
+        int cusolverDnSgebrd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnDgebrd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnCgebrd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnZgebrd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+
+        int cusolverDnSgebrd(Handle handle, int m, int n,
+                             float* A, int lda,
+                             float* D, float* E,
+                             float* tauQ, float* tauP,
+                             float* Work, int lwork, int* devInfo)
+        int cusolverDnDgebrd(Handle handle, int m, int n,
+                             double* A, int lda,
+                             double* D, double* E,
+                             double* tauQ, double* tauP,
+                             double* Work, int lwork, int* devInfo)
+        int cusolverDnCgebrd(Handle handle, int m, int n,
+                             cuComplex* A, int lda,
+                             float* D, float* E,
+                             cuComplex* tauQ, cuComplex* tauP,
+                             cuComplex* Work, int lwork, int* devInfo)
+        int cusolverDnZgebrd(Handle handle, int m, int n,
+                             cuDoubleComplex* A, int lda,
+                             double* D, double* E,
+                             cuDoubleComplex* tauQ, cuDoubleComplex* tauP,
+                             cuDoubleComplex* Work, int lwork, int* devInfo)
+
+        # Singular value decomposition, A = U * Sigma * V^H
+        int cusolverDnSgesvd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnDgesvd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnCgesvd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+        int cusolverDnZgesvd_bufferSize(Handle handle, int m, int n,
+                                        int* lwork)
+
+        int cusolverDnSgesvd(Handle handle, char jobu, char jobvt, int m,
+                             int n, float* A, int lda, float* S,
+                             float* U, int ldu,
+                             float* VT, int ldvt,
+                             float* Work, int lwork,
+                             float* rwork, int* devInfo)
+        int cusolverDnDgesvd(Handle handle, char jobu, char jobvt, int m,
+                             int n, double* A, int lda, double* S,
+                             double* U, int ldu,
+                             double* VT, int ldvt,
+                             double* Work, int lwork,
+                             double* rwork, int* devInfo)
+        int cusolverDnCgesvd(Handle handle, char jobu, char jobvt, int m,
+                             int n, cuComplex* A, int lda, float* S,
+                             cuComplex* U, int ldu,
+                             cuComplex* VT, int ldvt,
+                             cuComplex* Work, int lwork,
+                             float* rwork, int* devInfo)
+        int cusolverDnZgesvd(Handle handle, char jobu, char jobvt, int m,
+                             int n, cuDoubleComplex* A, int lda, double* S,
+                             cuDoubleComplex* U, int ldu,
+                             cuDoubleComplex* VT, int ldvt,
+                             cuDoubleComplex* Work, int lwork,
+                             double* rwork, int* devInfo)
+
+        # gesvdj ... Singular value decomposition using Jacobi mathod
+        int cusolverDnCreateGesvdjInfo(GesvdjInfo *info)
+        int cusolverDnDestroyGesvdjInfo(GesvdjInfo info)
+
+        int cusolverDnXgesvdjSetTolerance(GesvdjInfo info, double tolerance)
+        int cusolverDnXgesvdjSetMaxSweeps(GesvdjInfo info, int max_sweeps)
+        int cusolverDnXgesvdjSetSortEig(GesvdjInfo info, int sort_svd)
+        int cusolverDnXgesvdjGetResidual(Handle handle, GesvdjInfo info,
+                                         double* residual)
+        int cusolverDnXgesvdjGetSweeps(Handle handle, GesvdjInfo info,
+                                       int* executed_sweeps)
+
+        int cusolverDnSgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
+                                         int m, int n, const float* A, int lda,
+                                         const float* S, const float* U,
+                                         int ldu, const float* V, int ldv,
+                                         int* lwork,
+                                         GesvdjInfo params)
+        int cusolverDnDgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
+                                         int m, int n, const double* A,
+                                         int lda, const double* S,
+                                         const double* U, int ldu,
+                                         const double* V, int ldv, int* lwork,
+                                         GesvdjInfo params)
+        int cusolverDnCgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
+                                         int m, int n, const cuComplex* A,
+                                         int lda, const float* S,
+                                         const cuComplex* U,
+                                         int ldu, const cuComplex* V, int ldv,
+                                         int* lwork, GesvdjInfo params)
+        int cusolverDnZgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
+                                         int m, int n,
+                                         const cuDoubleComplex* A,
+                                         int lda, const double* S,
+                                         const cuDoubleComplex* U, int ldu,
+                                         const cuDoubleComplex* V, int ldv,
+                                         int* lwork, GesvdjInfo params)
+
+        int cusolverDnSgesvdj(Handle handle, EigMode jobz, int econ, int m,
+                              int n, float *A, int lda, float *S, float *U,
+                              int ldu, float *V, int ldv, float *work,
+                              int lwork, int *info,
+                              GesvdjInfo params)
+        int cusolverDnDgesvdj(Handle handle, EigMode jobz, int econ, int m,
+                              int n, double *A, int lda, double *S, double *U,
+                              int ldu,
+                              double *V, int ldv, double *work, int lwork,
+                              int *info, GesvdjInfo params)
+        int cusolverDnCgesvdj(Handle handle, EigMode jobz, int econ, int m,
+                              int n, cuComplex *A, int lda, float *S,
+                              cuComplex *U,
+                              int ldu, cuComplex *V, int ldv, cuComplex *work,
+                              int lwork, int *info, GesvdjInfo params)
+        int cusolverDnZgesvdj(Handle handle, EigMode jobz, int econ, int m,
+                              int n, cuDoubleComplex *A, int lda, double *S,
+                              cuDoubleComplex *U, int ldu, cuDoubleComplex *V,
+                              int ldv, cuDoubleComplex *work, int lwork,
+                              int *info,
+                              GesvdjInfo params)
+
+        int cusolverDnSgesvdjBatched_bufferSize(
+            Handle handle, EigMode jobz, int m, int n, float* A, int lda,
+            float* S, float* U, int ldu, float* V, int ldv,
+            int* lwork, GesvdjInfo params, int batchSize)
+        int cusolverDnDgesvdjBatched_bufferSize(
+            Handle handle, EigMode jobz, int m, int n, double* A, int lda,
+            double* S, double* U, int ldu, double* V, int ldv,
+            int* lwork, GesvdjInfo params, int batchSize)
+        int cusolverDnCgesvdjBatched_bufferSize(
+            Handle handle, EigMode jobz, int m, int n, cuComplex* A, int lda,
+            float* S, cuComplex* U, int ldu, cuComplex* V, int ldv,
+            int* lwork, GesvdjInfo params, int batchSize)
+        int cusolverDnZgesvdjBatched_bufferSize(
+            Handle handle, EigMode jobz, int m, int n, cuDoubleComplex* A,
+            int lda,
+            double* S, cuDoubleComplex* U, int ldu, cuDoubleComplex* V,
+            int ldv,
+            int* lwork, GesvdjInfo params, int batchSize)
+        int cusolverDnSgesvdjBatched(
+            Handle handle, EigMode jobz, int m, int n, float* A, int lda,
+            float* S,
+            float* U, int ldu, float* V, int ldv, float* work, int lwork,
+            int* info, GesvdjInfo params, int batchSize)
+        int cusolverDnDgesvdjBatched(
+            Handle handle, EigMode jobz, int m, int n, double* A, int lda,
+            double* S, double* U, int ldu, double* V, int ldv,
+            double* work, int lwork,
+            int* info, GesvdjInfo params, int batchSize)
+        int cusolverDnCgesvdjBatched(
+            Handle handle, EigMode jobz, int m, int n, cuComplex* A, int lda,
+            float* S, cuComplex* U, int ldu, cuComplex* V, int ldv,
+            cuComplex* work, int lwork,
+            int* info, GesvdjInfo params, int batchSize)
+        int cusolverDnZgesvdjBatched(
+            Handle handle, EigMode jobz, int m, int n, cuDoubleComplex* A,
+            int lda,
+            double* S, cuDoubleComplex* U, int ldu, cuDoubleComplex* V,
+            int ldv,
+            cuDoubleComplex* work, int lwork,
+            int* info, GesvdjInfo params, int batchSize)
+
+        # gesvda ... Approximate singular value decomposition
+        int cusolverDnSgesvdaStridedBatched_bufferSize(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const float *d_A,
+            int lda, long long int strideA, const float *d_S,
+            long long int strideS, const float *d_U, int ldu,
+            long long int strideU, const float *d_V, int ldv,
+            long long int strideV, int *lwork, int batchSize)
+
+        int cusolverDnDgesvdaStridedBatched_bufferSize(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const double *d_A,
+            int lda, long long int strideA, const double *d_S,
+            long long int strideS, const double *d_U, int ldu,
+            long long int strideU, const double *d_V, int ldv,
+            long long int strideV, int *lwork, int batchSize)
+
+        int cusolverDnCgesvdaStridedBatched_bufferSize(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const cuComplex *d_A, int lda, long long int strideA,
+            const float *d_S,
+            long long int strideS, const cuComplex *d_U, int ldu,
+            long long int strideU, const cuComplex *d_V, int ldv,
+            long long int strideV, int *lwork, int batchSize)
+
+        int cusolverDnZgesvdaStridedBatched_bufferSize(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const cuDoubleComplex *d_A, int lda, long long int strideA,
+            const double *d_S, long long int strideS,
+            const cuDoubleComplex *d_U,
+            int ldu, long long int strideU, const cuDoubleComplex *d_V,
+            int ldv,
+            long long int strideV, int *lwork, int batchSize)
+
+        int cusolverDnSgesvdaStridedBatched(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const float *d_A,
+            int lda, long long int strideA, float *d_S, long long int strideS,
+            float *d_U, int ldu, long long int strideU, float *d_V, int ldv,
+            long long int strideV, float *d_work, int lwork, int *d_info,
+            double *h_R_nrmF, int batchSize)
+
+        int cusolverDnDgesvdaStridedBatched(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const double *d_A,
+            int lda, long long int strideA, double *d_S, long long int strideS,
+            double *d_U, int ldu, long long int strideU, double *d_V, int ldv,
+            long long int strideV, double *d_work, int lwork, int *d_info,
+            double *h_R_nrmF, int batchSize)
+
+        int cusolverDnCgesvdaStridedBatched(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const cuComplex *d_A, int lda, long long int strideA, float *d_S,
+            long long int strideS, cuComplex *d_U, int ldu,
+            long long int strideU,
+            cuComplex *d_V, int ldv, long long int strideV, cuComplex *d_work,
+            int lwork, int *d_info, double *h_R_nrmF, int batchSize)
+
+        int cusolverDnZgesvdaStridedBatched(
+            Handle handle, EigMode jobz, int rank, int m, int n,
+            const cuDoubleComplex *d_A, int lda, long long int strideA,
+            double *d_S, long long int strideS, cuDoubleComplex *d_U, int ldu,
+            long long int strideU, cuDoubleComplex *d_V, int ldv,
+            long long int strideV, cuDoubleComplex *d_work, int lwork,
+            int *d_info,
+            double *h_R_nrmF, int batchSize)
+
+        # Standard symmetric eigenvalue solver
+        int cusolverDnSsyevd_bufferSize(Handle handle,
+                                        EigMode jobz, FillMode uplo, int n,
+                                        const float* A, int lda,
+                                        const float* W, int* lwork)
+        int cusolverDnDsyevd_bufferSize(Handle handle,
+                                        EigMode jobz, FillMode uplo, int n,
+                                        const double* A, int lda,
+                                        const double* W, int* lwork)
+        int cusolverDnCheevd_bufferSize(Handle handle,
+                                        EigMode jobz, FillMode uplo, int n,
+                                        const cuComplex* A, int lda,
+                                        const float* W, int* lwork)
+        int cusolverDnZheevd_bufferSize(Handle handle,
+                                        EigMode jobz, FillMode uplo, int n,
+                                        const cuDoubleComplex* A, int lda,
+                                        const double* W, int* lwork)
+
+        int cusolverDnSsyevd(Handle handle, EigMode jobz, FillMode uplo, int n,
+                             float* A, int lda, float* W,
+                             float* work, int lwork, int* info)
+        int cusolverDnDsyevd(Handle handle, EigMode jobz, FillMode uplo, int n,
+                             double* A, int lda, double* W,
+                             double* work, int lwork, int* info)
+        int cusolverDnCheevd(Handle handle, EigMode jobz, FillMode uplo, int n,
+                             cuComplex* A, int lda, float* W,
+                             cuComplex* work, int lwork, int* info)
+        int cusolverDnZheevd(Handle handle, EigMode jobz, FillMode uplo, int n,
+                             cuDoubleComplex* A, int lda, double* W,
+                             cuDoubleComplex* work, int lwork, int* info)
+
+        # Symmetric eigenvalue solver using Jacobi method
+        int cusolverDnCreateSyevjInfo(SyevjInfo *info)
+        int cusolverDnDestroySyevjInfo(SyevjInfo info)
+
+        int cusolverDnXsyevjSetTolerance(SyevjInfo info, double tolerance)
+        int cusolverDnXsyevjSetMaxSweeps(SyevjInfo info, int max_sweeps)
+        int cusolverDnXsyevjSetSortEig(SyevjInfo info, int sort_eig)
+        int cusolverDnXsyevjGetResidual(
+            Handle handle, SyevjInfo info, double* residual)
+        int cusolverDnXsyevjGetSweeps(
+            Handle handle, SyevjInfo info, int* executed_sweeps)
+
+        int cusolverDnSsyevj_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const float *A, int lda, const float *W, int *lwork,
+            SyevjInfo params)
+        int cusolverDnDsyevj_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const double *A, int lda, const double *W, int *lwork,
+            SyevjInfo params)
+        int cusolverDnCheevj_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const cuComplex *A, int lda, const float *W, int *lwork,
+            SyevjInfo params)
+        int cusolverDnZheevj_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const cuDoubleComplex *A, int lda, const double *W, int *lwork,
+            SyevjInfo params)
+
+        int cusolverDnSsyevj(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            float *A, int lda, float *W, float *work,
+            int lwork, int *info, SyevjInfo params)
+        int cusolverDnDsyevj(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            double *A, int lda, double *W, double *work,
+            int lwork, int *info, SyevjInfo params)
+        int cusolverDnCheevj(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            cuComplex *A, int lda, float *W, cuComplex *work,
+            int lwork, int *info, SyevjInfo params)
+        int cusolverDnZheevj(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            cuDoubleComplex *A, int lda, double *W, cuDoubleComplex *work,
+            int lwork, int *info, SyevjInfo params)
+
+        int cusolverDnSsyevjBatched_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const float *A, int lda, const float *W, int *lwork,
+            SyevjInfo params, int batchSize)
+
+        int cusolverDnDsyevjBatched_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const double *A, int lda, const double *W, int *lwork,
+            SyevjInfo params, int batchSize)
+
+        int cusolverDnCheevjBatched_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const cuComplex *A, int lda, const float *W, int *lwork,
+            SyevjInfo params, int batchSize)
+
+        int cusolverDnZheevjBatched_bufferSize(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            const cuDoubleComplex *A, int lda, const double *W, int *lwork,
+            SyevjInfo params, int batchSize)
+
+        int cusolverDnSsyevjBatched(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            float *A, int lda, float *W, float *work, int lwork,
+            int *info, SyevjInfo params, int batchSize)
+
+        int cusolverDnDsyevjBatched(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            double *A, int lda, double *W, double *work, int lwork,
+            int *info, SyevjInfo params, int batchSize)
+
+        int cusolverDnCheevjBatched(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            cuComplex *A, int lda, float *W, cuComplex *work, int lwork,
+            int *info, SyevjInfo params, int batchSize)
+
+        int cusolverDnZheevjBatched(
+            Handle handle, EigMode jobz, FillMode uplo, int n,
+            cuDoubleComplex *A, int lda, double *W, cuDoubleComplex *work,
+            int lwork, int *info, SyevjInfo params, int batchSize)
+
+        # 64bit
+        int cusolverDnXsyevd_bufferSize(
+            Handle handle, Params params, EigMode jobz, FillMode uplo,
+            int64_t n,
+            DataType dataTypeA, void *A, int64_t lda,
+            DataType dataTypeW, void *W, DataType computeType,
+            size_t *workspaceInBytesOnDevice, size_t *workspaceInBytesOnHost)
+        int cusolverDnXsyevd(
+            Handle handle, Params params, EigMode jobz, FillMode uplo,
+            int64_t n,
+            DataType dataTypeA, void *A, int64_t lda,
+            DataType dataTypeW, void *W, DataType computeType,
+            void *bufferOnDevice, size_t workspaceInBytesOnDevice,
+            void *bufferOnHost, size_t workspaceInBytesOnHost, int *info)
+
+        #######################################################################
+        # Sparse LAPACK Functions
+        #######################################################################
+
+        int cusolverSpScsrlsvchol(
+            SpHandle handle, int m, int nnz, const MatDescr descrA,
+            const float* csrValA, const int* csrRowPtrA, const int* csrColIndA,
+            const float* b, float tol, int reorder, float* x, int* singularity)
+        int cusolverSpDcsrlsvchol(
+            SpHandle handle, int m, int nnz, const MatDescr descrA,
+            const double* csrValA, const int* csrRowPtrA,
+            const int* csrColIndA,
+            const double* b, double tol, int reorder, double* x,
+            int* singularity)
+        int cusolverSpCcsrlsvchol(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuComplex *csrVal,
+            const int *csrRowPtr, const int *csrColInd, const cuComplex *b,
+            float tol, int reorder, cuComplex *x, int *singularity)
+        int cusolverSpZcsrlsvchol(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuDoubleComplex *csrVal,
+            const int *csrRowPtr, const int *csrColInd,
+            const cuDoubleComplex *b,
+            double tol, int reorder, cuDoubleComplex *x, int *singularity)
+
+        int cusolverSpScsrlsvqr(
+            SpHandle handle, int m, int nnz, const MatDescr descrA,
+            const float* csrValA, const int* csrRowPtrA, const int* csrColIndA,
+            const float* b, float tol, int reorder, float* x, int* singularity)
+        int cusolverSpDcsrlsvqr(
+            SpHandle handle, int m, int nnz, const MatDescr descrA,
+            const double* csrValA, const int* csrRowPtrA,
+            const int* csrColIndA,
+            const double* b, double tol, int reorder, double* x,
+            int* singularity)
+        int cusolverSpCcsrlsvqr(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuComplex *csrVal,
+            const int *csrRowPtr, const int *csrColInd, const cuComplex *b,
+            float tol, int reorder, cuComplex *x, int *singularity)
+        int cusolverSpZcsrlsvqr(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuDoubleComplex *csrVal,
+            const int *csrRowPtr, const int *csrColInd,
+            const cuDoubleComplex *b,
+            double tol, int reorder, cuDoubleComplex *x, int *singularity)
+
+        int cusolverSpScsreigvsi(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const float *csrValA,
+            const int *csrRowPtrA, const int *csrColIndA, float mu0,
+            const float *x0, int maxite, float eps, float *mu, float *x)
+        int cusolverSpDcsreigvsi(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const double *csrValA,
+            const int *csrRowPtrA, const int *csrColIndA, double mu0,
+            const double *x0, int maxite, double eps, double *mu, double *x)
+        int cusolverSpCcsreigvsi(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuComplex *csrValA,
+            const int *csrRowPtrA, const int *csrColIndA, cuComplex mu0,
+            const cuComplex *x0, int maxite, float eps, cuComplex *mu,
+            cuComplex *x)
+        int cusolverSpZcsreigvsi(
+            SpHandle handle, int m, int nnz,
+            const MatDescr descrA, const cuDoubleComplex *csrValA,
+            const int *csrRowPtrA, const int *csrColIndA, cuDoubleComplex mu0,
+            const cuDoubleComplex *x0, int maxite, double eps,
+            cuDoubleComplex *mu,
+            cuDoubleComplex *x)
 
+    ###########################################################################
+    # Error handling
+    ###########################################################################
 
-###############################################################################
-# Extern
-###############################################################################
+    cdef dict STATUS = {
+        0: 'CUSOLVER_STATUS_SUCCESS',
+        1: 'CUSOLVER_STATUS_NOT_INITIALIZED',
+        2: 'CUSOLVER_STATUS_ALLOC_FAILED',
+        3: 'CUSOLVER_STATUS_INVALID_VALUE',
+        4: 'CUSOLVER_STATUS_ARCH_MISMATCH',
+        5: 'CUSOLVER_STATUS_MAPPING_ERROR',
+        6: 'CUSOLVER_STATUS_EXECUTION_FAILED',
+        7: 'CUSOLVER_STATUS_INTERNAL_ERROR',
+        8: 'CUSOLVER_STATUS_MATRIX_TYPE_NOT_SUPPORTED',
+        9: 'CUSOLVER_STATUS_NOT_SUPPORTED',
+        10: 'CUSOLVER_STATUS_ZERO_PIVOT',
+        11: 'CUSOLVER_STATUS_INVALID_LICENSE',
+        12: 'CUSOLVER_STATUS_IRS_PARAMS_NOT_INITIALIZED',
+        13: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID',
+        14: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_PREC',
+        15: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_REFINE',
+        16: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_MAXITER',
+        20: 'CUSOLVER_STATUS_IRS_INTERNAL_ERROR',
+        21: 'CUSOLVER_STATUS_IRS_NOT_SUPPORTED',
+        22: 'CUSOLVER_STATUS_IRS_OUT_OF_RANGE',
+        23: 'CUSOLVER_STATUS_IRS_NRHS_NOT_SUPPORTED_FOR_REFINE_GMRES',
+        25: 'CUSOLVER_STATUS_IRS_INFOS_NOT_INITIALIZED',
+        26: 'CUSOLVER_STATUS_IRS_INFOS_NOT_DESTROYED',
+        30: 'CUSOLVER_STATUS_IRS_MATRIX_SINGULAR',
+        31: 'CUSOLVER_STATUS_INVALID_WORKSPACE',
+    }
+
+    # for hipSOLVER
+    cdef dict ROC_STATUS = {
+        0: 'HIPSOLVER_STATUS_SUCCESS',
+        1: 'HIPSOLVER_STATUS_NOT_INITIALIZED',
+        2: 'HIPSOLVER_STATUS_ALLOC_FAILED',
+        3: 'HIPSOLVER_STATUS_INVALID_VALUE',
+        4: 'HIPSOLVER_STATUS_MAPPING_ERROR',
+        5: 'HIPSOLVER_STATUS_EXECUTION_FAILED',
+        6: 'HIPSOLVER_STATUS_INTERNAL_ERROR',
+        7: 'HIPSOLVER_STATUS_NOT_SUPPORTED',
+        8: 'HIPSOLVER_STATUS_ARCH_MISMATCH',
+        9: 'HIPSOLVER_STATUS_HANDLE_IS_NULLPTR',
+        10: 'HIPSOLVER_STATUS_INVALID_ENUM',
+        11: 'HIPSOLVER_STATUS_UNKNOWN',
+        12: 'HIPSOLVER_STATUS_ZERO_PIVOT',
+    }
+
+    class CUSOLVERError(RuntimeError):
+
+        def __init__(self, status):
+            self.status = status
+            if runtime._is_hip_environment:
+                err = ROC_STATUS
+            else:
+                err = STATUS
+            super(CUSOLVERError, self).__init__(err[status])
+
+        def __reduce__(self):
+            return (type(self), (self.status,))
+
+    @cython.profile(False)
+    cpdef inline check_status(int status):
+        if status != 0:
+            raise CUSOLVERError(status)
 
-cdef extern from '../../cupy_complex.h':
-    ctypedef struct cuComplex 'cuComplex':
-        float x, y
+    ###########################################################################
+    # Library Attributes
+    ###########################################################################
 
-    ctypedef struct cuDoubleComplex 'cuDoubleComplex':
-        double x, y
+    cpdef int getProperty(int type) except? -1:
+        cdef int value
+        with nogil:
+            status = cusolverGetProperty(<LibraryPropertyType>type, &value)
+        check_status(status)
+        return value
+
+    cpdef tuple _getVersion():
+        return (getProperty(MAJOR_VERSION),
+                getProperty(MINOR_VERSION),
+                getProperty(PATCH_LEVEL))
+
+    # TODO: The below three functions need be removed
+    # after cublas hipification for ROCm.
+    cpdef int convert_solver_fill(int fill) nogil:
+        if runtime._is_hip_environment:
+            if fill == 0:
+                return 122
+            elif fill == 1:
+                return 121
+        return fill
+
+    cpdef int convert_solver_operation(int op) nogil:
+        if runtime._is_hip_environment:
+            return op + 111
+        return op
 
-cdef extern from '../../cupy_lapack.h' nogil:
-    ctypedef void* Stream 'cudaStream_t'
+    cpdef int convert_solver_side(int side) nogil:
+        if runtime._is_hip_environment:
+            return side + 141
+        return side
 
+    ###########################################################################
     # Context
-    int cusolverDnCreate(Handle* handle)
-    int cusolverSpCreate(SpHandle* handle)
-    int cusolverDnDestroy(Handle handle)
-    int cusolverSpDestroy(SpHandle handle)
+    ###########################################################################
 
+    cpdef intptr_t create() except? 0:
+        cdef Handle handle
+        with nogil:
+            status = cusolverDnCreate(&handle)
+        check_status(status)
+        return <intptr_t>handle
+
+    cpdef intptr_t spCreate() except? 0:
+        cdef SpHandle handle
+        with nogil:
+            status = cusolverSpCreate(&handle)
+        check_status(status)
+        return <intptr_t>handle
+
+    cpdef destroy(intptr_t handle):
+        with nogil:
+            status = cusolverDnDestroy(<Handle>handle)
+        check_status(status)
+
+    cpdef spDestroy(intptr_t handle):
+        with nogil:
+            status = cusolverSpDestroy(<SpHandle>handle)
+        check_status(status)
+
+    ###########################################################################
     # Stream
-    int cusolverDnGetStream(Handle handle, Stream* streamId)
-    int cusolverSpGetStream(SpHandle handle, Stream* streamId)
-    int cusolverDnSetStream(Handle handle, Stream streamId)
-    int cusolverSpSetStream(SpHandle handle, Stream streamId)
+    ###########################################################################
 
+    cpdef setStream(intptr_t handle, size_t stream):
+        # TODO(leofang): The support of stream capture is not mentioned at all
+        # in the cuSOLVER docs (as of CUDA 11.5), so we disable
+        # this functionality.
+        if not runtime._is_hip_environment and \
+                runtime.streamIsCapturing(stream):
+            raise NotImplementedError(
+                'calling cuSOLVER API during stream capture is currently '
+                'unsupported')
+
+        with nogil:
+            status = cusolverDnSetStream(<Handle>handle, <Stream>stream)
+        check_status(status)
+
+    cpdef size_t getStream(intptr_t handle) except? 0:
+        cdef Stream stream
+        with nogil:
+            status = cusolverDnGetStream(<Handle>handle, &stream)
+        check_status(status)
+        return <size_t>stream
+
+    cpdef spSetStream(intptr_t handle, size_t stream):
+        with nogil:
+            status = cusolverSpSetStream(<SpHandle>handle, <Stream>stream)
+        check_status(status)
+
+    cpdef size_t spGetStream(intptr_t handle) except *:
+        cdef Stream stream
+        with nogil:
+            status = cusolverSpGetStream(<SpHandle>handle, &stream)
+        check_status(status)
+        return <size_t>stream
+
+    cdef _setStream(intptr_t handle):
+        """Set current stream"""
+        setStream(handle, stream_module.get_current_stream_ptr())
+
+    cdef _spSetStream(intptr_t handle):
+        """Set current stream"""
+        spSetStream(handle, stream_module.get_current_stream_ptr())
+
+    ###########################################################################
     # Params
-    int cusolverDnCreateParams(Params* params)
-    int cusolverDnDestroyParams(Params params)
+    ###########################################################################
 
-    # Library Property
-    int cusolverGetProperty(LibraryPropertyType type, int* value)
+    cpdef intptr_t createParams() except? 0:
+        cdef Params params
+        with nogil:
+            status = cusolverDnCreateParams(&params)
+        check_status(status)
+        return <intptr_t>params
 
-    # libraryPropertyType_t
-    int MAJOR_VERSION
-    int MINOR_VERSION
-    int PATCH_LEVEL
+    cpdef destroyParams(intptr_t params):
+        with nogil:
+            status = cusolverDnDestroyParams(<Params>params)
+        check_status(status)
 
     ###########################################################################
     # Dense LAPACK Functions (Linear Solver)
     ###########################################################################
 
     # Cholesky factorization
-    int cusolverDnSpotrf_bufferSize(Handle handle, FillMode uplo, int n,
-                                    float* A, int lda, int* lwork)
-    int cusolverDnDpotrf_bufferSize(Handle handle, FillMode uplo, int n,
-                                    double* A, int lda, int* lwork)
-    int cusolverDnCpotrf_bufferSize(Handle handle, FillMode uplo, int n,
-                                    cuComplex* A, int lda, int* lwork)
-    int cusolverDnZpotrf_bufferSize(Handle handle, FillMode uplo, int n,
-                                    cuDoubleComplex* A, int lda, int* lwork)
-
-    int cusolverDnSpotrf(Handle handle, FillMode uplo, int n,
-                         float* A, int lda,
-                         float* work, int lwork, int* devInfo)
-    int cusolverDnDpotrf(Handle handle, FillMode uplo, int n,
-                         double* A, int lda,
-                         double* work, int lwork, int* devInfo)
-    int cusolverDnCpotrf(Handle handle, FillMode uplo, int n,
-                         cuComplex* A, int lda,
-                         cuComplex* work, int lwork, int* devInfo)
-    int cusolverDnZpotrf(Handle handle, FillMode uplo, int n,
-                         cuDoubleComplex* A, int lda,
-                         cuDoubleComplex* work, int lwork, int* devInfo)
-
-    int cusolverDnSpotrs(Handle handle, FillMode uplo, int n, int nrhs,
-                         const float* A, int lda,
-                         float* B, int ldb, int* devInfo)
-    int cusolverDnDpotrs(Handle handle, FillMode uplo, int n, int nrhs,
-                         const double* A, int lda,
-                         double* B, int ldb, int* devInfo)
-    int cusolverDnCpotrs(Handle handle, FillMode uplo, int n, int nrhs,
-                         const cuComplex* A, int lda,
-                         cuComplex* B, int ldb, int* devInfo)
-    int cusolverDnZpotrs(Handle handle, FillMode uplo, int n, int nrhs,
-                         const cuDoubleComplex* A, int lda,
-                         cuDoubleComplex* B, int ldb, int* devInfo)
-
-    int cusolverDnSpotrfBatched(Handle handle, FillMode uplo, int n,
-                                float** Aarray, int lda,
-                                int* infoArray, int batchSize)
-    int cusolverDnDpotrfBatched(Handle handle, FillMode uplo, int n,
-                                double** Aarray, int lda,
-                                int* infoArray, int batchSize)
-    int cusolverDnCpotrfBatched(Handle handle, FillMode uplo, int n,
-                                cuComplex** Aarray, int lda,
-                                int* infoArray, int batchSize)
-    int cusolverDnZpotrfBatched(Handle handle, FillMode uplo, int n,
-                                cuDoubleComplex** Aarray, int lda,
-                                int* infoArray, int batchSize)
-
-    int cusolverDnSpotrsBatched(Handle handle, FillMode uplo, int n,
-                                int nrhs, float** Aarray, int lda,
-                                float** Barray, int ldb,
-                                int* devInfo, int batchSize)
-    int cusolverDnDpotrsBatched(Handle handle, FillMode uplo, int n,
-                                int nrhs, double** Aarray, int lda,
-                                double** Barray, int ldb,
-                                int* devInfo, int batchSize)
-    int cusolverDnCpotrsBatched(Handle handle, FillMode uplo, int n,
-                                int nrhs, cuComplex** Aarray, int lda,
-                                cuComplex** Barray, int ldb,
-                                int* devInfo, int batchSize)
-    int cusolverDnZpotrsBatched(Handle handle, FillMode uplo, int n,
-                                int nrhs, cuDoubleComplex** Aarray, int lda,
-                                cuDoubleComplex** Barray, int ldb,
-                                int* devInfo, int batchSize)
+    cpdef int spotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSpotrf_bufferSize(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A, <int>lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDpotrf_bufferSize(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A, <int>lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCpotrf_bufferSize(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A, <int>lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZpotrf_bufferSize(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A, <int>lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef spotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSpotrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A,
+                lda, <float*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef dpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDpotrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A,
+                lda, <double*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef cpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCpotrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A,
+                lda, <cuComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef zpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZpotrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A,
+                lda, <cuDoubleComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef spotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSpotrs(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <const float*>A, lda, <float*>B, ldb,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef dpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDpotrs(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <const double*>A, lda, <double*>B, ldb,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef cpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCpotrs(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <const cuComplex*>A, lda, <cuComplex*>B, ldb,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef zpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZpotrs(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <const cuDoubleComplex*>A, lda, <cuDoubleComplex*>B, ldb,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef spotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSpotrfBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <float**>Aarray,
+                lda, <int*>infoArray, batchSize)
+        check_status(status)
+
+    cpdef dpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDpotrfBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <double**>Aarray,
+                lda, <int*>infoArray, batchSize)
+        check_status(status)
+
+    cpdef cpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCpotrfBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex**>Aarray,
+                lda, <int*>infoArray, batchSize)
+        check_status(status)
+
+    cpdef zpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZpotrfBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex**>Aarray,
+                lda, <int*>infoArray, batchSize)
+        check_status(status)
+
+    cpdef spotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo,
+                        int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSpotrsBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <float**>Aarray, lda, <float**>Barray, ldb,
+                <int*>devInfo, batchSize)
+        check_status(status)
+
+    cpdef dpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo,
+                        int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDpotrsBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <double**>Aarray, lda, <double**>Barray, ldb,
+                <int*>devInfo, batchSize)
+        check_status(status)
+
+    cpdef cpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray,
+                        int lda, size_t Barray, int ldb, size_t devInfo,
+                        int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCpotrsBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <cuComplex**>Aarray, lda, <cuComplex**>Barray, ldb,
+                <int*>devInfo, batchSize)
+        check_status(status)
+
+    cpdef zpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray,
+                        int lda, size_t Barray, int ldb, size_t devInfo,
+                        int batchSize):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZpotrsBatched(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n, nrhs,
+                <cuDoubleComplex**>Aarray, lda, <cuDoubleComplex**>Barray, ldb,
+                <int*>devInfo, batchSize)
+        check_status(status)
 
     # LU factorization
-    int cusolverDnSgetrf_bufferSize(Handle handle, int m, int n,
-                                    float* A, int lda, int* lwork)
-    int cusolverDnDgetrf_bufferSize(Handle handle, int m, int n,
-                                    double* A, int lda, int* lwork)
-    int cusolverDnCgetrf_bufferSize(Handle handle, int m, int n,
-                                    cuComplex* A, int lda, int* lwork)
-    int cusolverDnZgetrf_bufferSize(Handle handle, int m, int n,
-                                    cuDoubleComplex* A, int lda, int* lwork)
-
-    int cusolverDnSgetrf(Handle handle, int m, int n,
-                         float* A, int lda,
-                         float* work, int* devIpiv, int* devInfo)
-    int cusolverDnDgetrf(Handle handle, int m, int n,
-                         double* A, int lda,
-                         double* work, int* devIpiv, int* devInfo)
-    int cusolverDnCgetrf(Handle handle, int m, int n,
-                         cuComplex* A, int lda,
-                         cuComplex* work, int* devIpiv, int* devInfo)
-    int cusolverDnZgetrf(Handle handle, int m, int n,
-                         cuDoubleComplex* A, int lda,
-                         cuDoubleComplex* work, int* devIpiv, int* devInfo)
-
-    # TODO(anaruse): laswp
+    cpdef int sgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgetrf_bufferSize(
+                <Handle>handle, m, n, <float*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgetrf_bufferSize(
+                <Handle>handle, m, n, <double*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgetrf_bufferSize(
+                <Handle>handle, m, n, <cuComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgetrf_bufferSize(
+                <Handle>handle, m, n, <cuDoubleComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgetrf(
+                <Handle>handle, m, n, <float*>A, lda,
+                <float*>work, <int*>devIpiv, <int*>devInfo)
+        check_status(status)
+
+    cpdef dgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgetrf(
+                <Handle>handle, m, n, <double*>A, lda,
+                <double*>work, <int*>devIpiv, <int*>devInfo)
+        check_status(status)
+
+    cpdef cgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgetrf(
+                <Handle>handle, m, n, <cuComplex*>A, lda,
+                <cuComplex*>work, <int*>devIpiv, <int*>devInfo)
+        check_status(status)
+
+    cpdef zgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgetrf(
+                <Handle>handle, m, n, <cuDoubleComplex*>A, lda,
+                <cuDoubleComplex*>work, <int*>devIpiv, <int*>devInfo)
+        check_status(status)
 
     # LU solve
-    int cusolverDnSgetrs(Handle handle, Operation trans, int n, int nrhs,
-                         const float* A, int lda, const int* devIpiv,
-                         float* B, int ldb, int* devInfo)
-    int cusolverDnDgetrs(Handle handle, Operation trans, int n, int nrhs,
-                         const double* A, int lda, const int* devIpiv,
-                         double* B, int ldb, int* devInfo)
-    int cusolverDnCgetrs(Handle handle, Operation trans, int n, int nrhs,
-                         const cuComplex* A, int lda, const int* devIpiv,
-                         cuComplex* B, int ldb, int* devInfo)
-    int cusolverDnZgetrs(Handle handle, Operation trans, int n, int nrhs,
-                         const cuDoubleComplex* A, int lda, const int* devIpiv,
-                         cuDoubleComplex* B, int ldb, int* devInfo)
+    cpdef sgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgetrs(
+                <Handle>handle, <Operation>(convert_solver_operation(trans)),
+                n, nrhs,
+                <const float*> A, lda, <const int*>devIpiv,
+                <float*>B, ldb, <int*> devInfo)
+        check_status(status)
+
+    cpdef dgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgetrs(
+                <Handle>handle, <Operation>(convert_solver_operation(trans)),
+                n, nrhs,
+                <const double*> A, lda, <const int*>devIpiv,
+                <double*>B, ldb, <int*> devInfo)
+        check_status(status)
+
+    cpdef cgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgetrs(
+                <Handle>handle, <Operation>(convert_solver_operation(trans)),
+                n, nrhs,
+                <const cuComplex*> A, lda, <const int*>devIpiv,
+                <cuComplex*>B, ldb, <int*> devInfo)
+        check_status(status)
+
+    cpdef zgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgetrs(
+                <Handle>handle, <Operation>(convert_solver_operation(trans)),
+                n, nrhs,
+                <const cuDoubleComplex*> A, lda, <const int*>devIpiv,
+                <cuDoubleComplex*>B, ldb, <int*> devInfo)
+        check_status(status)
 
     # QR factorization
-    int cusolverDnSgeqrf_bufferSize(Handle handle, int m, int n,
-                                    float* A, int lda, int* lwork)
-    int cusolverDnDgeqrf_bufferSize(Handle handle, int m, int n,
-                                    double* A, int lda, int* lwork)
-    int cusolverDnCgeqrf_bufferSize(Handle handle, int m, int n,
-                                    cuComplex* A, int lda, int* lwork)
-    int cusolverDnZgeqrf_bufferSize(Handle handle, int m, int n,
-                                    cuDoubleComplex* A, int lda, int* lwork)
-
-    int cusolverDnSgeqrf(Handle handle, int m, int n,
-                         float* A, int lda, float* tau,
-                         float* work, int lwork, int* devInfo)
-    int cusolverDnDgeqrf(Handle handle, int m, int n,
-                         double* A, int lda, double* tau,
-                         double* work, int lwork, int* devInfo)
-    int cusolverDnCgeqrf(Handle handle, int m, int n,
-                         cuComplex* A, int lda, cuComplex* tau,
-                         cuComplex* work, int lwork, int* devInfo)
-    int cusolverDnZgeqrf(Handle handle, int m, int n,
-                         cuDoubleComplex* A, int lda, cuDoubleComplex* tau,
-                         cuDoubleComplex* work, int lwork, int* devInfo)
-
-    # Generate unitary matrix Q from QR factorization.
-    int cusolverDnSorgqr_bufferSize(Handle handle, int m, int n, int k,
-                                    const float* A, int lda,
-                                    const float* tau, int* lwork)
-    int cusolverDnDorgqr_bufferSize(Handle handle, int m, int n, int k,
-                                    const double* A, int lda,
-                                    const double* tau, int* lwork)
-    int cusolverDnCungqr_bufferSize(Handle handle, int m, int n, int k,
-                                    const cuComplex* A, int lda,
-                                    const cuComplex* tau, int* lwork)
-    int cusolverDnZungqr_bufferSize(Handle handle, int m, int n, int k,
-                                    const cuDoubleComplex* A, int lda,
-                                    const cuDoubleComplex* tau, int* lwork)
-
-    int cusolverDnSorgqr(Handle handle, int m, int n, int k,
-                         float* A, int lda,
-                         const float* tau,
-                         float* work, int lwork, int* devInfo)
-    int cusolverDnDorgqr(Handle handle, int m, int n, int k,
-                         double* A, int lda,
-                         const double* tau,
-                         double* work, int lwork, int* devInfo)
-    int cusolverDnCungqr(Handle handle, int m, int n, int k,
-                         cuComplex* A, int lda,
-                         const cuComplex* tau,
-                         cuComplex* work, int lwork, int* devInfo)
-    int cusolverDnZungqr(Handle handle, int m, int n, int k,
-                         cuDoubleComplex* A, int lda,
-                         const cuDoubleComplex* tau,
-                         cuDoubleComplex* work, int lwork, int* devInfo)
+    cpdef int sgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgeqrf_bufferSize(
+                <Handle>handle, m, n, <float*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgeqrf_bufferSize(
+                <Handle>handle, m, n, <double*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgeqrf_bufferSize(
+                <Handle>handle, m, n, <cuComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgeqrf_bufferSize(
+                <Handle>handle, m, n, <cuDoubleComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgeqrf(
+                <Handle>handle, m, n, <float*>A, lda,
+                <float*>tau, <float*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef dgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgeqrf(
+                <Handle>handle, m, n, <double*>A, lda,
+                <double*>tau, <double*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef cgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgeqrf(
+                <Handle>handle, m, n, <cuComplex*>A, lda,
+                <cuComplex*>tau, <cuComplex*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef zgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgeqrf(
+                <Handle>handle, m, n, <cuDoubleComplex*>A, lda,
+                <cuDoubleComplex*>tau, <cuDoubleComplex*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    # Generate unitary matrix Q from QR factorization
+    cpdef int sorgqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSorgqr_bufferSize(
+                <Handle>handle, m, n, k, <const float*>A, lda,
+                <const float*>tau, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dorgqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDorgqr_bufferSize(
+                <Handle>handle, m, n, k, <const double*>A, lda,
+                <const double*>tau, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cungqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCungqr_bufferSize(
+                <Handle>handle, m, n, k, <const cuComplex*>A, lda,
+                <const cuComplex*>tau, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zungqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZungqr_bufferSize(
+                <Handle>handle, m, n, k, <const cuDoubleComplex*>A, lda,
+                <const cuDoubleComplex*>tau, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSorgqr(
+                <Handle>handle, m, n, k, <float*>A, lda,
+                <const float*>tau, <float*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef dorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDorgqr(
+                <Handle>handle, m, n, k, <double*>A, lda,
+                <const double*>tau, <double*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef cungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCungqr(
+                <Handle>handle, m, n, k, <cuComplex*>A, lda,
+                <const cuComplex*>tau, <cuComplex*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
+
+    cpdef zungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZungqr(
+                <Handle>handle, m, n, k, <cuDoubleComplex*>A, lda,
+                <const cuDoubleComplex*>tau, <cuDoubleComplex*>work, lwork,
+                <int*>devInfo)
+        check_status(status)
 
     # Compute Q**T*b in solve min||A*x = b||
-    int cusolverDnSormqr_bufferSize(Handle handle, SideMode side,
-                                    Operation trans, int m, int n, int k,
-                                    const float* A, int lda,
-                                    const float* tau,
-                                    const float* C, int ldc,
-                                    int* lwork)
-    int cusolverDnDormqr_bufferSize(Handle handle, SideMode side,
-                                    Operation trans, int m, int n, int k,
-                                    const double* A, int lda,
-                                    const double* tau,
-                                    const double* C, int ldc,
-                                    int* lwork)
-    int cusolverDnCunmqr_bufferSize(Handle handle, SideMode side,
-                                    Operation trans, int m, int n, int k,
-                                    const cuComplex* A, int lda,
-                                    const cuComplex* tau,
-                                    const cuComplex* C, int ldc,
-                                    int* lwork)
-    int cusolverDnZunmqr_bufferSize(Handle handle, SideMode side,
-                                    Operation trans, int m, int n, int k,
-                                    const cuDoubleComplex* A, int lda,
-                                    const cuDoubleComplex* tau,
-                                    const cuDoubleComplex* C, int ldc,
-                                    int* lwork)
-
-    int cusolverDnSormqr(Handle handle, SideMode side, Operation trans,
-                         int m, int n, int k,
-                         const float* A, int lda,
-                         const float* tau,
-                         float* C, int ldc, float* work,
-                         int lwork, int* devInfo)
-    int cusolverDnDormqr(Handle handle, SideMode side, Operation trans,
-                         int m, int n, int k,
-                         const double* A, int lda,
-                         const double* tau,
-                         double* C, int ldc, double* work,
-                         int lwork, int* devInfo)
-    int cusolverDnCunmqr(Handle handle, SideMode side, Operation trans,
-                         int m, int n, int k,
-                         const cuComplex* A, int lda,
-                         const cuComplex* tau,
-                         cuComplex* C, int ldc, cuComplex* work,
-                         int lwork, int* devInfo)
-    int cusolverDnZunmqr(Handle handle, SideMode side, Operation trans,
-                         int m, int n, int k,
-                         const cuDoubleComplex* A, int lda,
-                         const cuDoubleComplex* tau,
-                         cuDoubleComplex* C, int ldc, cuDoubleComplex* work,
-                         int lwork, int* devInfo)
+    cpdef int sormqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSormqr_bufferSize(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const float*>A, lda, <const float*>tau,
+                <float*>C, ldc, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dormqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDormqr_bufferSize(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const double*>A, lda, <const double*>tau,
+                <double*>C, ldc, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cunmqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCunmqr_bufferSize(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const cuComplex*>A, lda, <const cuComplex*>tau,
+                <cuComplex*>C, ldc, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zunmqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZunmqr_bufferSize(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const cuDoubleComplex*>A, lda, <const cuDoubleComplex*>tau,
+                <cuDoubleComplex*>C, ldc, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSormqr(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const float*>A, lda, <const float*>tau,
+                <float*>C, ldc,
+                <float*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef dormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDormqr(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const double*>A, lda, <const double*>tau,
+                <double*>C, ldc,
+                <double*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef cunmqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCunmqr(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const cuComplex*>A, lda, <const cuComplex*>tau,
+                <cuComplex*>C, ldc,
+                <cuComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef zunmqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZunmqr(
+                <Handle>handle, <SideMode>(convert_solver_side(side)),
+                <Operation>(convert_solver_operation(trans)), m, n, k,
+                <const cuDoubleComplex*>A, lda, <const cuDoubleComplex*>tau,
+                <cuDoubleComplex*>C, ldc,
+                <cuDoubleComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    # (obsoleted)
+    cpdef cormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        return cunmqr(handle, side, trans, m, n, k, A, lda, tau,
+                      C, ldc, work, lwork, devInfo)
+
+    # (obsoleted)
+    cpdef zormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau,
+                 size_t C, int ldc, size_t work, int lwork, size_t devInfo):
+        return zunmqr(handle, side, trans, m, n, k, A, lda, tau,
+                      C, ldc, work, lwork, devInfo)
 
     # L*D*L**T,U*D*U**T factorization
-    int cusolverDnSsytrf_bufferSize(Handle handle, int n,
-                                    float* A, int lda, int* lwork)
-    int cusolverDnDsytrf_bufferSize(Handle handle, int n,
-                                    double* A, int lda, int* lwork)
-    int cusolverDnCsytrf_bufferSize(Handle handle, int n,
-                                    cuComplex* A, int lda, int* lwork)
-    int cusolverDnZsytrf_bufferSize(Handle handle, int n,
-                                    cuDoubleComplex* A, int lda, int* lwork)
-
-    int cusolverDnSsytrf(Handle handle, FillMode uplo, int n,
-                         float* A, int lda, int* ipiv,
-                         float* work, int lwork, int* devInfo)
-    int cusolverDnDsytrf(Handle handle, FillMode uplo, int n,
-                         double* A, int lda, int* ipiv,
-                         double* work, int lwork, int* devInfo)
-    int cusolverDnCsytrf(Handle handle, FillMode uplo, int n,
-                         cuComplex* A, int lda, int* ipiv,
-                         cuComplex* work, int lwork, int* devInfo)
-    int cusolverDnZsytrf(Handle handle, FillMode uplo, int n,
-                         cuDoubleComplex* A, int lda, int* ipiv,
-                         cuDoubleComplex* work, int lwork, int* devInfo)
-
-    # Solve A * X = B using iterative refinement
-    int cusolverDnZZgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda, int *dipiv,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZCgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda, int *dipiv,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZYgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda, int *dipiv,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZKgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda, int *dipiv,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCCgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuComplex *dA, int ldda, int *dipiv,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCYgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuComplex *dA, int ldda, int *dipiv,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCKgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    cuComplex *dA, int ldda, int *dipiv,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDDgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    double *dA, int ldda, int *dipiv,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDSgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    double *dA, int ldda, int *dipiv,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDXgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    double *dA, int ldda, int *dipiv,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDHgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    double *dA, int ldda, int *dipiv,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSSgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    float *dA, int ldda, int *dipiv,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSXgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    float *dA, int ldda, int *dipiv,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSHgesv_bufferSize(Handle handle, int n, int nrhs,
-                                    float *dA, int ldda, int *dipiv,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-
-    int cusolverDnZZgesv(Handle handle, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda, int *dipiv,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZCgesv(Handle handle, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda, int *dipiv,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZYgesv(Handle handle, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda, int *dipiv,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZKgesv(Handle handle, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda, int *dipiv,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCCgesv(Handle handle, int n, int nrhs,
-                         cuComplex *dA, int ldda, int *dipiv,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCYgesv(Handle handle, int n, int nrhs,
-                         cuComplex *dA, int ldda, int *dipiv,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCKgesv(Handle handle, int n, int nrhs,
-                         cuComplex *dA, int ldda, int *dipiv,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDDgesv(Handle handle, int n, int nrhs,
-                         double *dA, int ldda, int *dipiv,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDSgesv(Handle handle, int n, int nrhs,
-                         double *dA, int ldda, int *dipiv,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDXgesv(Handle handle, int n, int nrhs,
-                         double *dA, int ldda, int *dipiv,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDHgesv(Handle handle, int n, int nrhs,
-                         double *dA, int ldda, int *dipiv,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSSgesv(Handle handle, int n, int nrhs,
-                         float *dA, int ldda, int *dipiv,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSXgesv(Handle handle, int n, int nrhs,
-                         float *dA, int ldda, int *dipiv,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSHgesv(Handle handle, int n, int nrhs,
-                         float *dA, int ldda, int *dipiv,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-
-    # Compute least square solution to A * X = B using iterative refinement
-    int cusolverDnZZgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZCgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZYgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnZKgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuDoubleComplex *dA, int ldda,
-                                    cuDoubleComplex *dB, int lddb,
-                                    cuDoubleComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCCgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuComplex *dA, int ldda,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCYgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuComplex *dA, int ldda,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnCKgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    cuComplex *dA, int ldda,
-                                    cuComplex *dB, int lddb,
-                                    cuComplex *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDDgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    double *dA, int ldda,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDSgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    double *dA, int ldda,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDXgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    double *dA, int ldda,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnDHgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    double *dA, int ldda,
-                                    double *dB, int lddb,
-                                    double *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSSgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    float *dA, int ldda,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSXgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    float *dA, int ldda,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-    int cusolverDnSHgels_bufferSize(Handle handle, int m, int n, int nrhs,
-                                    float *dA, int ldda,
-                                    float *dB, int lddb,
-                                    float *dX, int lddx,
-                                    void *dWorkspace, size_t *lwork_bytes)
-
-    int cusolverDnZZgels(Handle handle, int m, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZCgels(Handle handle, int m, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZYgels(Handle handle, int m, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnZKgels(Handle handle, int m, int n, int nrhs,
-                         cuDoubleComplex *dA, int ldda,
-                         cuDoubleComplex *dB, int lddb,
-                         cuDoubleComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCCgels(Handle handle, int m, int n, int nrhs,
-                         cuComplex *dA, int ldda,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCYgels(Handle handle, int m, int n, int nrhs,
-                         cuComplex *dA, int ldda,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnCKgels(Handle handle, int m, int n, int nrhs,
-                         cuComplex *dA, int ldda,
-                         cuComplex *dB, int lddb,
-                         cuComplex *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDDgels(Handle handle, int m, int n, int nrhs,
-                         double *dA, int ldda,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDSgels(Handle handle, int m, int n, int nrhs,
-                         double *dA, int ldda,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDXgels(Handle handle, int m, int n, int nrhs,
-                         double *dA, int ldda,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnDHgels(Handle handle, int m, int n, int nrhs,
-                         double *dA, int ldda,
-                         double *dB, int lddb,
-                         double *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSSgels(Handle handle, int m, int n, int nrhs,
-                         float *dA, int ldda,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSXgels(Handle handle, int m, int n, int nrhs,
-                         float *dA, int ldda,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
-    int cusolverDnSHgels(Handle handle, int m, int n, int nrhs,
-                         float *dA, int ldda,
-                         float *dB, int lddb,
-                         float *dX, int lddx,
-                         void *dWorkspace, size_t lwork_bytes,
-                         int *iter, int *dInfo)
+    cpdef int ssytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSsytrf_bufferSize(
+                <Handle>handle, n, <float*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dsytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDsytrf_bufferSize(
+                <Handle>handle, n, <double*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int csytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCsytrf_bufferSize(
+                <Handle>handle, n, <cuComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zsytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZsytrf_bufferSize(
+                <Handle>handle, n, <cuDoubleComplex*>A, lda, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef ssytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSsytrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A, lda,
+                <int*>ipiv, <float*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef dsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDsytrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A, lda,
+                <int*>ipiv, <double*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef csytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCsytrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A, lda,
+                <int*>ipiv, <cuComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef zsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZsytrf(
+                <Handle>handle, <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A, lda,
+                <int*>ipiv, <cuDoubleComplex*>work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef size_t zzgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZZgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zcgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZCgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZYgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zkgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZKgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ccgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCCgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t cygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCYgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ckgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCKgesv_bufferSize(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ddgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDDgesv_bufferSize(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dsgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDSgesv_bufferSize(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDXgesv_bufferSize(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dhgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDHgesv_bufferSize(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ssgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSSgesv_bufferSize(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t sxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSXgesv_bufferSize(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t shgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSHgesv_bufferSize(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zzgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZZgesv(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zcgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZCgesv(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZYgesv(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zkgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZKgesv(
+                <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <int*>dipiv,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ccgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCCgesv(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int cygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCYgesv(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ckgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCKgesv(
+                <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ddgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDDgesv(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dsgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDSgesv(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDXgesv(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dhgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDHgesv(
+                <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ssgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSSgesv(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int sxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSXgesv(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int shgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSHgesv(
+                <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef size_t zzgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZZgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zcgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZCgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZYgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t zkgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZKgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ccgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCCgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t cygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCYgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ckgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCKgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork,
+                &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ddgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDDgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dsgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDSgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDXgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t dhgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDHgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t ssgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSSgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t sxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSXgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef size_t shgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1:
+        cdef size_t lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSHgels_bufferSize(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zzgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda,
+                     size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZZgels(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zcgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda,
+                     size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZCgels(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zygels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda,
+                     size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZYgels(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int zkgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda,
+                     size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZKgels(
+                <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
+                <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ccgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCCgels(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int cygels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCYgels(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ckgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCKgels(
+                <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
+                <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ddgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDDgels(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dsgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDSgels(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dxgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDXgels(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int dhgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDHgels(
+                <Handle>handle, m, n, nrhs, <double*>dA, ldda,
+                <double*>dB, lddb, <double*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int ssgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSSgels(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int sxgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSXgels(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
+
+    cpdef int shgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork, size_t dInfo):
+        cdef int iter
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSHgels(
+                <Handle>handle, m, n, nrhs, <float*>dA, ldda,
+                <float*>dB, lddb, <float*>dX, lddx,
+                <void*>dwork, lwork, &iter, <int*>dInfo)
+        check_status(status)
+        return iter
 
     ###########################################################################
     # Dense LAPACK Functions (Eigenvalue Solver)
     ###########################################################################
 
     # Bidiagonal factorization
-    int cusolverDnSgebrd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnDgebrd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnCgebrd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnZgebrd_bufferSize(Handle handle, int m, int n, int* lwork)
-
-    int cusolverDnSgebrd(Handle handle, int m, int n,
-                         float* A, int lda,
-                         float* D, float* E,
-                         float* tauQ, float* tauP,
-                         float* Work, int lwork, int* devInfo)
-    int cusolverDnDgebrd(Handle handle, int m, int n,
-                         double* A, int lda,
-                         double* D, double* E,
-                         double* tauQ, double* tauP,
-                         double* Work, int lwork, int* devInfo)
-    int cusolverDnCgebrd(Handle handle, int m, int n,
-                         cuComplex* A, int lda,
-                         float* D, float* E,
-                         cuComplex* tauQ, cuComplex* tauP,
-                         cuComplex* Work, int lwork, int* devInfo)
-    int cusolverDnZgebrd(Handle handle, int m, int n,
-                         cuDoubleComplex* A, int lda,
-                         double* D, double* E,
-                         cuDoubleComplex* tauQ, cuDoubleComplex* tauP,
-                         cuDoubleComplex* Work, int lwork, int* devInfo)
+    cpdef int sgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgebrd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgebrd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgebrd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgebrd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgebrd(
+                <Handle>handle, m, n,
+                <float*>A, lda,
+                <float*>D, <float*>E,
+                <float*>tauQ, <float*>tauP,
+                <float*>Work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef dgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgebrd(
+                <Handle>handle, m, n,
+                <double*>A, lda,
+                <double*>D, <double*>E,
+                <double*>tauQ, <double*>tauP,
+                <double*>Work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef cgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgebrd(
+                <Handle>handle, m, n,
+                <cuComplex*>A, lda,
+                <float*>D, <float*>E,
+                <cuComplex*>tauQ, <cuComplex*>tauP,
+                <cuComplex*>Work, lwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef zgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgebrd(
+                <Handle>handle, m, n,
+                <cuDoubleComplex*>A, lda,
+                <double*>D, <double*>E,
+                <cuDoubleComplex*>tauQ, <cuDoubleComplex*>tauP,
+                <cuDoubleComplex*>Work, lwork, <int*>devInfo)
+        check_status(status)
 
     # Singular value decomposition, A = U * Sigma * V^H
-    int cusolverDnSgesvd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnDgesvd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnCgesvd_bufferSize(Handle handle, int m, int n, int* lwork)
-    int cusolverDnZgesvd_bufferSize(Handle handle, int m, int n, int* lwork)
-
-    int cusolverDnSgesvd(Handle handle, char jobu, char jobvt, int m, int n,
-                         float* A, int lda, float* S,
-                         float* U, int ldu,
-                         float* VT, int ldvt,
-                         float* Work, int lwork,
-                         float* rwork, int* devInfo)
-    int cusolverDnDgesvd(Handle handle, char jobu, char jobvt, int m, int n,
-                         double* A, int lda, double* S,
-                         double* U, int ldu,
-                         double* VT, int ldvt,
-                         double* Work, int lwork,
-                         double* rwork, int* devInfo)
-    int cusolverDnCgesvd(Handle handle, char jobu, char jobvt, int m, int n,
-                         cuComplex* A, int lda, float* S,
-                         cuComplex* U, int ldu,
-                         cuComplex* VT, int ldvt,
-                         cuComplex* Work, int lwork,
-                         float* rwork, int* devInfo)
-    int cusolverDnZgesvd(Handle handle, char jobu, char jobvt, int m, int n,
-                         cuDoubleComplex* A, int lda, double* S,
-                         cuDoubleComplex* U, int ldu,
-                         cuDoubleComplex* VT, int ldvt,
-                         cuDoubleComplex* Work, int lwork,
-                         double* rwork, int* devInfo)
+    cpdef int sgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvd_bufferSize(<Handle>handle, m, n, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef sgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvd(
+                <Handle>handle, jobu, jobvt, m, n, <float*>A, lda,
+                <float*>S, <float*>U, ldu, <float*>VT, ldvt,
+                <float*>Work, lwork, <float*>rwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef dgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvd(
+                <Handle>handle, jobu, jobvt, m, n, <double*>A, lda,
+                <double*>S, <double*>U, ldu, <double*>VT, ldvt,
+                <double*>Work, lwork, <double*>rwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef cgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvd(
+                <Handle>handle, jobu, jobvt, m, n, <cuComplex*>A, lda,
+                <float*>S, <cuComplex*>U, ldu, <cuComplex*>VT, ldvt,
+                <cuComplex*>Work, lwork, <float*>rwork, <int*>devInfo)
+        check_status(status)
+
+    cpdef zgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvd(
+                <Handle>handle, jobu, jobvt, m, n, <cuDoubleComplex*>A, lda,
+                <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>VT,
+                ldvt, <cuDoubleComplex*>Work, lwork, <double*>rwork,
+                <int*>devInfo)
+        check_status(status)
 
     # gesvdj ... Singular value decomposition using Jacobi mathod
-    int cusolverDnCreateGesvdjInfo(GesvdjInfo *info)
-    int cusolverDnDestroyGesvdjInfo(GesvdjInfo info)
-
-    int cusolverDnXgesvdjSetTolerance(GesvdjInfo info, double tolerance)
-    int cusolverDnXgesvdjSetMaxSweeps(GesvdjInfo info, int max_sweeps)
-    int cusolverDnXgesvdjSetSortEig(GesvdjInfo info, int sort_svd)
-    int cusolverDnXgesvdjGetResidual(Handle handle, GesvdjInfo info,
-                                     double* residual)
-    int cusolverDnXgesvdjGetSweeps(Handle handle, GesvdjInfo info,
-                                   int* executed_sweeps)
-
-    int cusolverDnSgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
-                                     int m, int n, const float* A, int lda,
-                                     const float* S, const float* U, int ldu,
-                                     const float* V, int ldv, int* lwork,
-                                     GesvdjInfo params)
-    int cusolverDnDgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
-                                     int m, int n, const double* A, int lda,
-                                     const double* S, const double* U, int ldu,
-                                     const double* V, int ldv, int* lwork,
-                                     GesvdjInfo params)
-    int cusolverDnCgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
-                                     int m, int n, const cuComplex* A, int lda,
-                                     const float* S, const cuComplex* U,
-                                     int ldu, const cuComplex* V, int ldv,
-                                     int* lwork, GesvdjInfo params)
-    int cusolverDnZgesvdj_bufferSize(Handle handle, EigMode jobz, int econ,
-                                     int m, int n, const cuDoubleComplex* A,
-                                     int lda, const double* S,
-                                     const cuDoubleComplex* U, int ldu,
-                                     const cuDoubleComplex* V, int ldv,
-                                     int* lwork, GesvdjInfo params)
-
-    int cusolverDnSgesvdj(Handle handle, EigMode jobz, int econ, int m, int n,
-                          float *A, int lda, float *S, float *U, int ldu,
-                          float *V, int ldv, float *work, int lwork, int *info,
-                          GesvdjInfo params)
-    int cusolverDnDgesvdj(Handle handle, EigMode jobz, int econ, int m, int n,
-                          double *A, int lda, double *S, double *U, int ldu,
-                          double *V, int ldv, double *work, int lwork,
-                          int *info, GesvdjInfo params)
-    int cusolverDnCgesvdj(Handle handle, EigMode jobz, int econ, int m, int n,
-                          cuComplex *A, int lda, float *S, cuComplex *U,
-                          int ldu, cuComplex *V, int ldv, cuComplex *work,
-                          int lwork, int *info, GesvdjInfo params)
-    int cusolverDnZgesvdj(Handle handle, EigMode jobz, int econ, int m, int n,
-                          cuDoubleComplex *A, int lda, double *S,
-                          cuDoubleComplex *U, int ldu, cuDoubleComplex *V,
-                          int ldv, cuDoubleComplex *work, int lwork, int *info,
-                          GesvdjInfo params)
-
-    int cusolverDnSgesvdjBatched_bufferSize(
-        Handle handle, EigMode jobz, int m, int n, float* A, int lda,
-        float* S, float* U, int ldu, float* V, int ldv,
-        int* lwork, GesvdjInfo params, int batchSize)
-    int cusolverDnDgesvdjBatched_bufferSize(
-        Handle handle, EigMode jobz, int m, int n, double* A, int lda,
-        double* S, double* U, int ldu, double* V, int ldv,
-        int* lwork, GesvdjInfo params, int batchSize)
-    int cusolverDnCgesvdjBatched_bufferSize(
-        Handle handle, EigMode jobz, int m, int n, cuComplex* A, int lda,
-        float* S, cuComplex* U, int ldu, cuComplex* V, int ldv,
-        int* lwork, GesvdjInfo params, int batchSize)
-    int cusolverDnZgesvdjBatched_bufferSize(
-        Handle handle, EigMode jobz, int m, int n, cuDoubleComplex* A, int lda,
-        double* S, cuDoubleComplex* U, int ldu, cuDoubleComplex* V, int ldv,
-        int* lwork, GesvdjInfo params, int batchSize)
-    int cusolverDnSgesvdjBatched(
-        Handle handle, EigMode jobz, int m, int n, float* A, int lda, float* S,
-        float* U, int ldu, float* V, int ldv, float* work, int lwork,
-        int* info, GesvdjInfo params, int batchSize)
-    int cusolverDnDgesvdjBatched(
-        Handle handle, EigMode jobz, int m, int n, double* A, int lda,
-        double* S, double* U, int ldu, double* V, int ldv,
-        double* work, int lwork,
-        int* info, GesvdjInfo params, int batchSize)
-    int cusolverDnCgesvdjBatched(
-        Handle handle, EigMode jobz, int m, int n, cuComplex* A, int lda,
-        float* S, cuComplex* U, int ldu, cuComplex* V, int ldv,
-        cuComplex* work, int lwork,
-        int* info, GesvdjInfo params, int batchSize)
-    int cusolverDnZgesvdjBatched(
-        Handle handle, EigMode jobz, int m, int n, cuDoubleComplex* A, int lda,
-        double* S, cuDoubleComplex* U, int ldu, cuDoubleComplex* V, int ldv,
-        cuDoubleComplex* work, int lwork,
-        int* info, GesvdjInfo params, int batchSize)
+    cpdef intptr_t createGesvdjInfo() except? 0:
+        cdef GesvdjInfo info
+        status = cusolverDnCreateGesvdjInfo(&info)
+        check_status(status)
+        return <intptr_t>info
+
+    cpdef destroyGesvdjInfo(intptr_t info):
+        status = cusolverDnDestroyGesvdjInfo(<GesvdjInfo>info)
+        check_status(status)
+
+    cpdef xgesvdjSetTolerance(intptr_t info, double tolerance):
+        status = cusolverDnXgesvdjSetTolerance(<GesvdjInfo>info, tolerance)
+        check_status(status)
+
+    cpdef xgesvdjSetMaxSweeps(intptr_t info, int max_sweeps):
+        status = cusolverDnXgesvdjSetMaxSweeps(<GesvdjInfo>info, max_sweeps)
+        check_status(status)
+
+    cpdef xgesvdjSetSortEig(intptr_t info, int sort_svd):
+        status = cusolverDnXgesvdjSetSortEig(<GesvdjInfo>info, sort_svd)
+        check_status(status)
+
+    cpdef double xgesvdjGetResidual(intptr_t handle, intptr_t info):
+        cdef double residual
+        status = cusolverDnXgesvdjGetResidual(<Handle>handle, <GesvdjInfo>info,
+                                              &residual)
+        check_status(status)
+        return residual
+
+    cpdef int xgesvdjGetSweeps(intptr_t handle, intptr_t info):
+        cdef int executed_sweeps
+        status = cusolverDnXgesvdjGetSweeps(<Handle>handle, <GesvdjInfo>info,
+                                            &executed_sweeps)
+        check_status(status)
+        return executed_sweeps
+
+    cpdef int sgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params):
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvdj_bufferSize(
+                <Handle>handle, <EigMode>jobz, econ, m, n, <const float*>A,
+                lda, <const float*>S, <const float*>U, ldu, <const float*>V,
+                ldv, &lwork, <GesvdjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int dgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params):
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvdj_bufferSize(
+                <Handle>handle, <EigMode>jobz, econ, m, n, <const double*>A,
+                lda, <const double*>S, <const double*>U, ldu, <const double*>V,
+                ldv, &lwork, <GesvdjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int cgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params):
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvdj_bufferSize(
+                <Handle>handle, <EigMode>jobz, econ, m, n, <const cuComplex*>A,
+                lda, <const float*>S, <const cuComplex*>U, ldu,
+                <const cuComplex*>V, ldv, &lwork, <GesvdjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int zgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params):
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvdj_bufferSize(
+                <Handle>handle, <EigMode>jobz, econ, m, n,
+                <const cuDoubleComplex*>A, lda, <const double*>S,
+                <const cuDoubleComplex*>U, ldu, <const cuDoubleComplex*>V,
+                ldv, &lwork, <GesvdjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef sgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvdj(<Handle>handle, <EigMode>jobz, econ, m,
+                                       n, <float*>A, lda, <float*>S, <float*>U,
+                                       ldu, <float*>V, ldv, <float*>work,
+                                       lwork, <int*>info, <GesvdjInfo>params)
+        check_status(status)
+
+    cpdef dgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvdj(<Handle>handle, <EigMode>jobz, econ, m,
+                                       n, <double*>A, lda, <double*>S,
+                                       <double*>U, ldu, <double*>V, ldv,
+                                       <double*>work, lwork,
+                                       <int*>info, <GesvdjInfo>params)
+        check_status(status)
+
+    cpdef cgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv,
+                  intptr_t work, int lwork, intptr_t info, intptr_t params):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvdj(
+                <Handle>handle, <EigMode>jobz, econ, m, n, <cuComplex*>A, lda,
+                <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv,
+                <cuComplex*>work, lwork, <int*>info, <GesvdjInfo>params)
+        check_status(status)
+
+    cpdef zgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv,
+                  intptr_t work, int lwork, intptr_t info, intptr_t params):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvdj(
+                <Handle>handle, <EigMode>jobz, econ, m, n, <cuDoubleComplex*>A,
+                lda, <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V,
+                ldv, <cuDoubleComplex*>work, lwork, <int*>info,
+                <GesvdjInfo>params)
+        check_status(status)
+
+    cpdef int sgesvdjBatched_bufferSize(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t params, int batchSize) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvdjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz, m, n, <float*>A, lda,
+                <float*>S, <float*>U, ldu, <float*>V, ldv, &lwork,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int dgesvdjBatched_bufferSize(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t params, int batchSize) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvdjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz, m, n, <double*>A, lda,
+                <double*>S, <double*>U, ldu, <double*>V, ldv, &lwork,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int cgesvdjBatched_bufferSize(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t params, int batchSize) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvdjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz, m, n, <cuComplex*>A, lda,
+                <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv, &lwork,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int zgesvdjBatched_bufferSize(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t params, int batchSize) except? -1:
+        cdef int lwork
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvdjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz, m, n, <cuDoubleComplex*>A, lda,
+                <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V, ldv,
+                &lwork,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef sgesvdjBatched(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t work, int lwork, intptr_t info,
+            intptr_t params, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvdjBatched(
+                <Handle>handle, <EigMode>jobz, m, n, <float*>A, lda,
+                <float*>S, <float*>U, ldu, <float*>V, ldv,
+                <float*>work, lwork, <int*>info,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+
+    cpdef dgesvdjBatched(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t work, int lwork, intptr_t info,
+            intptr_t params, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvdjBatched(
+                <Handle>handle, <EigMode>jobz, m, n, <double*>A, lda,
+                <double*>S, <double*>U, ldu, <double*>V, ldv,
+                <double*>work, lwork, <int*>info,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+
+    cpdef cgesvdjBatched(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t work, int lwork, intptr_t info,
+            intptr_t params, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvdjBatched(
+                <Handle>handle, <EigMode>jobz, m, n, <cuComplex*>A, lda,
+                <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv,
+                <cuComplex*>work, lwork, <int*>info,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
+
+    cpdef zgesvdjBatched(
+            intptr_t handle, int jobz, int m, int n, intptr_t A,
+            int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+            intptr_t work, int lwork, intptr_t info,
+            intptr_t params, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvdjBatched(
+                <Handle>handle, <EigMode>jobz, m, n, <cuDoubleComplex*>A, lda,
+                <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V, ldv,
+                <cuDoubleComplex*>work, lwork, <int*>info,
+                <GesvdjInfo>params, batchSize)
+        check_status(status)
 
     # gesvda ... Approximate singular value decomposition
-    int cusolverDnSgesvdaStridedBatched_bufferSize(
-        Handle handle, EigMode jobz, int rank, int m, int n, const float *d_A,
-        int lda, long long int strideA, const float *d_S,
-        long long int strideS, const float *d_U, int ldu,
-        long long int strideU, const float *d_V, int ldv,
-        long long int strideV, int *lwork, int batchSize)
-
-    int cusolverDnDgesvdaStridedBatched_bufferSize(
-        Handle handle, EigMode jobz, int rank, int m, int n, const double *d_A,
-        int lda, long long int strideA, const double *d_S,
-        long long int strideS, const double *d_U, int ldu,
-        long long int strideU, const double *d_V, int ldv,
-        long long int strideV, int *lwork, int batchSize)
-
-    int cusolverDnCgesvdaStridedBatched_bufferSize(
-        Handle handle, EigMode jobz, int rank, int m, int n,
-        const cuComplex *d_A, int lda, long long int strideA, const float *d_S,
-        long long int strideS, const cuComplex *d_U, int ldu,
-        long long int strideU, const cuComplex *d_V, int ldv,
-        long long int strideV, int *lwork, int batchSize)
-
-    int cusolverDnZgesvdaStridedBatched_bufferSize(
-        Handle handle, EigMode jobz, int rank, int m, int n,
-        const cuDoubleComplex *d_A, int lda, long long int strideA,
-        const double *d_S, long long int strideS, const cuDoubleComplex *d_U,
-        int ldu, long long int strideU, const cuDoubleComplex *d_V, int ldv,
-        long long int strideV, int *lwork, int batchSize)
-
-    int cusolverDnSgesvdaStridedBatched(
-        Handle handle, EigMode jobz, int rank, int m, int n, const float *d_A,
-        int lda, long long int strideA, float *d_S, long long int strideS,
-        float *d_U, int ldu, long long int strideU, float *d_V, int ldv,
-        long long int strideV, float *d_work, int lwork, int *d_info,
-        double *h_R_nrmF, int batchSize)
-
-    int cusolverDnDgesvdaStridedBatched(
-        Handle handle, EigMode jobz, int rank, int m, int n, const double *d_A,
-        int lda, long long int strideA, double *d_S, long long int strideS,
-        double *d_U, int ldu, long long int strideU, double *d_V, int ldv,
-        long long int strideV, double *d_work, int lwork, int *d_info,
-        double *h_R_nrmF, int batchSize)
-
-    int cusolverDnCgesvdaStridedBatched(
-        Handle handle, EigMode jobz, int rank, int m, int n,
-        const cuComplex *d_A, int lda, long long int strideA, float *d_S,
-        long long int strideS, cuComplex *d_U, int ldu, long long int strideU,
-        cuComplex *d_V, int ldv, long long int strideV, cuComplex *d_work,
-        int lwork, int *d_info, double *h_R_nrmF, int batchSize)
-
-    int cusolverDnZgesvdaStridedBatched(
-        Handle handle, EigMode jobz, int rank, int m, int n,
-        const cuDoubleComplex *d_A, int lda, long long int strideA,
-        double *d_S, long long int strideS, cuDoubleComplex *d_U, int ldu,
-        long long int strideU, cuDoubleComplex *d_V, int ldv,
-        long long int strideV, cuDoubleComplex *d_work, int lwork, int *d_info,
-        double *h_R_nrmF, int batchSize)
+    cpdef int sgesvdaStridedBatched_bufferSize(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv, long long int strideV, int batchSize):
+        cdef int lwork
+        status = cusolverDnSgesvdaStridedBatched_bufferSize(
+            <Handle>handle, <EigMode>jobz, rank, m, n, <const float*>d_A, lda,
+            strideA, <const float*>d_S, strideS, <const float*>d_U, ldu,
+            strideU, <const float*>d_V, ldv, strideV, &lwork, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int dgesvdaStridedBatched_bufferSize(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv, long long int strideV, int batchSize):
+        cdef int lwork
+        status = cusolverDnDgesvdaStridedBatched_bufferSize(
+            <Handle>handle, <EigMode>jobz, rank, m, n, <const double*>d_A, lda,
+            strideA, <const double*>d_S, strideS, <const double*>d_U, ldu,
+            strideU, <const double*>d_V, ldv, strideV, &lwork, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int cgesvdaStridedBatched_bufferSize(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv, long long int strideV, int batchSize):
+        cdef int lwork
+        status = cusolverDnCgesvdaStridedBatched_bufferSize(
+            <Handle>handle, <EigMode>jobz, rank, m, n, <const cuComplex*>d_A,
+            lda, strideA, <const float*>d_S, strideS, <const cuComplex*>d_U,
+            ldu, strideU, <const cuComplex*>d_V, ldv, strideV, &lwork,
+            batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int zgesvdaStridedBatched_bufferSize(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv,
+            long long int strideV, int batchSize):
+        cdef int lwork
+        status = cusolverDnZgesvdaStridedBatched_bufferSize(
+            <Handle>handle, <EigMode>jobz, rank, m, n,
+            <const cuDoubleComplex*>d_A,
+            lda, strideA, <const double*>d_S, strideS,
+            <const cuDoubleComplex*>d_U,
+            ldu, strideU, <const cuDoubleComplex*>d_V, ldv, strideV, &lwork,
+            batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef sgesvdaStridedBatched(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv,
+            long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+            intptr_t h_R_nrmF, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSgesvdaStridedBatched(
+                <Handle>handle, <EigMode>jobz, rank, m, n, <const float*>d_A,
+                lda, strideA, <float*>d_S, strideS, <float*>d_U, ldu, strideU,
+                <float*>d_V, ldv, strideV, <float*>d_work, lwork, <int*>d_info,
+                <double*>h_R_nrmF, batchSize)
+        check_status(status)
+
+    cpdef dgesvdaStridedBatched(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv, long long int strideV, intptr_t d_work, int lwork,
+            intptr_t d_info, intptr_t h_R_nrmF, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDgesvdaStridedBatched(
+                <Handle>handle, <EigMode>jobz, rank, m, n, <const double*>d_A,
+                lda, strideA, <double*>d_S, strideS, <double*>d_U, ldu,
+                strideU, <double*>d_V, ldv, strideV, <double*>d_work, lwork,
+                <int*>d_info,
+                <double*>h_R_nrmF, batchSize)
+        check_status(status)
+
+    cpdef cgesvdaStridedBatched(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv,
+            long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+            intptr_t h_R_nrmF, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCgesvdaStridedBatched(
+                <Handle>handle, <EigMode>jobz, rank, m, n,
+                <const cuComplex*>d_A,
+                lda, strideA, <float*>d_S, strideS, <cuComplex*>d_U, ldu,
+                strideU, <cuComplex*>d_V, ldv, strideV, <cuComplex*>d_work,
+                lwork, <int*>d_info, <double*>h_R_nrmF, batchSize)
+        check_status(status)
+
+    cpdef zgesvdaStridedBatched(
+            intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+            int lda, long long int strideA, intptr_t d_S,
+            long long int strideS,
+            intptr_t d_U, int ldu, long long int strideU, intptr_t d_V,
+            int ldv,
+            long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+            intptr_t h_R_nrmF, int batchSize):
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZgesvdaStridedBatched(
+                <Handle>handle, <EigMode>jobz, rank, m, n,
+                <const cuDoubleComplex*>d_A, lda, strideA, <double*>d_S,
+                strideS, <cuDoubleComplex*>d_U, ldu, strideU,
+                <cuDoubleComplex*>d_V, ldv,
+                strideV, <cuDoubleComplex*>d_work, lwork, <int*>d_info,
+                <double*>h_R_nrmF, batchSize)
+        check_status(status)
 
     # Standard symmetric eigenvalue solver
-    int cusolverDnSsyevd_bufferSize(Handle handle,
-                                    EigMode jobz, FillMode uplo, int n,
-                                    const float* A, int lda,
-                                    const float* W, int* lwork)
-    int cusolverDnDsyevd_bufferSize(Handle handle,
-                                    EigMode jobz, FillMode uplo, int n,
-                                    const double* A, int lda,
-                                    const double* W, int* lwork)
-    int cusolverDnCheevd_bufferSize(Handle handle,
-                                    EigMode jobz, FillMode uplo, int n,
-                                    const cuComplex* A, int lda,
-                                    const float* W, int* lwork)
-    int cusolverDnZheevd_bufferSize(Handle handle,
-                                    EigMode jobz, FillMode uplo, int n,
-                                    const cuDoubleComplex* A, int lda,
-                                    const double* W, int* lwork)
-
-    int cusolverDnSsyevd(Handle handle, EigMode jobz, FillMode uplo, int n,
-                         float* A, int lda, float* W,
-                         float* work, int lwork, int* info)
-    int cusolverDnDsyevd(Handle handle, EigMode jobz, FillMode uplo, int n,
-                         double* A, int lda, double* W,
-                         double* work, int lwork, int* info)
-    int cusolverDnCheevd(Handle handle, EigMode jobz, FillMode uplo, int n,
-                         cuComplex* A, int lda, float* W,
-                         cuComplex* work, int lwork, int* info)
-    int cusolverDnZheevd(Handle handle, EigMode jobz, FillMode uplo, int n,
-                         cuDoubleComplex* A, int lda, double* W,
-                         cuDoubleComplex* work, int lwork, int* info)
-
-    # Symmetric eigenvalue solver using Jacobi method
-    int cusolverDnCreateSyevjInfo(SyevjInfo *info)
-    int cusolverDnDestroySyevjInfo(SyevjInfo info)
-
-    int cusolverDnXsyevjSetTolerance(SyevjInfo info, double tolerance)
-    int cusolverDnXsyevjSetMaxSweeps(SyevjInfo info, int max_sweeps)
-    int cusolverDnXsyevjSetSortEig(SyevjInfo info, int sort_eig)
-    int cusolverDnXsyevjGetResidual(
-        Handle handle, SyevjInfo info, double* residual)
-    int cusolverDnXsyevjGetSweeps(
-        Handle handle, SyevjInfo info, int* executed_sweeps)
-
-    int cusolverDnSsyevj_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const float *A, int lda, const float *W, int *lwork,
-        SyevjInfo params)
-    int cusolverDnDsyevj_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const double *A, int lda, const double *W, int *lwork,
-        SyevjInfo params)
-    int cusolverDnCheevj_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const cuComplex *A, int lda, const float *W, int *lwork,
-        SyevjInfo params)
-    int cusolverDnZheevj_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const cuDoubleComplex *A, int lda, const double *W, int *lwork,
-        SyevjInfo params)
-
-    int cusolverDnSsyevj(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        float *A, int lda, float *W, float *work,
-        int lwork, int *info, SyevjInfo params)
-    int cusolverDnDsyevj(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        double *A, int lda, double *W, double *work,
-        int lwork, int *info, SyevjInfo params)
-    int cusolverDnCheevj(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        cuComplex *A, int lda, float *W, cuComplex *work,
-        int lwork, int *info, SyevjInfo params)
-    int cusolverDnZheevj(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        cuDoubleComplex *A, int lda, double *W, cuDoubleComplex *work,
-        int lwork, int *info, SyevjInfo params)
-
-    int cusolverDnSsyevjBatched_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const float *A, int lda, const float *W, int *lwork,
-        SyevjInfo params, int batchSize)
-
-    int cusolverDnDsyevjBatched_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const double *A, int lda, const double *W, int *lwork,
-        SyevjInfo params, int batchSize)
-
-    int cusolverDnCheevjBatched_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const cuComplex *A, int lda, const float *W, int *lwork,
-        SyevjInfo params, int batchSize)
-
-    int cusolverDnZheevjBatched_bufferSize(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        const cuDoubleComplex *A, int lda, const double *W, int *lwork,
-        SyevjInfo params, int batchSize)
-
-    int cusolverDnSsyevjBatched(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        float *A, int lda, float *W, float *work, int lwork,
-        int *info, SyevjInfo params, int batchSize)
-
-    int cusolverDnDsyevjBatched(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        double *A, int lda, double *W, double *work, int lwork,
-        int *info, SyevjInfo params, int batchSize)
-
-    int cusolverDnCheevjBatched(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        cuComplex *A, int lda, float *W, cuComplex *work, int lwork,
-        int *info, SyevjInfo params, int batchSize)
-
-    int cusolverDnZheevjBatched(
-        Handle handle, EigMode jobz, FillMode uplo, int n,
-        cuDoubleComplex *A, int lda, double *W, cuDoubleComplex *work,
-        int lwork, int *info, SyevjInfo params, int batchSize)
-
-    # 64bit
-    int cusolverDnXsyevd_bufferSize(
-        Handle handle, Params params, EigMode jobz, FillMode uplo, int64_t n,
-        DataType dataTypeA, void *A, int64_t lda,
-        DataType dataTypeW, void *W, DataType computeType,
-        size_t *workspaceInBytesOnDevice, size_t *workspaceInBytesOnHost)
-    int cusolverDnXsyevd(
-        Handle handle, Params params, EigMode jobz, FillMode uplo, int64_t n,
-        DataType dataTypeA, void *A, int64_t lda,
-        DataType dataTypeW, void *W, DataType computeType,
-        void *bufferOnDevice, size_t workspaceInBytesOnDevice,
-        void *bufferOnHost, size_t workspaceInBytesOnHost, int *info)
+    cpdef int ssyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1:
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSsyevd_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const float*>A,
+                lda, <const float*>W, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int dsyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1:
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDsyevd_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const double*>A,
+                lda, <const double*>W, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int cheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1:
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCheevd_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuComplex*>A,
+                lda, <const float*>W, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef int zheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1:
+        cdef int lwork, status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZheevd_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuDoubleComplex*>A,
+                lda, <const double*>W, &lwork)
+        check_status(status)
+        return lwork
+
+    cpdef ssyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info):
+        cdef int status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnSsyevd(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A, lda, <float*>W,
+                <float*>work, lwork, <int*>info)
+        check_status(status)
+
+    cpdef dsyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info):
+        cdef int status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnDsyevd(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A, lda, <double*>W,
+                <double*>work, lwork, <int*>info)
+        check_status(status)
+
+    cpdef cheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info):
+        cdef int status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnCheevd(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A, lda, <float*>W,
+                <cuComplex*>work, lwork, <int*>info)
+        check_status(status)
+
+    cpdef zheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info):
+        cdef int status
+        _setStream(handle)
+        with nogil:
+            status = cusolverDnZheevd(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A, lda, <double*>W,
+                <cuDoubleComplex*>work, lwork, <int*>info)
+        check_status(status)
+
+    # Symmetric eigenvalue solver via Jacobi method
+    cpdef intptr_t createSyevjInfo() except? 0:
+        cdef SyevjInfo info
+        status = cusolverDnCreateSyevjInfo(&info)
+        check_status(status)
+        return <intptr_t>info
+
+    cpdef destroySyevjInfo(intptr_t info):
+        status = cusolverDnDestroySyevjInfo(<SyevjInfo>info)
+        check_status(status)
+
+    cpdef xsyevjSetTolerance(intptr_t info, double tolerance):
+        status = cusolverDnXsyevjSetTolerance(<SyevjInfo>info, tolerance)
+        check_status(status)
+
+    cpdef xsyevjSetMaxSweeps(intptr_t info, int max_sweeps):
+        status = cusolverDnXsyevjSetMaxSweeps(<SyevjInfo>info, max_sweeps)
+        check_status(status)
+
+    cpdef xsyevjSetSortEig(intptr_t info, int sort_eig):
+        status = cusolverDnXsyevjSetSortEig(<SyevjInfo>info, sort_eig)
+        check_status(status)
+
+    cpdef double xsyevjGetResidual(intptr_t handle, intptr_t info):
+        cdef double residual
+        status = cusolverDnXsyevjGetResidual(
+            <Handle>handle, <SyevjInfo>info, &residual)
+        check_status(status)
+        return residual
+
+    cpdef int xsyevjGetSweeps(intptr_t handle, intptr_t info):
+        cdef int executed_sweeps
+        status = cusolverDnXsyevjGetSweeps(
+            <Handle>handle, <SyevjInfo>info, &executed_sweeps)
+        check_status(status)
+        return executed_sweeps
+
+    cpdef int ssyevj_bufferSize(intptr_t handle, int jobz, int uplo,
+                                int n, size_t A, int lda, size_t W,
+                                intptr_t params) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSsyevj_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const float*>A,
+                lda, <const float*>W, &lwork, <SyevjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int dsyevj_bufferSize(intptr_t handle, int jobz, int uplo,
+                                int n, size_t A, int lda, size_t W,
+                                intptr_t params) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDsyevj_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const double*>A,
+                lda, <const double*>W, &lwork, <SyevjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int cheevj_bufferSize(intptr_t handle, int jobz, int uplo,
+                                int n, size_t A, int lda, size_t W,
+                                intptr_t params) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCheevj_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuComplex*>A,
+                lda, <const float*>W, &lwork, <SyevjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef int zheevj_bufferSize(intptr_t handle, int jobz, int uplo,
+                                int n, size_t A, int lda, size_t W,
+                                intptr_t params) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZheevj_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuDoubleComplex*>A,
+                lda, <const double*>W, &lwork, <SyevjInfo>params)
+        check_status(status)
+        return lwork
+
+    cpdef ssyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSsyevj(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A, lda, <float*>W,
+                <float*>work, lwork, <int*>info, <SyevjInfo>params)
+        check_status(status)
+
+    cpdef dsyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDsyevj(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A, lda, <double*>W,
+                <double*>work, lwork, <int*>info, <SyevjInfo>params)
+        check_status(status)
+
+    cpdef cheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCheevj(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A, lda, <float*>W,
+                <cuComplex*>work, lwork, <int*>info, <SyevjInfo>params)
+        check_status(status)
+
+    cpdef zheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZheevj(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A, lda, <double*>W,
+                <cuDoubleComplex*>work, lwork, <int*>info, <SyevjInfo>params)
+        check_status(status)
+
+    # Batched symmetric eigenvalue solver via Jacobi method
+
+    cpdef int ssyevjBatched_bufferSize(
+            intptr_t handle, int jobz, int uplo, int n,
+            size_t A, int lda, size_t W, intptr_t params,
+            int batchSize) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSsyevjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const float *>A, lda, <const float *>W, &lwork,
+                <SyevjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int dsyevjBatched_bufferSize(
+            intptr_t handle, int jobz, int uplo, int n,
+            size_t A, int lda, size_t W, intptr_t params,
+            int batchSize) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDsyevjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const double *>A, lda, <const double *>W, &lwork,
+                <SyevjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int cheevjBatched_bufferSize(
+            intptr_t handle, int jobz, int uplo, int n,
+            size_t A, int lda, size_t W, intptr_t params,
+            int batchSize) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCheevjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuComplex *>A, lda, <const float *>W, &lwork,
+                <SyevjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef int zheevjBatched_bufferSize(
+            intptr_t handle, int jobz, int uplo, int n,
+            size_t A, int lda, size_t W, intptr_t params,
+            int batchSize) except? -1:
+        cdef int lwork, status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZheevjBatched_bufferSize(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <const cuDoubleComplex *>A, lda, <const double *>W, &lwork,
+                <SyevjInfo>params, batchSize)
+        check_status(status)
+        return lwork
+
+    cpdef ssyevjBatched(intptr_t handle, int jobz, int uplo, int n,
+                        size_t A, int lda, size_t W, size_t work, int lwork,
+                        size_t info, intptr_t params, int batchSize):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnSsyevjBatched(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <float*>A, lda, <float*>W,
+                <float*>work, lwork, <int*>info, <SyevjInfo>params, batchSize)
+        check_status(status)
+
+    cpdef dsyevjBatched(intptr_t handle, int jobz, int uplo, int n,
+                        size_t A, int lda, size_t W, size_t work, int lwork,
+                        size_t info, intptr_t params, int batchSize):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnDsyevjBatched(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <double*>A, lda, <double*>W,
+                <double*>work, lwork, <int*>info, <SyevjInfo>params, batchSize)
+        check_status(status)
+
+    cpdef cheevjBatched(intptr_t handle, int jobz, int uplo, int n,
+                        size_t A, int lda, size_t W, size_t work, int lwork,
+                        size_t info, intptr_t params, int batchSize):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnCheevjBatched(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuComplex*>A, lda, <float*>W,
+                <cuComplex*>work, lwork, <int*>info, <SyevjInfo>params,
+                batchSize)
+        check_status(status)
+
+    cpdef zheevjBatched(intptr_t handle, int jobz, int uplo, int n,
+                        size_t A, int lda, size_t W, size_t work, int lwork,
+                        size_t info, intptr_t params, int batchSize):
+        cdef int status
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnZheevjBatched(
+                <Handle>handle, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <cuDoubleComplex*>A, lda, <double*>W,
+                <cuDoubleComplex*>work, lwork, <int*>info,
+                <SyevjInfo>params, batchSize)
+        check_status(status)
+
+    # dense eigenvalue solver (64bit)
+    cpdef (size_t, size_t) xsyevd_bufferSize(  # noqa
+            intptr_t handle, intptr_t params, int jobz, int uplo,
+            int64_t n, int dataTypeA, intptr_t A, int64_t lda,
+            int dataTypeW, intptr_t W, int computeType) except *:
+        cdef size_t workspaceInBytesOnDevice, workspaceInBytesOnHost
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnXsyevd_bufferSize(
+                <Handle>handle, <Params>params, <EigMode> jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <DataType>dataTypeA, <void*>A, lda,
+                <DataType>dataTypeW, <void*>W, <DataType>computeType,
+                &workspaceInBytesOnDevice, &workspaceInBytesOnHost)
+        check_status(status)
+        return workspaceInBytesOnDevice, workspaceInBytesOnHost
+
+    cpdef xsyevd(
+            intptr_t handle, intptr_t params, int jobz, int uplo,
+            int64_t n, int dataTypeA, intptr_t A, int64_t lda,
+            int dataTypeW, intptr_t W, int computeType,
+            intptr_t bufferOnDevice, size_t workspaceInBytesOnDevice,
+            intptr_t bufferOnHost,
+            size_t workspaceInBytesOnHost, intptr_t info):
+        setStream(handle, stream_module.get_current_stream_ptr())
+        with nogil:
+            status = cusolverDnXsyevd(
+                <Handle>handle, <Params>params, <EigMode>jobz,
+                <FillMode>(convert_solver_fill(uplo)), n,
+                <DataType>dataTypeA, <void*>A, lda,
+                <DataType>dataTypeW, <void*>W, <DataType>computeType,
+                <void*>bufferOnDevice, workspaceInBytesOnDevice,
+                <void*>bufferOnHost, workspaceInBytesOnHost, <int*>info)
+        check_status(status)
 
     ###########################################################################
     # Sparse LAPACK Functions
     ###########################################################################
-
-    int cusolverSpScsrlsvchol(
-        SpHandle handle, int m, int nnz, const MatDescr descrA,
-        const float* csrValA, const int* csrRowPtrA, const int* csrColIndA,
-        const float* b, float tol, int reorder, float* x, int* singularity)
-    int cusolverSpDcsrlsvchol(
-        SpHandle handle, int m, int nnz, const MatDescr descrA,
-        const double* csrValA, const int* csrRowPtrA, const int* csrColIndA,
-        const double* b, double tol, int reorder, double* x, int* singularity)
-    int cusolverSpCcsrlsvchol(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuComplex *csrVal,
-        const int *csrRowPtr, const int *csrColInd, const cuComplex *b,
-        float tol, int reorder, cuComplex *x, int *singularity)
-    int cusolverSpZcsrlsvchol(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuDoubleComplex *csrVal,
-        const int *csrRowPtr, const int *csrColInd, const cuDoubleComplex *b,
-        double tol, int reorder, cuDoubleComplex *x, int *singularity)
-
-    int cusolverSpScsrlsvqr(
-        SpHandle handle, int m, int nnz, const MatDescr descrA,
-        const float* csrValA, const int* csrRowPtrA, const int* csrColIndA,
-        const float* b, float tol, int reorder, float* x, int* singularity)
-    int cusolverSpDcsrlsvqr(
-        SpHandle handle, int m, int nnz, const MatDescr descrA,
-        const double* csrValA, const int* csrRowPtrA, const int* csrColIndA,
-        const double* b, double tol, int reorder, double* x, int* singularity)
-    int cusolverSpCcsrlsvqr(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuComplex *csrVal,
-        const int *csrRowPtr, const int *csrColInd, const cuComplex *b,
-        float tol, int reorder, cuComplex *x, int *singularity)
-    int cusolverSpZcsrlsvqr(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuDoubleComplex *csrVal,
-        const int *csrRowPtr, const int *csrColInd, const cuDoubleComplex *b,
-        double tol, int reorder, cuDoubleComplex *x, int *singularity)
-
-    int cusolverSpScsreigvsi(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const float *csrValA,
-        const int *csrRowPtrA, const int *csrColIndA, float mu0,
-        const float *x0, int maxite, float eps, float *mu, float *x)
-    int cusolverSpDcsreigvsi(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const double *csrValA,
-        const int *csrRowPtrA, const int *csrColIndA, double mu0,
-        const double *x0, int maxite, double eps, double *mu, double *x)
-    int cusolverSpCcsreigvsi(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuComplex *csrValA,
-        const int *csrRowPtrA, const int *csrColIndA, cuComplex mu0,
-        const cuComplex *x0, int maxite, float eps, cuComplex *mu,
-        cuComplex *x)
-    int cusolverSpZcsreigvsi(
-        SpHandle handle, int m, int nnz,
-        const MatDescr descrA, const cuDoubleComplex *csrValA,
-        const int *csrRowPtrA, const int *csrColIndA, cuDoubleComplex mu0,
-        const cuDoubleComplex *x0, int maxite, double eps, cuDoubleComplex *mu,
-        cuDoubleComplex *x)
-
-###############################################################################
-# Error handling
-###############################################################################
-
-cdef dict STATUS = {
-    0: 'CUSOLVER_STATUS_SUCCESS',
-    1: 'CUSOLVER_STATUS_NOT_INITIALIZED',
-    2: 'CUSOLVER_STATUS_ALLOC_FAILED',
-    3: 'CUSOLVER_STATUS_INVALID_VALUE',
-    4: 'CUSOLVER_STATUS_ARCH_MISMATCH',
-    5: 'CUSOLVER_STATUS_MAPPING_ERROR',
-    6: 'CUSOLVER_STATUS_EXECUTION_FAILED',
-    7: 'CUSOLVER_STATUS_INTERNAL_ERROR',
-    8: 'CUSOLVER_STATUS_MATRIX_TYPE_NOT_SUPPORTED',
-    9: 'CUSOLVER_STATUS_NOT_SUPPORTED',
-    10: 'CUSOLVER_STATUS_ZERO_PIVOT',
-    11: 'CUSOLVER_STATUS_INVALID_LICENSE',
-    12: 'CUSOLVER_STATUS_IRS_PARAMS_NOT_INITIALIZED',
-    13: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID',
-    14: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_PREC',
-    15: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_REFINE',
-    16: 'CUSOLVER_STATUS_IRS_PARAMS_INVALID_MAXITER',
-    20: 'CUSOLVER_STATUS_IRS_INTERNAL_ERROR',
-    21: 'CUSOLVER_STATUS_IRS_NOT_SUPPORTED',
-    22: 'CUSOLVER_STATUS_IRS_OUT_OF_RANGE',
-    23: 'CUSOLVER_STATUS_IRS_NRHS_NOT_SUPPORTED_FOR_REFINE_GMRES',
-    25: 'CUSOLVER_STATUS_IRS_INFOS_NOT_INITIALIZED',
-    26: 'CUSOLVER_STATUS_IRS_INFOS_NOT_DESTROYED',
-    30: 'CUSOLVER_STATUS_IRS_MATRIX_SINGULAR',
-    31: 'CUSOLVER_STATUS_INVALID_WORKSPACE',
-}
-
-# for rocBLAS and rocSOLVER
-cdef dict ROC_STATUS = {
-    0: 'rocblas_status_success',
-    1: 'rocblas_status_invalid_handle',
-    2: 'rocblas_status_not_implemented',
-    3: 'rocblas_status_invalid_pointer',
-    4: 'rocblas_status_invalid_size',
-    5: 'rocblas_status_memory_error',
-    6: 'rocblas_status_internal_error',
-    7: 'rocblas_status_perf_degraded',
-    8: 'rocblas_status_size_query_mismatch',
-    9: 'rocblas_status_size_increased',
-    10: 'rocblas_status_size_unchanged',
-    11: 'rocblas_status_invalid_value',
-    12: 'rocblas_status_continue',
-}
-
-
-class CUSOLVERError(RuntimeError):
-
-    def __init__(self, status):
-        self.status = status
-        if runtime._is_hip_environment:
-            err = ROC_STATUS
-        else:
-            err = STATUS
-        super(CUSOLVERError, self).__init__(err[status])
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise CUSOLVERError(status)
-
-
-###############################################################################
-# Library Attributes
-###############################################################################
-
-cpdef int getProperty(int type) except? -1:
-    cdef int value
-    with nogil:
-        status = cusolverGetProperty(<LibraryPropertyType>type, &value)
-    check_status(status)
-    return value
-
-
-cpdef tuple _getVersion():
-    return (getProperty(MAJOR_VERSION),
-            getProperty(MINOR_VERSION),
-            getProperty(PATCH_LEVEL))
-
-
-###############################################################################
-# Context
-###############################################################################
-
-cpdef intptr_t create() except? 0:
-    cdef Handle handle
-    with nogil:
-        status = cusolverDnCreate(&handle)
-    check_status(status)
-    return <intptr_t>handle
-
-
-cpdef intptr_t spCreate() except? 0:
-    cdef SpHandle handle
-    with nogil:
-        status = cusolverSpCreate(&handle)
-    check_status(status)
-    return <intptr_t>handle
-
-
-cpdef destroy(intptr_t handle):
-    with nogil:
-        status = cusolverDnDestroy(<Handle>handle)
-    check_status(status)
-
-
-cpdef spDestroy(intptr_t handle):
-    with nogil:
-        status = cusolverSpDestroy(<SpHandle>handle)
-    check_status(status)
-
-
-###############################################################################
-# Stream
-###############################################################################
-
-cpdef setStream(intptr_t handle, size_t stream):
-    # TODO(leofang): The support of stream capture is not mentioned at all in
-    # the cuSOLVER docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
-        raise NotImplementedError(
-            'calling cuSOLVER API during stream capture is currently '
-            'unsupported')
-
-    with nogil:
-        status = cusolverDnSetStream(<Handle>handle, <Stream>stream)
-    check_status(status)
-
-
-cpdef size_t getStream(intptr_t handle) except? 0:
-    cdef Stream stream
-    with nogil:
-        status = cusolverDnGetStream(<Handle>handle, &stream)
-    check_status(status)
-    return <size_t>stream
-
-
-cpdef spSetStream(intptr_t handle, size_t stream):
-    with nogil:
-        status = cusolverSpSetStream(<SpHandle>handle, <Stream>stream)
-    check_status(status)
-
-
-cpdef size_t spGetStream(intptr_t handle) except *:
-    cdef Stream stream
-    with nogil:
-        status = cusolverSpGetStream(<SpHandle>handle, &stream)
-    check_status(status)
-    return <size_t>stream
-
-
-cdef _setStream(intptr_t handle):
-    """Set current stream"""
-    setStream(handle, stream_module.get_current_stream_ptr())
-
-
-cdef _spSetStream(intptr_t handle):
-    """Set current stream"""
-    spSetStream(handle, stream_module.get_current_stream_ptr())
-
-
-###############################################################################
-# Params
-###############################################################################
-
-cpdef intptr_t createParams() except? 0:
-    cdef Params params
-    with nogil:
-        status = cusolverDnCreateParams(&params)
-    check_status(status)
-    return <intptr_t>params
-
-cpdef destroyParams(intptr_t params):
-    with nogil:
-        status = cusolverDnDestroyParams(<Params>params)
-    check_status(status)
-
-
-###########################################################################
-# Dense LAPACK Functions (Linear Solver)
-###########################################################################
-
-# Cholesky factorization
-cpdef int spotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSpotrf_bufferSize(
-            <Handle>handle, <FillMode>uplo, n,
-            <float*>A, <int>lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDpotrf_bufferSize(
-            <Handle>handle, <FillMode>uplo, n,
-            <double*>A, <int>lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCpotrf_bufferSize(
-            <Handle>handle, <FillMode>uplo, n,
-            <cuComplex*>A, <int>lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZpotrf_bufferSize(
-            <Handle>handle, <FillMode>uplo, n,
-            <cuDoubleComplex*>A, <int>lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef spotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSpotrf(
-            <Handle>handle, <FillMode>uplo, n, <float*>A,
-            lda, <float*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef dpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDpotrf(
-            <Handle>handle, <FillMode>uplo, n, <double*>A,
-            lda, <double*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef cpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCpotrf(
-            <Handle>handle, <FillMode>uplo, n, <cuComplex*>A,
-            lda, <cuComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef zpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZpotrf(
-            <Handle>handle, <FillMode>uplo, n, <cuDoubleComplex*>A,
-            lda, <cuDoubleComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef spotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSpotrs(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <const float*>A, lda, <float*>B, ldb,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef dpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDpotrs(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <const double*>A, lda, <double*>B, ldb,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef cpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCpotrs(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <const cuComplex*>A, lda, <cuComplex*>B, ldb,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef zpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZpotrs(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <const cuDoubleComplex*>A, lda, <cuDoubleComplex*>B, ldb,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef spotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSpotrfBatched(
-            <Handle>handle, <FillMode>uplo, n, <float**>Aarray,
-            lda, <int*>infoArray, batchSize)
-    check_status(status)
-
-cpdef dpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDpotrfBatched(
-            <Handle>handle, <FillMode>uplo, n, <double**>Aarray,
-            lda, <int*>infoArray, batchSize)
-    check_status(status)
-
-cpdef cpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCpotrfBatched(
-            <Handle>handle, <FillMode>uplo, n, <cuComplex**>Aarray,
-            lda, <int*>infoArray, batchSize)
-    check_status(status)
-
-cpdef zpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZpotrfBatched(
-            <Handle>handle, <FillMode>uplo, n, <cuDoubleComplex**>Aarray,
-            lda, <int*>infoArray, batchSize)
-    check_status(status)
-
-cpdef spotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSpotrsBatched(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <float**>Aarray, lda, <float**>Barray, ldb,
-            <int*>devInfo, batchSize)
-    check_status(status)
-
-cpdef dpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDpotrsBatched(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <double**>Aarray, lda, <double**>Barray, ldb,
-            <int*>devInfo, batchSize)
-    check_status(status)
-
-cpdef cpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCpotrsBatched(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <cuComplex**>Aarray, lda, <cuComplex**>Barray, ldb,
-            <int*>devInfo, batchSize)
-    check_status(status)
-
-cpdef zpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZpotrsBatched(
-            <Handle>handle, <FillMode>uplo, n, nrhs,
-            <cuDoubleComplex**>Aarray, lda, <cuDoubleComplex**>Barray, ldb,
-            <int*>devInfo, batchSize)
-    check_status(status)
-
-# LU factorization
-cpdef int sgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgetrf_bufferSize(
-            <Handle>handle, m, n, <float*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgetrf_bufferSize(
-            <Handle>handle, m, n, <double*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgetrf_bufferSize(
-            <Handle>handle, m, n, <cuComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgetrf_bufferSize(
-            <Handle>handle, m, n, <cuDoubleComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef sgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgetrf(
-            <Handle>handle, m, n, <float*>A, lda,
-            <float*>work, <int*>devIpiv, <int*>devInfo)
-    check_status(status)
-
-cpdef dgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgetrf(
-            <Handle>handle, m, n, <double*>A, lda,
-            <double*>work, <int*>devIpiv, <int*>devInfo)
-    check_status(status)
-
-cpdef cgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgetrf(
-            <Handle>handle, m, n, <cuComplex*>A, lda,
-            <cuComplex*>work, <int*>devIpiv, <int*>devInfo)
-    check_status(status)
-
-cpdef zgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgetrf(
-            <Handle>handle, m, n, <cuDoubleComplex*>A, lda,
-            <cuDoubleComplex*>work, <int*>devIpiv, <int*>devInfo)
-    check_status(status)
-
-
-# LU solve
-cpdef sgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgetrs(
-            <Handle>handle, <Operation>trans, n, nrhs,
-            <const float*> A, lda, <const int*>devIpiv,
-            <float*>B, ldb, <int*> devInfo)
-    check_status(status)
-
-cpdef dgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgetrs(
-            <Handle>handle, <Operation>trans, n, nrhs,
-            <const double*> A, lda, <const int*>devIpiv,
-            <double*>B, ldb, <int*> devInfo)
-    check_status(status)
-
-cpdef cgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgetrs(
-            <Handle>handle, <Operation>trans, n, nrhs,
-            <const cuComplex*> A, lda, <const int*>devIpiv,
-            <cuComplex*>B, ldb, <int*> devInfo)
-    check_status(status)
-
-cpdef zgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgetrs(
-            <Handle>handle, <Operation>trans, n, nrhs,
-            <const cuDoubleComplex*> A, lda, <const int*>devIpiv,
-            <cuDoubleComplex*>B, ldb, <int*> devInfo)
-    check_status(status)
-
-
-# QR factorization
-cpdef int sgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgeqrf_bufferSize(
-            <Handle>handle, m, n, <float*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgeqrf_bufferSize(
-            <Handle>handle, m, n, <double*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgeqrf_bufferSize(
-            <Handle>handle, m, n, <cuComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgeqrf_bufferSize(
-            <Handle>handle, m, n, <cuDoubleComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef sgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgeqrf(
-            <Handle>handle, m, n, <float*>A, lda,
-            <float*>tau, <float*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef dgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgeqrf(
-            <Handle>handle, m, n, <double*>A, lda,
-            <double*>tau, <double*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef cgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgeqrf(
-            <Handle>handle, m, n, <cuComplex*>A, lda,
-            <cuComplex*>tau, <cuComplex*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef zgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgeqrf(
-            <Handle>handle, m, n, <cuDoubleComplex*>A, lda,
-            <cuDoubleComplex*>tau, <cuDoubleComplex*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-
-# Generate unitary matrix Q from QR factorization
-cpdef int sorgqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSorgqr_bufferSize(
-            <Handle>handle, m, n, k, <const float*>A, lda,
-            <const float*>tau, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dorgqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDorgqr_bufferSize(
-            <Handle>handle, m, n, k, <const double*>A, lda,
-            <const double*>tau, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cungqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCungqr_bufferSize(
-            <Handle>handle, m, n, k, <const cuComplex*>A, lda,
-            <const cuComplex*>tau, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zungqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZungqr_bufferSize(
-            <Handle>handle, m, n, k, <const cuDoubleComplex*>A, lda,
-            <const cuDoubleComplex*>tau, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef sorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSorgqr(
-            <Handle>handle, m, n, k, <float*>A, lda,
-            <const float*>tau, <float*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef dorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDorgqr(
-            <Handle>handle, m, n, k, <double*>A, lda,
-            <const double*>tau, <double*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef cungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCungqr(
-            <Handle>handle, m, n, k, <cuComplex*>A, lda,
-            <const cuComplex*>tau, <cuComplex*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-cpdef zungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZungqr(
-            <Handle>handle, m, n, k, <cuDoubleComplex*>A, lda,
-            <const cuDoubleComplex*>tau, <cuDoubleComplex*>work, lwork,
-            <int*>devInfo)
-    check_status(status)
-
-
-# Compute Q**T*b in solve min||A*x = b||
-cpdef int sormqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSormqr_bufferSize(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const float*>A, lda, <const float*>tau,
-            <float*>C, ldc, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dormqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDormqr_bufferSize(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const double*>A, lda, <const double*>tau,
-            <double*>C, ldc, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cunmqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCunmqr_bufferSize(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const cuComplex*>A, lda, <const cuComplex*>tau,
-            <cuComplex*>C, ldc, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zunmqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZunmqr_bufferSize(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const cuDoubleComplex*>A, lda, <const cuDoubleComplex*>tau,
-            <cuDoubleComplex*>C, ldc, &lwork)
-    check_status(status)
-    return lwork
-
-
-cpdef sormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSormqr(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const float*>A, lda, <const float*>tau,
-            <float*>C, ldc,
-            <float*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef dormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDormqr(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const double*>A, lda, <const double*>tau,
-            <double*>C, ldc,
-            <double*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef cunmqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCunmqr(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const cuComplex*>A, lda, <const cuComplex*>tau,
-            <cuComplex*>C, ldc,
-            <cuComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef zunmqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZunmqr(
-            <Handle>handle, <SideMode>side, <Operation>trans, m, n, k,
-            <const cuDoubleComplex*>A, lda, <const cuDoubleComplex*>tau,
-            <cuDoubleComplex*>C, ldc,
-            <cuDoubleComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-# (obsoleted)
-cpdef cormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    return cunmqr(handle, side, trans, m, n, k, A, lda, tau,
-                  C, ldc, work, lwork, devInfo)
-
-# (obsoleted)
-cpdef zormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau,
-             size_t C, int ldc, size_t work, int lwork, size_t devInfo):
-    return zunmqr(handle, side, trans, m, n, k, A, lda, tau,
-                  C, ldc, work, lwork, devInfo)
-
-
-# L*D*L**T,U*D*U**T factorization
-cpdef int ssytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSsytrf_bufferSize(
-            <Handle>handle, n, <float*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dsytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDsytrf_bufferSize(
-            <Handle>handle, n, <double*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int csytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCsytrf_bufferSize(
-            <Handle>handle, n, <cuComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zsytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZsytrf_bufferSize(
-            <Handle>handle, n, <cuDoubleComplex*>A, lda, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef ssytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSsytrf(
-            <Handle>handle, <FillMode>uplo, n, <float*>A, lda,
-            <int*>ipiv, <float*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef dsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDsytrf(
-            <Handle>handle, <FillMode>uplo, n, <double*>A, lda,
-            <int*>ipiv, <double*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef csytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCsytrf(
-            <Handle>handle, <FillMode>uplo, n, <cuComplex*>A, lda,
-            <int*>ipiv, <cuComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef zsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZsytrf(
-            <Handle>handle, <FillMode>uplo, n, <cuDoubleComplex*>A, lda,
-            <int*>ipiv, <cuDoubleComplex*>work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef size_t zzgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZZgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zcgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZCgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZYgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zkgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZKgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ccgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCCgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t cygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCYgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ckgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCKgesv_bufferSize(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ddgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDDgesv_bufferSize(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dsgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDSgesv_bufferSize(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDXgesv_bufferSize(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dhgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDHgesv_bufferSize(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ssgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSSgesv_bufferSize(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t sxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSXgesv_bufferSize(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t shgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSHgesv_bufferSize(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zzgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZZgesv(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zcgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZCgesv(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZYgesv(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zkgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZKgesv(
-            <Handle>handle, n, nrhs, <cuDoubleComplex*>dA, ldda, <int*>dipiv,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ccgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCCgesv(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int cygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCYgesv(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ckgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCKgesv(
-            <Handle>handle, n, nrhs, <cuComplex*>dA, ldda, <int*>dipiv,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ddgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDDgesv(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dsgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDSgesv(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDXgesv(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dhgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDHgesv(
-            <Handle>handle, n, nrhs, <double*>dA, ldda, <int*>dipiv,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ssgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSSgesv(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int sxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSXgesv(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int shgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSHgesv(
-            <Handle>handle, n, nrhs, <float*>dA, ldda, <int*>dipiv,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef size_t zzgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZZgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zcgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZCgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZYgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t zkgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZKgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ccgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCCgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t cygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCYgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ckgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCKgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ddgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDDgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dsgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDSgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDXgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t dhgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDHgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t ssgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSSgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t sxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSXgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef size_t shgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1:
-    cdef size_t lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSHgels_bufferSize(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx, <void*>dwork, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zzgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZZgels(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zcgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZCgels(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zygels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZYgels(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int zkgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZKgels(
-            <Handle>handle, m, n, nrhs, <cuDoubleComplex*>dA, ldda,
-            <cuDoubleComplex*>dB, lddb, <cuDoubleComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ccgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCCgels(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int cygels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCYgels(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ckgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCKgels(
-            <Handle>handle, m, n, nrhs, <cuComplex*>dA, ldda,
-            <cuComplex*>dB, lddb, <cuComplex*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ddgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDDgels(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dsgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDSgels(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dxgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDXgels(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int dhgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDHgels(
-            <Handle>handle, m, n, nrhs, <double*>dA, ldda,
-            <double*>dB, lddb, <double*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int ssgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSSgels(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int sxgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSXgels(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-cpdef int shgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork, size_t dInfo):
-    cdef int iter
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSHgels(
-            <Handle>handle, m, n, nrhs, <float*>dA, ldda,
-            <float*>dB, lddb, <float*>dX, lddx,
-            <void*>dwork, lwork, &iter, <int*>dInfo)
-    check_status(status)
-    return iter
-
-###############################################################################
-# Dense LAPACK Functions (Eigenvalue Solver)
-###############################################################################
-
-# Bidiagonal factorization
-cpdef int sgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgebrd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgebrd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgebrd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zgebrd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgebrd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef sgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgebrd(
-            <Handle>handle, m, n,
-            <float*>A, lda,
-            <float*>D, <float*>E,
-            <float*>tauQ, <float*>tauP,
-            <float*>Work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef dgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgebrd(
-            <Handle>handle, m, n,
-            <double*>A, lda,
-            <double*>D, <double*>E,
-            <double*>tauQ, <double*>tauP,
-            <double*>Work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef cgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgebrd(
-            <Handle>handle, m, n,
-            <cuComplex*>A, lda,
-            <float*>D, <float*>E,
-            <cuComplex*>tauQ, <cuComplex*>tauP,
-            <cuComplex*>Work, lwork, <int*>devInfo)
-    check_status(status)
-
-cpdef zgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgebrd(
-            <Handle>handle, m, n,
-            <cuDoubleComplex*>A, lda,
-            <double*>D, <double*>E,
-            <cuDoubleComplex*>tauQ, <cuDoubleComplex*>tauP,
-            <cuDoubleComplex*>Work, lwork, <int*>devInfo)
-    check_status(status)
-
-
-# Singular value decomposition, A = U * Sigma * V^H
-cpdef int sgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zgesvd_bufferSize(intptr_t handle, int m, int n) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvd_bufferSize(<Handle>handle, m, n, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef sgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvd(
-            <Handle>handle, jobu, jobvt, m, n, <float*>A, lda,
-            <float*>S, <float*>U, ldu, <float*>VT, ldvt,
-            <float*>Work, lwork, <float*>rwork, <int*>devInfo)
-    check_status(status)
-
-cpdef dgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvd(
-            <Handle>handle, jobu, jobvt, m, n, <double*>A, lda,
-            <double*>S, <double*>U, ldu, <double*>VT, ldvt,
-            <double*>Work, lwork, <double*>rwork, <int*>devInfo)
-    check_status(status)
-
-cpdef cgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvd(
-            <Handle>handle, jobu, jobvt, m, n, <cuComplex*>A, lda,
-            <float*>S, <cuComplex*>U, ldu, <cuComplex*>VT, ldvt,
-            <cuComplex*>Work, lwork, <float*>rwork, <int*>devInfo)
-    check_status(status)
-
-cpdef zgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvd(
-            <Handle>handle, jobu, jobvt, m, n, <cuDoubleComplex*>A, lda,
-            <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>VT, ldvt,
-            <cuDoubleComplex*>Work, lwork, <double*>rwork, <int*>devInfo)
-    check_status(status)
-
-# gesvdj ... Singular value decomposition using Jacobi mathod
-cpdef intptr_t createGesvdjInfo() except? 0:
-    cdef GesvdjInfo info
-    status = cusolverDnCreateGesvdjInfo(&info)
-    check_status(status)
-    return <intptr_t>info
-
-cpdef destroyGesvdjInfo(intptr_t info):
-    status = cusolverDnDestroyGesvdjInfo(<GesvdjInfo>info)
-    check_status(status)
-
-cpdef xgesvdjSetTolerance(intptr_t info, double tolerance):
-    status = cusolverDnXgesvdjSetTolerance(<GesvdjInfo>info, tolerance)
-    check_status(status)
-
-cpdef xgesvdjSetMaxSweeps(intptr_t info, int max_sweeps):
-    status = cusolverDnXgesvdjSetMaxSweeps(<GesvdjInfo>info, max_sweeps)
-    check_status(status)
-
-cpdef xgesvdjSetSortEig(intptr_t info, int sort_svd):
-    status = cusolverDnXgesvdjSetSortEig(<GesvdjInfo>info, sort_svd)
-    check_status(status)
-
-cpdef double xgesvdjGetResidual(intptr_t handle, intptr_t info):
-    cdef double residual
-    status = cusolverDnXgesvdjGetResidual(<Handle>handle, <GesvdjInfo>info,
-                                          &residual)
-    check_status(status)
-    return residual
-
-cpdef int xgesvdjGetSweeps(intptr_t handle, intptr_t info):
-    cdef int executed_sweeps
-    status = cusolverDnXgesvdjGetSweeps(<Handle>handle, <GesvdjInfo>info,
-                                        &executed_sweeps)
-    check_status(status)
-    return executed_sweeps
-
-cpdef int sgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params):
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvdj_bufferSize(
-            <Handle>handle, <EigMode>jobz, econ, m, n, <const float*>A, lda,
-            <const float*>S, <const float*>U, ldu, <const float*>V, ldv,
-            &lwork, <GesvdjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int dgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params):
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvdj_bufferSize(
-            <Handle>handle, <EigMode>jobz, econ, m, n, <const double*>A, lda,
-            <const double*>S, <const double*>U, ldu, <const double*>V, ldv,
-            &lwork, <GesvdjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int cgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params):
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvdj_bufferSize(
-            <Handle>handle, <EigMode>jobz, econ, m, n, <const cuComplex*>A,
-            lda, <const float*>S, <const cuComplex*>U, ldu,
-            <const cuComplex*>V, ldv, &lwork, <GesvdjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int zgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params):
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvdj_bufferSize(
-            <Handle>handle, <EigMode>jobz, econ, m, n,
-            <const cuDoubleComplex*>A, lda, <const double*>S,
-            <const cuDoubleComplex*>U, ldu, <const cuDoubleComplex*>V,
-            ldv, &lwork, <GesvdjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef sgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvdj(<Handle>handle, <EigMode>jobz, econ, m, n,
-                                   <float*>A, lda, <float*>S, <float*>U, ldu,
-                                   <float*>V, ldv, <float*>work, lwork,
-                                   <int*>info, <GesvdjInfo>params)
-    check_status(status)
-
-cpdef dgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvdj(<Handle>handle, <EigMode>jobz, econ, m, n,
-                                   <double*>A, lda, <double*>S, <double*>U,
-                                   ldu, <double*>V, ldv, <double*>work, lwork,
-                                   <int*>info, <GesvdjInfo>params)
-    check_status(status)
-
-cpdef cgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvdj(
-            <Handle>handle, <EigMode>jobz, econ, m, n, <cuComplex*>A, lda,
-            <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv,
-            <cuComplex*>work, lwork, <int*>info, <GesvdjInfo>params)
-    check_status(status)
-
-cpdef zgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvdj(
-            <Handle>handle, <EigMode>jobz, econ, m, n, <cuDoubleComplex*>A,
-            lda, <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V,
-            ldv, <cuDoubleComplex*>work, lwork, <int*>info, <GesvdjInfo>params)
-    check_status(status)
-
-cpdef int sgesvdjBatched_bufferSize(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t params, int batchSize) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvdjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, m, n, <float*>A, lda,
-            <float*>S, <float*>U, ldu, <float*>V, ldv, &lwork,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int dgesvdjBatched_bufferSize(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t params, int batchSize) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvdjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, m, n, <double*>A, lda,
-            <double*>S, <double*>U, ldu, <double*>V, ldv, &lwork,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int cgesvdjBatched_bufferSize(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t params, int batchSize) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvdjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, m, n, <cuComplex*>A, lda,
-            <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv, &lwork,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int zgesvdjBatched_bufferSize(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t params, int batchSize) except? -1:
-    cdef int lwork
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvdjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, m, n, <cuDoubleComplex*>A, lda,
-            <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V, ldv,
-            &lwork,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef sgesvdjBatched(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t work, int lwork, intptr_t info,
-        intptr_t params, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvdjBatched(
-            <Handle>handle, <EigMode>jobz, m, n, <float*>A, lda,
-            <float*>S, <float*>U, ldu, <float*>V, ldv,
-            <float*>work, lwork, <int*>info,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-
-cpdef dgesvdjBatched(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t work, int lwork, intptr_t info,
-        intptr_t params, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvdjBatched(
-            <Handle>handle, <EigMode>jobz, m, n, <double*>A, lda,
-            <double*>S, <double*>U, ldu, <double*>V, ldv,
-            <double*>work, lwork, <int*>info,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-
-cpdef cgesvdjBatched(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t work, int lwork, intptr_t info,
-        intptr_t params, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvdjBatched(
-            <Handle>handle, <EigMode>jobz, m, n, <cuComplex*>A, lda,
-            <float*>S, <cuComplex*>U, ldu, <cuComplex*>V, ldv,
-            <cuComplex*>work, lwork, <int*>info,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-
-cpdef zgesvdjBatched(
-        intptr_t handle, int jobz, int m, int n, intptr_t A,
-        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-        intptr_t work, int lwork, intptr_t info,
-        intptr_t params, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvdjBatched(
-            <Handle>handle, <EigMode>jobz, m, n, <cuDoubleComplex*>A, lda,
-            <double*>S, <cuDoubleComplex*>U, ldu, <cuDoubleComplex*>V, ldv,
-            <cuDoubleComplex*>work, lwork, <int*>info,
-            <GesvdjInfo>params, batchSize)
-    check_status(status)
-
-# gesvda ... Approximate singular value decomposition
-cpdef int sgesvdaStridedBatched_bufferSize(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, int batchSize):
-    cdef int lwork
-    status = cusolverDnSgesvdaStridedBatched_bufferSize(
-        <Handle>handle, <EigMode>jobz, rank, m, n, <const float*>d_A, lda,
-        strideA, <const float*>d_S, strideS, <const float*>d_U, ldu, strideU,
-        <const float*>d_V, ldv, strideV, &lwork, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int dgesvdaStridedBatched_bufferSize(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, int batchSize):
-    cdef int lwork
-    status = cusolverDnDgesvdaStridedBatched_bufferSize(
-        <Handle>handle, <EigMode>jobz, rank, m, n, <const double*>d_A, lda,
-        strideA, <const double*>d_S, strideS, <const double*>d_U, ldu, strideU,
-        <const double*>d_V, ldv, strideV, &lwork, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int cgesvdaStridedBatched_bufferSize(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, int batchSize):
-    cdef int lwork
-    status = cusolverDnCgesvdaStridedBatched_bufferSize(
-        <Handle>handle, <EigMode>jobz, rank, m, n, <const cuComplex*>d_A, lda,
-        strideA, <const float*>d_S, strideS, <const cuComplex*>d_U, ldu,
-        strideU, <const cuComplex*>d_V, ldv, strideV, &lwork, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int zgesvdaStridedBatched_bufferSize(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, int batchSize):
-    cdef int lwork
-    status = cusolverDnZgesvdaStridedBatched_bufferSize(
-        <Handle>handle, <EigMode>jobz, rank, m, n, <const cuDoubleComplex*>d_A,
-        lda, strideA, <const double*>d_S, strideS, <const cuDoubleComplex*>d_U,
-        ldu, strideU, <const cuDoubleComplex*>d_V, ldv, strideV, &lwork,
-        batchSize)
-    check_status(status)
-    return lwork
-
-cpdef sgesvdaStridedBatched(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-        intptr_t h_R_nrmF, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSgesvdaStridedBatched(
-            <Handle>handle, <EigMode>jobz, rank, m, n, <const float*>d_A, lda,
-            strideA, <float*>d_S, strideS, <float*>d_U, ldu, strideU,
-            <float*>d_V, ldv, strideV, <float*>d_work, lwork, <int*>d_info,
-            <double*>h_R_nrmF, batchSize)
-    check_status(status)
-
-cpdef dgesvdaStridedBatched(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-        intptr_t h_R_nrmF, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDgesvdaStridedBatched(
-            <Handle>handle, <EigMode>jobz, rank, m, n, <const double*>d_A, lda,
-            strideA, <double*>d_S, strideS, <double*>d_U, ldu, strideU,
-            <double*>d_V, ldv, strideV, <double*>d_work, lwork, <int*>d_info,
-            <double*>h_R_nrmF, batchSize)
-    check_status(status)
-
-cpdef cgesvdaStridedBatched(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-        intptr_t h_R_nrmF, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCgesvdaStridedBatched(
-            <Handle>handle, <EigMode>jobz, rank, m, n, <const cuComplex*>d_A,
-            lda, strideA, <float*>d_S, strideS, <cuComplex*>d_U, ldu, strideU,
-            <cuComplex*>d_V, ldv, strideV, <cuComplex*>d_work, lwork,
-            <int*>d_info, <double*>h_R_nrmF, batchSize)
-    check_status(status)
-
-cpdef zgesvdaStridedBatched(
-        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-        int lda, long long int strideA, intptr_t d_S, long long int strideS,
-        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-        intptr_t h_R_nrmF, int batchSize):
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZgesvdaStridedBatched(
-            <Handle>handle, <EigMode>jobz, rank, m, n,
-            <const cuDoubleComplex*>d_A, lda, strideA, <double*>d_S, strideS,
-            <cuDoubleComplex*>d_U, ldu, strideU, <cuDoubleComplex*>d_V, ldv,
-            strideV, <cuDoubleComplex*>d_work, lwork, <int*>d_info,
-            <double*>h_R_nrmF, batchSize)
-    check_status(status)
-
-# Standard symmetric eigenvalue solver
-cpdef int ssyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1:
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSsyevd_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const float*>A,
-            lda, <const float*>W, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int dsyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1:
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDsyevd_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const double*>A,
-            lda, <const double*>W, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int cheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1:
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCheevd_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuComplex*>A,
-            lda, <const float*>W, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef int zheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1:
-    cdef int lwork, status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZheevd_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuDoubleComplex*>A,
-            lda, <const double*>W, &lwork)
-    check_status(status)
-    return lwork
-
-cpdef ssyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info):
-    cdef int status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnSsyevd(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <float*>A, lda, <float*>W,
-            <float*>work, lwork, <int*>info)
-    check_status(status)
-
-cpdef dsyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info):
-    cdef int status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnDsyevd(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <double*>A, lda, <double*>W,
-            <double*>work, lwork, <int*>info)
-    check_status(status)
-
-cpdef cheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info):
-    cdef int status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnCheevd(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuComplex*>A, lda, <float*>W,
-            <cuComplex*>work, lwork, <int*>info)
-    check_status(status)
-
-cpdef zheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info):
-    cdef int status
-    _setStream(handle)
-    with nogil:
-        status = cusolverDnZheevd(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuDoubleComplex*>A, lda, <double*>W,
-            <cuDoubleComplex*>work, lwork, <int*>info)
-    check_status(status)
-
-# Symmetric eigenvalue solver via Jacobi method
-cpdef intptr_t createSyevjInfo() except? 0:
-    cdef SyevjInfo info
-    status = cusolverDnCreateSyevjInfo(&info)
-    check_status(status)
-    return <intptr_t>info
-
-cpdef destroySyevjInfo(intptr_t info):
-    status = cusolverDnDestroySyevjInfo(<SyevjInfo>info)
-    check_status(status)
-
-cpdef xsyevjSetTolerance(intptr_t info, double tolerance):
-    status = cusolverDnXsyevjSetTolerance(<SyevjInfo>info, tolerance)
-    check_status(status)
-
-cpdef xsyevjSetMaxSweeps(intptr_t info, int max_sweeps):
-    status = cusolverDnXsyevjSetMaxSweeps(<SyevjInfo>info, max_sweeps)
-    check_status(status)
-
-cpdef xsyevjSetSortEig(intptr_t info, int sort_eig):
-    status = cusolverDnXsyevjSetSortEig(<SyevjInfo>info, sort_eig)
-    check_status(status)
-
-cpdef double xsyevjGetResidual(intptr_t handle, intptr_t info):
-    cdef double residual
-    status = cusolverDnXsyevjGetResidual(
-        <Handle>handle, <SyevjInfo>info, &residual)
-    check_status(status)
-    return residual
-
-cpdef int xsyevjGetSweeps(intptr_t handle, intptr_t info):
-    cdef int executed_sweeps
-    status = cusolverDnXsyevjGetSweeps(
-        <Handle>handle, <SyevjInfo>info, &executed_sweeps)
-    check_status(status)
-    return executed_sweeps
-
-cpdef int ssyevj_bufferSize(intptr_t handle, int jobz, int uplo,
-                            int n, size_t A, int lda, size_t W,
-                            intptr_t params) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSsyevj_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const float*>A,
-            lda, <const float*>W, &lwork, <SyevjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int dsyevj_bufferSize(intptr_t handle, int jobz, int uplo,
-                            int n, size_t A, int lda, size_t W,
-                            intptr_t params) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDsyevj_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const double*>A,
-            lda, <const double*>W, &lwork, <SyevjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int cheevj_bufferSize(intptr_t handle, int jobz, int uplo,
-                            int n, size_t A, int lda, size_t W,
-                            intptr_t params) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCheevj_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuComplex*>A,
-            lda, <const float*>W, &lwork, <SyevjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef int zheevj_bufferSize(intptr_t handle, int jobz, int uplo,
-                            int n, size_t A, int lda, size_t W,
-                            intptr_t params) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZheevj_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuDoubleComplex*>A,
-            lda, <const double*>W, &lwork, <SyevjInfo>params)
-    check_status(status)
-    return lwork
-
-cpdef ssyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSsyevj(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <float*>A, lda, <float*>W,
-            <float*>work, lwork, <int*>info, <SyevjInfo>params)
-    check_status(status)
-
-cpdef dsyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDsyevj(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <double*>A, lda, <double*>W,
-            <double*>work, lwork, <int*>info, <SyevjInfo>params)
-    check_status(status)
-
-cpdef cheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCheevj(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuComplex*>A, lda, <float*>W,
-            <cuComplex*>work, lwork, <int*>info, <SyevjInfo>params)
-    check_status(status)
-
-cpdef zheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZheevj(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuDoubleComplex*>A, lda, <double*>W,
-            <cuDoubleComplex*>work, lwork, <int*>info, <SyevjInfo>params)
-    check_status(status)
-
-# Batched symmetric eigenvalue solver via Jacobi method
-
-cpdef int ssyevjBatched_bufferSize(
-        intptr_t handle, int jobz, int uplo, int n,
-        size_t A, int lda, size_t W, intptr_t params,
-        int batchSize) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSsyevjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const float *>A, lda, <const float *>W, &lwork,
-            <SyevjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int dsyevjBatched_bufferSize(
-        intptr_t handle, int jobz, int uplo, int n,
-        size_t A, int lda, size_t W, intptr_t params,
-        int batchSize) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDsyevjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const double *>A, lda, <const double *>W, &lwork,
-            <SyevjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int cheevjBatched_bufferSize(
-        intptr_t handle, int jobz, int uplo, int n,
-        size_t A, int lda, size_t W, intptr_t params,
-        int batchSize) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCheevjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuComplex *>A, lda, <const float *>W, &lwork,
-            <SyevjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef int zheevjBatched_bufferSize(
-        intptr_t handle, int jobz, int uplo, int n,
-        size_t A, int lda, size_t W, intptr_t params,
-        int batchSize) except? -1:
-    cdef int lwork, status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZheevjBatched_bufferSize(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <const cuDoubleComplex *>A, lda, <const double *>W, &lwork,
-            <SyevjInfo>params, batchSize)
-    check_status(status)
-    return lwork
-
-cpdef ssyevjBatched(intptr_t handle, int jobz, int uplo, int n,
-                    size_t A, int lda, size_t W, size_t work, int lwork,
-                    size_t info, intptr_t params, int batchSize):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnSsyevjBatched(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <float*>A, lda, <float*>W,
-            <float*>work, lwork, <int*>info, <SyevjInfo>params, batchSize)
-    check_status(status)
-
-cpdef dsyevjBatched(intptr_t handle, int jobz, int uplo, int n,
-                    size_t A, int lda, size_t W, size_t work, int lwork,
-                    size_t info, intptr_t params, int batchSize):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnDsyevjBatched(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <double*>A, lda, <double*>W,
-            <double*>work, lwork, <int*>info, <SyevjInfo>params, batchSize)
-    check_status(status)
-
-cpdef cheevjBatched(intptr_t handle, int jobz, int uplo, int n,
-                    size_t A, int lda, size_t W, size_t work, int lwork,
-                    size_t info, intptr_t params, int batchSize):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnCheevjBatched(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuComplex*>A, lda, <float*>W,
-            <cuComplex*>work, lwork, <int*>info, <SyevjInfo>params, batchSize)
-    check_status(status)
-
-cpdef zheevjBatched(intptr_t handle, int jobz, int uplo, int n,
-                    size_t A, int lda, size_t W, size_t work, int lwork,
-                    size_t info, intptr_t params, int batchSize):
-    cdef int status
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnZheevjBatched(
-            <Handle>handle, <EigMode>jobz, <FillMode>uplo, n,
-            <cuDoubleComplex*>A, lda, <double*>W,
-            <cuDoubleComplex*>work, lwork, <int*>info,
-            <SyevjInfo>params, batchSize)
-    check_status(status)
-
-# dense eigenvalue solver (64bit)
-cpdef (size_t, size_t) xsyevd_bufferSize(  # noqa
-        intptr_t handle, intptr_t params, int jobz, int uplo,
-        int64_t n, int dataTypeA, intptr_t A, int64_t lda,
-        int dataTypeW, intptr_t W, int computeType) except *:
-    cdef size_t workspaceInBytesOnDevice, workspaceInBytesOnHost
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnXsyevd_bufferSize(
-            <Handle>handle, <Params>params, <EigMode> jobz, <FillMode> uplo, n,
-            <DataType>dataTypeA, <void*>A, lda,
-            <DataType>dataTypeW, <void*>W, <DataType>computeType,
-            &workspaceInBytesOnDevice, &workspaceInBytesOnHost)
-    check_status(status)
-    return workspaceInBytesOnDevice, workspaceInBytesOnHost
-
-cpdef xsyevd(
-        intptr_t handle, intptr_t params, int jobz, int uplo,
-        int64_t n, int dataTypeA, intptr_t A, int64_t lda,
-        int dataTypeW, intptr_t W, int computeType, intptr_t bufferOnDevice,
-        size_t workspaceInBytesOnDevice, intptr_t bufferOnHost,
-        size_t workspaceInBytesOnHost, intptr_t info):
-    setStream(handle, stream_module.get_current_stream_ptr())
-    with nogil:
-        status = cusolverDnXsyevd(
-            <Handle>handle, <Params>params, <EigMode>jobz, <FillMode>uplo, n,
-            <DataType>dataTypeA, <void*>A, lda,
-            <DataType>dataTypeW, <void*>W, <DataType>computeType,
-            <void*>bufferOnDevice, workspaceInBytesOnDevice,
-            <void*>bufferOnHost, workspaceInBytesOnHost, <int*>info)
-    check_status(status)
-
-
-###############################################################################
-# Sparse LAPACK Functions
-###############################################################################
-cpdef scsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                  size_t b, float tol, int reorder, size_t x,
-                  size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpScsrlsvchol(
-            <SpHandle>handle, m, nnz, <const MatDescr> descrA,
-            <const float*> csrValA, <const int*> csrRowPtrA,
-            <const int*> csrColIndA, <const float*> b,
-            tol, reorder, <float*> x, <int*> singularity)
-    check_status(status)
-
-cpdef dcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                  size_t b, double tol, int reorder, size_t x,
-                  size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpDcsrlsvchol(
-            <SpHandle>handle, m, nnz, <const MatDescr> descrA,
-            <const double*> csrValA, <const int*> csrRowPtrA,
-            <const int*> csrColIndA, <const double*> b,
-            tol, reorder, <double*> x, <int*> singularity)
-    check_status(status)
-
-cpdef ccsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrVal, size_t csrRowPtr, size_t csrColInd, size_t b,
-                  float tol, int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpCcsrlsvchol(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuComplex*>csrVal, <const int*>csrRowPtr,
-            <const int*>csrColInd, <const cuComplex*>b, tol, reorder,
-            <cuComplex*>x, <int*>singularity)
-    check_status(status)
-
-cpdef zcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrVal, size_t csrRowPtr, size_t csrColInd, size_t b,
-                  double tol, int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpZcsrlsvchol(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuDoubleComplex*>csrVal, <const int*>csrRowPtr,
-            <const int*>csrColInd, <const cuDoubleComplex*>b, tol, reorder,
-            <cuDoubleComplex*>x, <int*>singularity)
-    check_status(status)
-
-cpdef scsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrValA,
-                size_t csrRowPtrA, size_t csrColIndA, size_t b, float tol,
-                int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpScsrlsvqr(
-            <SpHandle>handle, m, nnz, <const MatDescr> descrA,
-            <const float*> csrValA, <const int*> csrRowPtrA,
-            <const int*> csrColIndA, <const float*> b,
-            tol, reorder, <float*> x, <int*> singularity)
-    check_status(status)
-
-cpdef dcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrValA,
-                size_t csrRowPtrA, size_t csrColIndA, size_t b, double tol,
-                int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpDcsrlsvqr(
-            <SpHandle>handle, m, nnz, <const MatDescr> descrA,
-            <const double*> csrValA, <const int*> csrRowPtrA,
-            <const int*> csrColIndA, <const double*> b,
-            tol, reorder, <double*> x, <int*> singularity)
-    check_status(status)
-
-cpdef ccsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrVal,
-                size_t csrRowPtr, size_t csrColInd, size_t b, float tol,
-                int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpCcsrlsvqr(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuComplex*>csrVal, <const int*>csrRowPtr,
-            <const int*>csrColInd, <const cuComplex*>b, tol, reorder,
-            <cuComplex*>x, <int*>singularity)
-    check_status(status)
-
-cpdef zcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrVal,
-                size_t csrRowPtr, size_t csrColInd, size_t b, double tol,
-                int reorder, size_t x, size_t singularity):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpZcsrlsvqr(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuDoubleComplex*>csrVal, <const int*>csrRowPtr,
-            <const int*>csrColInd, <const cuDoubleComplex*>b, tol, reorder,
-            <cuDoubleComplex*>x, <int*>singularity)
-    check_status(status)
-
-cpdef scsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 float mu0, size_t x0, int maxite, float eps, size_t mu,
-                 size_t x):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpScsreigvsi(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const float*>csrValA, <const int*>csrRowPtrA,
-            <const int*>csrColIndA, mu0, <const float*>x0, maxite, eps,
-            <float*>mu, <float*>x)
-    check_status(status)
-
-cpdef dcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 double mu0, size_t x0, int maxite, double eps, size_t mu,
-                 size_t x):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpDcsreigvsi(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const double*>csrValA, <const int*>csrRowPtrA,
-            <const int*>csrColIndA, mu0, <const double*>x0, maxite, eps,
-            <double*>mu, <double*>x)
-    check_status(status)
-
-cpdef ccsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 size_t mu0, size_t x0, int maxite, float eps, size_t mu,
-                 size_t x):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpCcsreigvsi(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuComplex*>csrValA, <const int*>csrRowPtrA,
-            <const int*>csrColIndA, (<cuComplex*>mu0)[0], <const cuComplex*>x0,
-            maxite, eps, <cuComplex*>mu, <cuComplex*>x)
-    check_status(status)
-
-cpdef zcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 size_t mu0, size_t x0, int maxite, double eps, size_t mu,
-                 size_t x):
-    cdef int status
-    _spSetStream(handle)
-    with nogil:
-        status = cusolverSpZcsreigvsi(
-            <SpHandle>handle, m, nnz, <const MatDescr>descrA,
-            <const cuDoubleComplex*>csrValA, <const int*>csrRowPtrA,
-            <const int*>csrColIndA, (<cuDoubleComplex*>mu0)[0],
-            <const cuDoubleComplex*>x0, maxite,
-            eps, <cuDoubleComplex*>mu, <cuDoubleComplex*>x)
-    check_status(status)
+    cpdef scsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                      size_t b, float tol, int reorder, size_t x,
+                      size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpScsrlsvchol(
+                <SpHandle>handle, m, nnz, <const MatDescr> descrA,
+                <const float*> csrValA, <const int*> csrRowPtrA,
+                <const int*> csrColIndA, <const float*> b,
+                tol, reorder, <float*> x, <int*> singularity)
+        check_status(status)
+
+    cpdef dcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                      size_t b, double tol, int reorder, size_t x,
+                      size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpDcsrlsvchol(
+                <SpHandle>handle, m, nnz, <const MatDescr> descrA,
+                <const double*> csrValA, <const int*> csrRowPtrA,
+                <const int*> csrColIndA, <const double*> b,
+                tol, reorder, <double*> x, <int*> singularity)
+        check_status(status)
+
+    cpdef ccsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                      size_t b,
+                      float tol, int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpCcsrlsvchol(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuComplex*>csrVal, <const int*>csrRowPtr,
+                <const int*>csrColInd, <const cuComplex*>b, tol, reorder,
+                <cuComplex*>x, <int*>singularity)
+        check_status(status)
+
+    cpdef zcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                      size_t b,
+                      double tol, int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpZcsrlsvchol(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuDoubleComplex*>csrVal, <const int*>csrRowPtr,
+                <const int*>csrColInd, <const cuDoubleComplex*>b, tol, reorder,
+                <cuDoubleComplex*>x, <int*>singularity)
+        check_status(status)
+
+    cpdef scsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrValA,
+                    size_t csrRowPtrA, size_t csrColIndA, size_t b, float tol,
+                    int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpScsrlsvqr(
+                <SpHandle>handle, m, nnz, <const MatDescr> descrA,
+                <const float*> csrValA, <const int*> csrRowPtrA,
+                <const int*> csrColIndA, <const float*> b,
+                tol, reorder, <float*> x, <int*> singularity)
+        check_status(status)
+
+    cpdef dcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrValA,
+                    size_t csrRowPtrA, size_t csrColIndA, size_t b, double tol,
+                    int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpDcsrlsvqr(
+                <SpHandle>handle, m, nnz, <const MatDescr> descrA,
+                <const double*> csrValA, <const int*> csrRowPtrA,
+                <const int*> csrColIndA, <const double*> b,
+                tol, reorder, <double*> x, <int*> singularity)
+        check_status(status)
+
+    cpdef ccsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrVal,
+                    size_t csrRowPtr, size_t csrColInd, size_t b, float tol,
+                    int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpCcsrlsvqr(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuComplex*>csrVal, <const int*>csrRowPtr,
+                <const int*>csrColInd, <const cuComplex*>b, tol, reorder,
+                <cuComplex*>x, <int*>singularity)
+        check_status(status)
+
+    cpdef zcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrVal,
+                    size_t csrRowPtr, size_t csrColInd, size_t b, double tol,
+                    int reorder, size_t x, size_t singularity):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpZcsrlsvqr(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuDoubleComplex*>csrVal, <const int*>csrRowPtr,
+                <const int*>csrColInd, <const cuDoubleComplex*>b, tol, reorder,
+                <cuDoubleComplex*>x, <int*>singularity)
+        check_status(status)
+
+    cpdef scsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     float mu0, size_t x0, int maxite, float eps, size_t mu,
+                     size_t x):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpScsreigvsi(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const float*>csrValA, <const int*>csrRowPtrA,
+                <const int*>csrColIndA, mu0, <const float*>x0, maxite, eps,
+                <float*>mu, <float*>x)
+        check_status(status)
+
+    cpdef dcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     double mu0, size_t x0, int maxite, double eps, size_t mu,
+                     size_t x):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpDcsreigvsi(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const double*>csrValA, <const int*>csrRowPtrA,
+                <const int*>csrColIndA, mu0, <const double*>x0, maxite, eps,
+                <double*>mu, <double*>x)
+        check_status(status)
+
+    cpdef ccsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     size_t mu0, size_t x0, int maxite, float eps, size_t mu,
+                     size_t x):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpCcsreigvsi(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuComplex*>csrValA, <const int*>csrRowPtrA,
+                <const int*>csrColIndA, (<cuComplex*>mu0)[0],
+                <const cuComplex*>x0,
+                maxite, eps, <cuComplex*>mu, <cuComplex*>x)
+        check_status(status)
+
+    cpdef zcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     size_t mu0, size_t x0, int maxite, double eps, size_t mu,
+                     size_t x):
+        cdef int status
+        _spSetStream(handle)
+        with nogil:
+            status = cusolverSpZcsreigvsi(
+                <SpHandle>handle, m, nnz, <const MatDescr>descrA,
+                <const cuDoubleComplex*>csrValA, <const int*>csrRowPtrA,
+                <const int*>csrColIndA, (<cuDoubleComplex*>mu0)[0],
+                <const cuDoubleComplex*>x0, maxite,
+                eps, <cuDoubleComplex*>mu, <cuDoubleComplex*>x)
+        check_status(status)

From 587dd2d0cee6f2a446ead9d0b567032be51bc452 Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 18:52:40 +0000
Subject: [PATCH 10/49] changes from
 https://github.com/ROCmSoftwarePlatform/cupy/blob/rocm6.0_internal_testing/cupy_backends/cuda/libs/cusolver.pxd

---
 cupy_backends/cuda/libs/cusolver.pxd | 1470 ++++++++++++++------------
 1 file changed, 772 insertions(+), 698 deletions(-)

diff --git a/cupy_backends/cuda/libs/cusolver.pxd b/cupy_backends/cuda/libs/cusolver.pxd
index c88507e6e31..a58ea292792 100644
--- a/cupy_backends/cuda/libs/cusolver.pxd
+++ b/cupy_backends/cuda/libs/cusolver.pxd
@@ -1,7 +1,8 @@
 """Thin wrapper of CUSOLVER."""
 from libc.stdint cimport intptr_t, int64_t
 
-cpdef _get_cuda_build_version()
+IF CUPY_HIP_VERSION == 0:
+    cpdef _get_cuda_build_version()
 
 ###############################################################################
 # Types
@@ -15,18 +16,26 @@ cdef extern from *:
     ctypedef void* SpHandle 'cusolverSpHandle_t'
 
     ctypedef void* Params 'cusolverDnParams_t'
-
-    ctypedef int Operation 'cublasOperation_t'
-    ctypedef int SideMode 'cublasSideMode_t'
-    ctypedef int FillMode 'cublasFillMode_t'
+    IF CUPY_HIP_VERSION != 0:
+        ctypedef int Operation 'hipsolverOperation_t'
+        ctypedef int SideMode 'hipsolverSideMode_t'
+        ctypedef int FillMode 'hipsolverFillMode_t'
+    ELSE:
+        ctypedef int Operation 'cublasOperation_t'
+        ctypedef int SideMode 'cublasSideMode_t'
+        ctypedef int FillMode 'cublasFillMode_t'
 
     ctypedef int EigType 'cusolverEigType_t'
     ctypedef int EigMode 'cusolverEigMode_t'
 
     ctypedef void* MatDescr 'cusparseMatDescr_t'
 
-    ctypedef void* cuComplex 'cuComplex'
-    ctypedef void* cuDoubleComplex 'cuDoubleComplex'
+    IF CUPY_HIP_VERSION != 0:
+        ctypedef void* cuComplex 'hipComplex'
+        ctypedef void* cuDoubleComplex 'hipDoubleComplex'
+    ELSE:
+        ctypedef void* cuComplex 'cuComplex'
+        ctypedef void* cuDoubleComplex 'cuDoubleComplex'
 
     ctypedef void* GesvdjInfo 'gesvdjInfo_t'
     ctypedef void* SyevjInfo 'syevjInfo_t'
@@ -34,694 +43,759 @@ cdef extern from *:
 ###############################################################################
 # Enum
 ###############################################################################
-
-cpdef enum:
-    CUSOLVER_EIG_TYPE_1 = 1
-    CUSOLVER_EIG_TYPE_2 = 2
-    CUSOLVER_EIG_TYPE_3 = 3
-
-    CUSOLVER_EIG_MODE_NOVECTOR = 0
-    CUSOLVER_EIG_MODE_VECTOR = 1
-
-###############################################################################
-# Library Attributes
-###############################################################################
-
-cpdef int getProperty(int type) except? -1
-cpdef tuple _getVersion()
-
-###############################################################################
-# Context
-###############################################################################
-
-cpdef intptr_t create() except? 0
-cpdef intptr_t spCreate() except? 0
-cpdef destroy(intptr_t handle)
-cpdef spDestroy(intptr_t handle)
-
-###############################################################################
-# Stream
-###############################################################################
-
-cpdef setStream(intptr_t handle, size_t stream)
-cpdef size_t getStream(intptr_t handle) except? 0
-
-###############################################################################
-# Dense LAPACK Functions (Linear Solver)
-###############################################################################
-
-# Cholesky factorization
-cpdef int spotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1
-cpdef int dpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1
-cpdef int cpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1
-cpdef int zpotrf_bufferSize(intptr_t handle, int uplo,
-                            int n, size_t A, int lda) except? -1
-
-cpdef spotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo)
-cpdef dpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo)
-cpdef cpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo)
-cpdef zpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t work, int lwork, size_t devInfo)
-
-cpdef spotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo)
-cpdef dpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo)
-cpdef cpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo)
-cpdef zpotrs(intptr_t handle, int uplo, int n, int nrhs,
-             size_t A, int lda, size_t B, int ldb, size_t devInfo)
-
-cpdef spotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize)
-cpdef dpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize)
-cpdef cpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize)
-cpdef zpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray, int lda,
-                    size_t infoArray, int batchSize)
-
-cpdef spotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize)
-cpdef dpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize)
-cpdef cpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize)
-cpdef zpotrsBatched(intptr_t handle, int uplo, int n, int nrhs, size_t Aarray,
-                    int lda, size_t Barray, int ldb, size_t devInfo,
-                    int batchSize)
-
-# LU factorization
-cpdef int sgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int dgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int cgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int zgetrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-
-cpdef sgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo)
-cpdef dgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo)
-cpdef cgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo)
-cpdef zgetrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t work, size_t devIpiv, size_t devInfo)
-
-# TODO(anaruse): laswp
-
-# LU solve
-cpdef sgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo)
-cpdef dgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo)
-cpdef cgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo)
-cpdef zgetrs(intptr_t handle, int trans, int n, int nrhs,
-             size_t A, int lda, size_t devIpiv,
-             size_t B, int ldb, size_t devInfo)
-
-# QR factorization
-cpdef int sgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int dgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int cgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-cpdef int zgeqrf_bufferSize(intptr_t handle, int m, int n,
-                            size_t A, int lda) except? -1
-
-cpdef sgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef dgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef cgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef zgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-
-# Generate unitary matrix Q from QR factorization
-cpdef int sorgqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1
-cpdef int dorgqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1
-cpdef int cungqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1
-cpdef int zungqr_bufferSize(intptr_t handle, int m, int n, int k,
-                            size_t A, int lda, size_t tau) except? -1
-
-cpdef sorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef dorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef cungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-cpdef zungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
-             size_t tau, size_t work, int lwork, size_t devInfo)
-
-# Compute Q**T*b in solve min||A*x = b||
-cpdef int sormqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1
-cpdef int dormqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1
-cpdef int cunmqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1
-cpdef int zunmqr_bufferSize(intptr_t handle, int side, int trans,
-                            int m, int n, int k, size_t A, int lda, size_t tau,
-                            size_t C, int ldc) except? -1
-
-cpdef sormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)
-cpdef dormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)
-cpdef cunmqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)
-cpdef zunmqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)
-cpdef cormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)  # (obsoleted)
-cpdef zormqr(intptr_t handle, int side, int trans,
-             int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
-             int ldc, size_t work, int lwork, size_t devInfo)  # (obsoleted)
-
-# L*D*L**T,U*D*U**T factorization
-cpdef int ssytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1
-cpdef int dsytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1
-cpdef int csytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1
-cpdef int zsytrf_bufferSize(intptr_t handle, int n, size_t A,
-                            int lda) except? -1
-
-cpdef ssytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo)
-cpdef dsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo)
-cpdef csytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo)
-cpdef zsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
-             size_t ipiv, size_t work, int lwork, size_t devInfo)
-
-# Solve A * X = B using iterative refinement
-cpdef size_t zzgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zcgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zkgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ccgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t cygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ckgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ddgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dsgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dhgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ssgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t sxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t shgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
-                               int ldda, size_t dipiv, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-
-cpdef int zzgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zcgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zkgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ccgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ckgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int cygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ddgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dsgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dhgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ssgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int sxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int shgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
-                 size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-
-# Compute least-saure solution of A * X = B using iterative refinement
-cpdef size_t zzgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zcgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t zkgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ccgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t cygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ckgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ddgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dsgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t dhgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t ssgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t sxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-cpdef size_t shgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
-                               size_t dA, int ldda, size_t dB, int lddb,
-                               size_t dX, int lddx, size_t dwork) except? -1
-
-cpdef int zzgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zcgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zygels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int zkgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ccgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ckgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int cygels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ddgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dsgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dxgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int dhgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int ssgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int sxgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-cpdef int shgels(intptr_t handle, int m, int n, int nrhs, size_t dA, int ldda,
-                 size_t dB, int lddb, size_t dX, int lddx,
-                 size_t dwork, size_t lwork_bytes, size_t dInfo)
-
-###############################################################################
-# Dense LAPACK Functions (Eigenvalue Solver)
-###############################################################################
-
-# Bidiagonal factorization
-cpdef int sgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int dgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int cgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int zgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
-
-cpdef sgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo)
-cpdef dgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo)
-cpdef cgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo)
-cpdef zgebrd(intptr_t handle, int m, int n, size_t A, int lda,
-             size_t D, size_t E, size_t tauQ, size_t tauP,
-             size_t Work, int lwork, size_t devInfo)
-
-# TODO(anaruse): orgbr/ungbr, sytrd/hetrd, orgtr/ungtr, ormtr/unmtr
-
-# Singular value decomposition, A = U * Sigma * V^H
-cpdef int sgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int dgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int cgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
-cpdef int zgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
-
-cpdef sgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo)
-cpdef dgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo)
-cpdef cgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo)
-cpdef zgesvd(intptr_t handle, char jobu, char jobvt, int m, int n, size_t A,
-             int lda, size_t S, size_t U, int ldu, size_t VT, int ldvt,
-             size_t Work, int lwork, size_t rwork, size_t devInfo)
-
-# gesvdj ... Singular value decomposition using Jacobi mathod
-cpdef intptr_t createGesvdjInfo() except? 0
-cpdef destroyGesvdjInfo(intptr_t info)
-
-cpdef xgesvdjSetTolerance(intptr_t info, double tolerance)
-cpdef xgesvdjSetMaxSweeps(intptr_t info, int max_sweeps)
-cpdef xgesvdjSetSortEig(intptr_t info, int sort_svd)
-cpdef double xgesvdjGetResidual(intptr_t handle, intptr_t info)
-cpdef int xgesvdjGetSweeps(intptr_t handle, intptr_t info)
-
-cpdef int sgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params)
-cpdef int dgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params)
-cpdef int cgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params)
-cpdef int zgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m, int n,
-                             intptr_t A, int lda, intptr_t S, intptr_t U,
-                             int ldu, intptr_t V, int ldv, intptr_t params)
-
-cpdef sgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params)
-cpdef dgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params)
-cpdef cgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params)
-cpdef zgesvdj(intptr_t handle, int jobz, int econ, int m, int n, intptr_t A,
-              int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-              intptr_t work, int lwork, intptr_t info, intptr_t params)
-
-cpdef int sgesvdjBatched_bufferSize(
-    intptr_t handle, int jobz, int m, int n,
-    intptr_t A, int lda, intptr_t S, intptr_t U,
-    int ldu, intptr_t V, int ldv, intptr_t params,
-    int batchSize) except? -1
-cpdef int dgesvdjBatched_bufferSize(
-    intptr_t handle, int jobz, int m, int n,
-    intptr_t A, int lda, intptr_t S, intptr_t U,
-    int ldu, intptr_t V, int ldv, intptr_t params,
-    int batchSize) except? -1
-cpdef int cgesvdjBatched_bufferSize(
-    intptr_t handle, int jobz, int m, int n,
-    intptr_t A, int lda, intptr_t S, intptr_t U,
-    int ldu, intptr_t V, int ldv, intptr_t params,
-    int batchSize) except? -1
-cpdef int zgesvdjBatched_bufferSize(
-    intptr_t handle, int jobz, int m, int n,
-    intptr_t A, int lda, intptr_t S, intptr_t U,
-    int ldu, intptr_t V, int ldv, intptr_t params,
-    int batchSize) except? -1
-
-cpdef sgesvdjBatched(
-    intptr_t handle, int jobz, int m, int n, intptr_t A,
-    int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-    intptr_t work, int lwork, intptr_t info, intptr_t params, int batchSize)
-cpdef dgesvdjBatched(
-    intptr_t handle, int jobz, int m, int n, intptr_t A,
-    int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-    intptr_t work, int lwork, intptr_t info, intptr_t params, int batchSize)
-cpdef cgesvdjBatched(
-    intptr_t handle, int jobz, int m, int n, intptr_t A,
-    int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-    intptr_t work, int lwork, intptr_t info, intptr_t params, int batchSize)
-cpdef zgesvdjBatched(
-    intptr_t handle, int jobz, int m, int n, intptr_t A,
-    int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
-    intptr_t work, int lwork, intptr_t info, intptr_t params, int batchSize)
-
-# gesvda ... Approximate singular value decomposition
-cpdef int sgesvdaStridedBatched_bufferSize(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, int batchSize)
-cpdef int dgesvdaStridedBatched_bufferSize(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, int batchSize)
-cpdef int cgesvdaStridedBatched_bufferSize(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, int batchSize)
-cpdef int zgesvdaStridedBatched_bufferSize(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, int batchSize)
-
-cpdef sgesvdaStridedBatched(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-    intptr_t h_R_nrmF, int batchSize)
-cpdef dgesvdaStridedBatched(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-    intptr_t h_R_nrmF, int batchSize)
-cpdef cgesvdaStridedBatched(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-    intptr_t h_R_nrmF, int batchSize)
-cpdef zgesvdaStridedBatched(
-    intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
-    int lda, long long int strideA, intptr_t d_S, long long int strideS,
-    intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
-    long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
-    intptr_t h_R_nrmF, int batchSize)
-
-# Standard symmetric eigenvalue solver
-cpdef int ssyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1
-cpdef int dsyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1
-cpdef int cheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1
-cpdef int zheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
-                            size_t A, int lda, size_t W) except? -1
-
-cpdef ssyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info)
-cpdef dsyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info)
-cpdef cheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info)
-cpdef zheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info)
-
-# TODO(anaruse); sygvd/hegvd, sygvd/hegvd
-
-# syevj ... Symmetric eigenvalue solver via Jacobi method
-cpdef intptr_t createSyevjInfo() except? 0
-cpdef destroySyevjInfo(intptr_t info)
-
-cpdef xsyevjSetTolerance(intptr_t info, double tolerance)
-cpdef xsyevjSetMaxSweeps(intptr_t info, int max_sweeps)
-cpdef xsyevjSetSortEig(intptr_t info, int sort_eig)
-cpdef double xsyevjGetResidual(intptr_t handle, intptr_t info)
-cpdef int xsyevjGetSweeps(intptr_t handle, intptr_t info)
-
-cpdef int ssyevj_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params) except? -1
-cpdef int dsyevj_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params) except? -1
-cpdef int cheevj_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params) except? -1
-cpdef int zheevj_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params) except? -1
-cpdef ssyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params)
-cpdef dsyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params)
-cpdef cheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params)
-cpdef zheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-             size_t W, size_t work, int lwork, size_t info, intptr_t params)
-
-cpdef int ssyevjBatched_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
-cpdef int dsyevjBatched_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
-cpdef int cheevjBatched_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
-cpdef int zheevjBatched_bufferSize(
-    intptr_t handle, int jobz, int uplo, int n,
-    size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
-cpdef ssyevjBatched(
-    intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-    size_t W, size_t work, int lwork, size_t info, intptr_t params,
-    int batchSize)
-cpdef dsyevjBatched(
-    intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-    size_t W, size_t work, int lwork, size_t info, intptr_t params,
-    int batchSize)
-cpdef cheevjBatched(
-    intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-    size_t W, size_t work, int lwork, size_t info, intptr_t params,
-    int batchSize)
-cpdef zheevjBatched(
-    intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
-    size_t W, size_t work, int lwork, size_t info, intptr_t params,
-    int batchSize)
-
-# dense eigenvalue solver (64bit)
-cpdef (size_t, size_t) xsyevd_bufferSize(  # noqa
-    intptr_t handle, intptr_t params, int jobz, int uplo,
-    int64_t n, int dataTypeA, intptr_t A, int64_t lda,
-    int dataTypeW, intptr_t W, int computeType) except *
-cpdef xsyevd(
-    intptr_t handle, intptr_t params, int jobz, int uplo,
-    int64_t n, int dataTypeA, intptr_t A, int64_t lda,
-    int dataTypeW, intptr_t W, int computeType, intptr_t bufferOnDevice,
-    size_t workspaceInBytesOnDevice, intptr_t bufferOnHost,
-    size_t workspaceInBytesOnHost, intptr_t info)
-
-###############################################################################
-# Sparse LAPACK Functions
-###############################################################################
-
-cpdef scsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                  size_t b, float tol, int reorder, size_t x,
-                  size_t singularity)
-cpdef dcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                  size_t b, double tol, int reorder, size_t x,
-                  size_t singularity)
-cpdef ccsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrVal, size_t csrRowPtr, size_t csrColInd, size_t b,
-                  float tol, int reorder, size_t x, size_t singularity)
-cpdef zcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
-                  size_t csrVal, size_t csrRowPtr, size_t csrColInd, size_t b,
-                  double tol, int reorder, size_t x, size_t singularity)
-
-cpdef scsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrValA,
-                size_t csrRowPtrA, size_t csrColIndA, size_t b, float tol,
-                int reorder, size_t x, size_t singularity)
-cpdef dcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrValA,
-                size_t csrRowPtrA, size_t csrColIndA, size_t b, double tol,
-                int reorder, size_t x, size_t singularity)
-cpdef ccsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrVal,
-                size_t csrRowPtr, size_t csrColInd, size_t b, float tol,
-                int reorder, size_t x, size_t singularity)
-cpdef zcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA, size_t csrVal,
-                size_t csrRowPtr, size_t csrColInd, size_t b, double tol,
-                int reorder, size_t x, size_t singularity)
-
-cpdef scsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 float mu0, size_t x0, int maxite, float eps, size_t mu,
-                 size_t x)
-cpdef dcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 double mu0, size_t x0, int maxite, double eps, size_t mu,
-                 size_t x)
-cpdef ccsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 size_t mu0, size_t x0, int maxite, float eps, size_t mu,
-                 size_t x)
-cpdef zcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
-                 size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
-                 size_t mu0, size_t x0, int maxite, double eps, size_t mu,
-                 size_t x)
+IF CUPY_HIP_VERSION != 0:
+    cpdef enum:
+        CUSOLVER_EIG_TYPE_1 = 211
+        CUSOLVER_EIG_TYPE_2 = 212
+        CUSOLVER_EIG_TYPE_3 = 213
+
+        CUSOLVER_EIG_MODE_NOVECTOR = 201
+        CUSOLVER_EIG_MODE_VECTOR = 202
+ELSE:
+    cpdef enum:
+        CUSOLVER_EIG_TYPE_1 = 1
+        CUSOLVER_EIG_TYPE_2 = 2
+        CUSOLVER_EIG_TYPE_3 = 3
+
+        CUSOLVER_EIG_MODE_NOVECTOR = 0
+        CUSOLVER_EIG_MODE_VECTOR = 1
+
+    ##########################################################################
+    # Library Attributes
+    ##########################################################################
+
+IF CUPY_HIP_VERSION == 0:
+    cpdef int getProperty(int type) except? -1
+    cpdef tuple _getVersion()
+
+    ##########################################################################
+    # Context
+    ##########################################################################
+
+    cpdef intptr_t create() except? 0
+    cpdef intptr_t spCreate() except? 0
+    cpdef destroy(intptr_t handle)
+    cpdef spDestroy(intptr_t handle)
+
+    ##########################################################################
+    # Stream
+    ##########################################################################
+
+    cpdef setStream(intptr_t handle, size_t stream)
+    cpdef size_t getStream(intptr_t handle) except? 0
+
+    ##########################################################################
+    # Dense LAPACK Functions (Linear Solver)
+    ##########################################################################
+
+    # Cholesky factorization
+    cpdef int spotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1
+    cpdef int dpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1
+    cpdef int cpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1
+    cpdef int zpotrf_bufferSize(intptr_t handle, int uplo,
+                                int n, size_t A, int lda) except? -1
+
+    cpdef spotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo)
+    cpdef dpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo)
+    cpdef cpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo)
+    cpdef zpotrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t work, int lwork, size_t devInfo)
+
+    cpdef spotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo)
+    cpdef dpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo)
+    cpdef cpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo)
+    cpdef zpotrs(intptr_t handle, int uplo, int n, int nrhs,
+                 size_t A, int lda, size_t B, int ldb, size_t devInfo)
+
+    cpdef spotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize)
+    cpdef dpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize)
+    cpdef cpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize)
+    cpdef zpotrfBatched(intptr_t handle, int uplo, int n, size_t Aarray,
+                        int lda, size_t infoArray, int batchSize)
+
+    cpdef spotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo, int batchSize)
+    cpdef dpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo, int batchSize)
+    cpdef cpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo, int batchSize)
+    cpdef zpotrsBatched(intptr_t handle, int uplo, int n, int nrhs,
+                        size_t Aarray, int lda, size_t Barray, int ldb,
+                        size_t devInfo, int batchSize)
+
+    # LU factorization
+    cpdef int sgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int dgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int cgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int zgetrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+
+    cpdef sgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo)
+    cpdef dgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo)
+    cpdef cgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo)
+    cpdef zgetrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t work, size_t devIpiv, size_t devInfo)
+
+    # TODO(anaruse): laswp
+
+    # LU solve
+    cpdef sgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo)
+    cpdef dgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo)
+    cpdef cgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo)
+    cpdef zgetrs(intptr_t handle, int trans, int n, int nrhs,
+                 size_t A, int lda, size_t devIpiv,
+                 size_t B, int ldb, size_t devInfo)
+
+    # QR factorization
+    cpdef int sgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int dgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int cgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+    cpdef int zgeqrf_bufferSize(intptr_t handle, int m, int n,
+                                size_t A, int lda) except? -1
+
+    cpdef sgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef dgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef cgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef zgeqrf(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+
+    # Generate unitary matrix Q from QR factorization
+    cpdef int sorgqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1
+    cpdef int dorgqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1
+    cpdef int cungqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1
+    cpdef int zungqr_bufferSize(intptr_t handle, int m, int n, int k,
+                                size_t A, int lda, size_t tau) except? -1
+
+    cpdef sorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef dorgqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef cungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+    cpdef zungqr(intptr_t handle, int m, int n, int k, size_t A, int lda,
+                 size_t tau, size_t work, int lwork, size_t devInfo)
+
+    # Compute Q**T*b in solve min||A*x = b||
+    cpdef int sormqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1
+    cpdef int dormqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1
+    cpdef int cunmqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1
+    cpdef int zunmqr_bufferSize(intptr_t handle, int side, int trans,
+                                int m, int n, int k, size_t A, int lda,
+                                size_t tau, size_t C, int ldc) except? -1
+
+    cpdef sormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+    cpdef dormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+    cpdef cunmqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+    cpdef zunmqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+    # (obsoleted)
+    cpdef cormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+    # (obsoleted)
+    cpdef zormqr(intptr_t handle, int side, int trans,
+                 int m, int n, int k, size_t A, int lda, size_t tau, size_t C,
+                 int ldc, size_t work, int lwork, size_t devInfo)
+
+    # L*D*L**T,U*D*U**T factorization
+    cpdef int ssytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1
+    cpdef int dsytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1
+    cpdef int csytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1
+    cpdef int zsytrf_bufferSize(intptr_t handle, int n, size_t A,
+                                int lda) except? -1
+
+    cpdef ssytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo)
+    cpdef dsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo)
+    cpdef csytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo)
+    cpdef zsytrf(intptr_t handle, int uplo, int n, size_t A, int lda,
+                 size_t ipiv, size_t work, int lwork, size_t devInfo)
+
+    # Solve A * X = B using iterative refinement
+    cpdef size_t zzgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zcgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zkgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ccgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t cygesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ckgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ddgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dsgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dhgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ssgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t sxgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t shgesv_bufferSize(intptr_t handle, int n, int nrhs, size_t dA,
+                                   int ldda, size_t dipiv, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+
+    cpdef int zzgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zcgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zkgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ccgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ckgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int cygesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ddgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dsgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dhgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ssgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int sxgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int shgesv(intptr_t handle, int n, int nrhs, size_t dA, int ldda,
+                     size_t dipiv, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+
+    # Compute least-saure solution of A * X = B using iterative refinement
+    cpdef size_t zzgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zcgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t zkgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ccgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t cygels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ckgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ddgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dsgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t dhgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t ssgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t sxgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+    cpdef size_t shgels_bufferSize(intptr_t handle, int m, int n, int nrhs,
+                                   size_t dA, int ldda, size_t dB, int lddb,
+                                   size_t dX, int lddx,
+                                   size_t dwork) except? -1
+
+    cpdef int zzgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zcgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zygels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int zkgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ccgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ckgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int cygels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ddgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dsgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dxgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int dhgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int ssgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int sxgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+    cpdef int shgels(intptr_t handle, int m, int n, int nrhs, size_t dA,
+                     int ldda, size_t dB, int lddb, size_t dX, int lddx,
+                     size_t dwork, size_t lwork_bytes, size_t dInfo)
+
+    ###########################################################################
+    # Dense LAPACK Functions (Eigenvalue Solver)
+    ###########################################################################
+
+    # Bidiagonal factorization
+    cpdef int sgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int dgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int cgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int zgebrd_bufferSize(intptr_t handle, int m, int n) except? -1
+
+    cpdef sgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo)
+    cpdef dgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo)
+    cpdef cgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo)
+    cpdef zgebrd(intptr_t handle, int m, int n, size_t A, int lda,
+                 size_t D, size_t E, size_t tauQ, size_t tauP,
+                 size_t Work, int lwork, size_t devInfo)
+
+    # TODO(anaruse): orgbr/ungbr, sytrd/hetrd, orgtr/ungtr, ormtr/unmtr
+
+    # Singular value decomposition, A = U * Sigma * V^H
+    cpdef int sgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int dgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int cgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
+    cpdef int zgesvd_bufferSize(intptr_t handle, int m, int n) except? -1
+
+    cpdef sgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo)
+    cpdef dgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo)
+    cpdef cgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo)
+    cpdef zgesvd(intptr_t handle, char jobu, char jobvt, int m, int n,
+                 size_t A, int lda, size_t S, size_t U, int ldu, size_t VT,
+                 int ldvt, size_t Work, int lwork, size_t rwork,
+                 size_t devInfo)
+
+    # gesvdj ... Singular value decomposition using Jacobi mathod
+    cpdef intptr_t createGesvdjInfo() except? 0
+    cpdef destroyGesvdjInfo(intptr_t info)
+
+    cpdef xgesvdjSetTolerance(intptr_t info, double tolerance)
+    cpdef xgesvdjSetMaxSweeps(intptr_t info, int max_sweeps)
+    cpdef xgesvdjSetSortEig(intptr_t info, int sort_svd)
+    cpdef double xgesvdjGetResidual(intptr_t handle, intptr_t info)
+    cpdef int xgesvdjGetSweeps(intptr_t handle, intptr_t info)
+
+    cpdef int sgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params)
+    cpdef int dgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params)
+    cpdef int cgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params)
+    cpdef int zgesvdj_bufferSize(intptr_t handle, int jobz, int econ, int m,
+                                 int n, intptr_t A, int lda, intptr_t S,
+                                 intptr_t U, int ldu, intptr_t V, int ldv,
+                                 intptr_t params)
+
+    cpdef sgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params)
+    cpdef dgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params)
+    cpdef cgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params)
+    cpdef zgesvdj(intptr_t handle, int jobz, int econ, int m, int n,
+                  intptr_t A, int lda, intptr_t S, intptr_t U, int ldu,
+                  intptr_t V, int ldv, intptr_t work, int lwork, intptr_t info,
+                  intptr_t params)
+
+    cpdef int sgesvdjBatched_bufferSize(
+        intptr_t handle, int jobz, int m, int n,
+        intptr_t A, int lda, intptr_t S, intptr_t U,
+        int ldu, intptr_t V, int ldv, intptr_t params,
+        int batchSize) except? -1
+    cpdef int dgesvdjBatched_bufferSize(
+        intptr_t handle, int jobz, int m, int n,
+        intptr_t A, int lda, intptr_t S, intptr_t U,
+        int ldu, intptr_t V, int ldv, intptr_t params,
+        int batchSize) except? -1
+    cpdef int cgesvdjBatched_bufferSize(
+        intptr_t handle, int jobz, int m, int n,
+        intptr_t A, int lda, intptr_t S, intptr_t U,
+        int ldu, intptr_t V, int ldv, intptr_t params,
+        int batchSize) except? -1
+    cpdef int zgesvdjBatched_bufferSize(
+        intptr_t handle, int jobz, int m, int n,
+        intptr_t A, int lda, intptr_t S, intptr_t U,
+        int ldu, intptr_t V, int ldv, intptr_t params,
+        int batchSize) except? -1
+
+    cpdef sgesvdjBatched(
+        intptr_t handle, int jobz, int m, int n, intptr_t A,
+        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+        intptr_t work, int lwork, intptr_t info, intptr_t params,
+        int batchSize)
+    cpdef dgesvdjBatched(
+        intptr_t handle, int jobz, int m, int n, intptr_t A,
+        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+        intptr_t work, int lwork, intptr_t info, intptr_t params,
+        int batchSize)
+    cpdef cgesvdjBatched(
+        intptr_t handle, int jobz, int m, int n, intptr_t A,
+        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+        intptr_t work, int lwork, intptr_t info, intptr_t params,
+        int batchSize)
+    cpdef zgesvdjBatched(
+        intptr_t handle, int jobz, int m, int n, intptr_t A,
+        int lda, intptr_t S, intptr_t U, int ldu, intptr_t V, int ldv,
+        intptr_t work, int lwork, intptr_t info, intptr_t params,
+        int batchSize)
+
+    # gesvda ... Approximate singular value decomposition
+    cpdef int sgesvdaStridedBatched_bufferSize(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, int batchSize)
+    cpdef int dgesvdaStridedBatched_bufferSize(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, int batchSize)
+    cpdef int cgesvdaStridedBatched_bufferSize(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, int batchSize)
+    cpdef int zgesvdaStridedBatched_bufferSize(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, int batchSize)
+
+    cpdef sgesvdaStridedBatched(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+        intptr_t h_R_nrmF, int batchSize)
+    cpdef dgesvdaStridedBatched(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+        intptr_t h_R_nrmF, int batchSize)
+    cpdef cgesvdaStridedBatched(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+        intptr_t h_R_nrmF, int batchSize)
+    cpdef zgesvdaStridedBatched(
+        intptr_t handle, int jobz, int rank, int m, int n, intptr_t d_A,
+        int lda, long long int strideA, intptr_t d_S, long long int strideS,
+        intptr_t d_U, int ldu, long long int strideU, intptr_t d_V, int ldv,
+        long long int strideV, intptr_t d_work, int lwork, intptr_t d_info,
+        intptr_t h_R_nrmF, int batchSize)
+
+    # Standard symmetric eigenvalue solver
+    cpdef int ssyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1
+    cpdef int dsyevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1
+    cpdef int cheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1
+    cpdef int zheevd_bufferSize(intptr_t handle, int jobz, int uplo, int n,
+                                size_t A, int lda, size_t W) except? -1
+
+    cpdef ssyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info)
+    cpdef dsyevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info)
+    cpdef cheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info)
+    cpdef zheevd(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info)
+
+    # TODO(anaruse); sygvd/hegvd, sygvd/hegvd
+
+    # syevj ... Symmetric eigenvalue solver via Jacobi method
+    cpdef intptr_t createSyevjInfo() except? 0
+    cpdef destroySyevjInfo(intptr_t info)
+
+    cpdef xsyevjSetTolerance(intptr_t info, double tolerance)
+    cpdef xsyevjSetMaxSweeps(intptr_t info, int max_sweeps)
+    cpdef xsyevjSetSortEig(intptr_t info, int sort_eig)
+    cpdef double xsyevjGetResidual(intptr_t handle, intptr_t info)
+    cpdef int xsyevjGetSweeps(intptr_t handle, intptr_t info)
+
+    cpdef int ssyevj_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params) except? -1
+    cpdef int dsyevj_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params) except? -1
+    cpdef int cheevj_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params) except? -1
+    cpdef int zheevj_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params) except? -1
+    cpdef ssyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params)
+    cpdef dsyevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params)
+    cpdef cheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params)
+    cpdef zheevj(intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+                 size_t W, size_t work, int lwork, size_t info,
+                 intptr_t params)
+
+    cpdef int ssyevjBatched_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
+    cpdef int dsyevjBatched_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
+    cpdef int cheevjBatched_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
+    cpdef int zheevjBatched_bufferSize(
+        intptr_t handle, int jobz, int uplo, int n,
+        size_t A, int lda, size_t W, intptr_t params, int batchSize) except? -1
+    cpdef ssyevjBatched(
+        intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+        size_t W, size_t work, int lwork, size_t info, intptr_t params,
+        int batchSize)
+    cpdef dsyevjBatched(
+        intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+        size_t W, size_t work, int lwork, size_t info, intptr_t params,
+        int batchSize)
+    cpdef cheevjBatched(
+        intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+        size_t W, size_t work, int lwork, size_t info, intptr_t params,
+        int batchSize)
+    cpdef zheevjBatched(
+        intptr_t handle, int jobz, int uplo, int n, size_t A, int lda,
+        size_t W, size_t work, int lwork, size_t info, intptr_t params,
+        int batchSize)
+
+    # dense eigenvalue solver (64bit)
+    cpdef (size_t, size_t) xsyevd_bufferSize(  # noqa
+        intptr_t handle, intptr_t params, int jobz, int uplo,
+        int64_t n, int dataTypeA, intptr_t A, int64_t lda,
+        int dataTypeW, intptr_t W, int computeType) except *
+    cpdef xsyevd(
+        intptr_t handle, intptr_t params, int jobz, int uplo,
+        int64_t n, int dataTypeA, intptr_t A, int64_t lda,
+        int dataTypeW, intptr_t W, int computeType, intptr_t bufferOnDevice,
+        size_t workspaceInBytesOnDevice, intptr_t bufferOnHost,
+        size_t workspaceInBytesOnHost, intptr_t info)
+
+    ##########################################################################
+    # Sparse LAPACK Functions
+    ##########################################################################
+
+    cpdef scsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                      size_t b, float tol, int reorder, size_t x,
+                      size_t singularity)
+    cpdef dcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                      size_t b, double tol, int reorder, size_t x,
+                      size_t singularity)
+    cpdef ccsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                      size_t b, float tol, int reorder, size_t x,
+                      size_t singularity)
+    cpdef zcsrlsvchol(intptr_t handle, int m, int nnz, size_t descrA,
+                      size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                      size_t b, double tol, int reorder, size_t x,
+                      size_t singularity)
+
+    cpdef scsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                    size_t b, float tol, int reorder, size_t x,
+                    size_t singularity)
+    cpdef dcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                    size_t b, double tol, int reorder, size_t x,
+                    size_t singularity)
+    cpdef ccsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                    size_t b, float tol, int reorder, size_t x,
+                    size_t singularity)
+    cpdef zcsrlsvqr(intptr_t handle, int m, int nnz, size_t descrA,
+                    size_t csrVal, size_t csrRowPtr, size_t csrColInd,
+                    size_t b, double tol, int reorder, size_t x,
+                    size_t singularity)
+
+    cpdef scsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     float mu0, size_t x0, int maxite, float eps, size_t mu,
+                     size_t x)
+    cpdef dcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     double mu0, size_t x0, int maxite, double eps, size_t mu,
+                     size_t x)
+    cpdef ccsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     size_t mu0, size_t x0, int maxite, float eps, size_t mu,
+                     size_t x)
+    cpdef zcsreigvsi(intptr_t handle, int m, int nnz, size_t descrA,
+                     size_t csrValA, size_t csrRowPtrA, size_t csrColIndA,
+                     size_t mu0, size_t x0, int maxite, double eps, size_t mu,
+                     size_t x)

From bfb87a1139953539fc32f7080219bfbc273ff1c2 Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 18:55:33 +0000
Subject: [PATCH 11/49] changes from
 https://github.com/ROCmSoftwarePlatform/cupy/blob/rocm6.0_internal_testing/cupy_backends/cupy_lapack.h

---
 cupy_backends/cupy_lapack.h | 102 ++++++++++++++++++++++++++++--------
 1 file changed, 79 insertions(+), 23 deletions(-)

diff --git a/cupy_backends/cupy_lapack.h b/cupy_backends/cupy_lapack.h
index 294c03b2464..16ef36a11fe 100644
--- a/cupy_backends/cupy_lapack.h
+++ b/cupy_backends/cupy_lapack.h
@@ -9,7 +9,7 @@
 
 #elif defined(CUPY_USE_HIP) // #if !defined(CUPY_NO_CUDA) && !defined(CUPY_USE_HIP)
 
-#include "hip/cupy_rocsolver.h"
+#include "hip/cupy_hipsolver.h"
 
 #else // #if !defined(CUPY_NO_CUDA) && !defined(CUPY_USE_HIP)
 
@@ -120,6 +120,53 @@ int geqrf_loop(
     return status;
 }
 
+/*
+ * loop-based batched orgqr (used on CUDA)
+ */
+template<typename T>
+using orgqr = cusolverStatus_t (*)(cusolverDnHandle_t, int, int, int, T*, int, const T*, T*, int, int*);
+
+template<typename T> struct orgqr_func { orgqr<T> ptr; };
+template<> struct orgqr_func<float> { orgqr<float> ptr = cusolverDnSorgqr; };
+template<> struct orgqr_func<double> { orgqr<double> ptr = cusolverDnDorgqr; };
+template<> struct orgqr_func<cuComplex> { orgqr<cuComplex> ptr = cusolverDnCungqr; };
+template<> struct orgqr_func<cuDoubleComplex> { orgqr<cuDoubleComplex> ptr = cusolverDnZungqr; };
+
+template<typename T>
+int orgqr_loop(
+        intptr_t handle, int m, int n, int k, intptr_t a_ptr, int lda,
+        intptr_t tau_ptr, intptr_t w_ptr,
+        int buffersize, intptr_t info_ptr,
+        int batch_size, int origin_n) {
+    /*
+     * Assumptions:
+     * 1. the stream is set prior to calling this function
+     * 2. the workspace is reused in the loop
+     */
+
+    cusolverStatus_t status;
+    T* A = reinterpret_cast<T*>(a_ptr);
+    const T* Tau = reinterpret_cast<const T*>(tau_ptr);
+    T* Work = reinterpret_cast<T*>(w_ptr);
+    int* devInfo = reinterpret_cast<int*>(info_ptr);
+
+    // we can't use "if constexpr" to do a compile-time branch selection as it's C++17 only,
+    // so we use custom traits instead
+    orgqr<T> func = orgqr_func<T>().ptr;
+
+    for (int i=0; i<batch_size; i++) {
+        status = func(reinterpret_cast<cusolverDnHandle_t>(handle),
+                      m, n, k, A, lda, Tau, Work, buffersize, devInfo);
+        if (status != 0) break;
+        A += m * origin_n;
+        Tau += k;
+        devInfo += 1;
+    }
+
+    return status;
+}
+
+
 #else
 
 template<typename T>
@@ -137,14 +184,14 @@ int gesvd_loop(
  * batched geqrf (only used on HIP)
  */
 template<typename T>
-using geqrf = cusolverStatus_t (*)(cusolverDnHandle_t, int, int, T* const[], int, T*, long int, int);
+using geqrf = hipsolverStatus_t (*)(hipsolverDnHandle_t, int, int, T*, int, T*, T*, int, int*);
 
 template<typename T> struct geqrf_func { geqrf<T> ptr; };
-template<> struct geqrf_func<float> { geqrf<float> ptr = rocsolver_sgeqrf_batched; };
-template<> struct geqrf_func<double> { geqrf<double> ptr = rocsolver_dgeqrf_batched; };
+template<> struct geqrf_func<float> { geqrf<float> ptr = hipsolverSgeqrf; };
+template<> struct geqrf_func<double> { geqrf<double> ptr = hipsolverDgeqrf; };
 // we need the correct func pointer here, so can't cast!
-template<> struct geqrf_func<rocblas_float_complex> { geqrf<rocblas_float_complex> ptr = rocsolver_cgeqrf_batched; };
-template<> struct geqrf_func<rocblas_double_complex> { geqrf<rocblas_double_complex> ptr = rocsolver_zgeqrf_batched; };
+template<> struct geqrf_func<hipFloatComplex> { geqrf<hipFloatComplex> ptr = hipsolverCgeqrf; };
+template<> struct geqrf_func<hipDoubleComplex> { geqrf<hipDoubleComplex> ptr = hipsolverZgeqrf; };
 
 template<typename T>
 int geqrf_loop(
@@ -158,41 +205,47 @@ int geqrf_loop(
      * 2. ignore w_ptr, buffersize, and info_ptr as rocSOLVER does not need them
      */
 
-    cusolverStatus_t status;
+    hipsolverStatus_t status;
 
     // we can't use "if constexpr" to do a compile-time branch selection as it's C++17 only,
     // so we use custom traits instead
     typedef typename std::conditional<
         std::is_floating_point<T>::value,
         T,
-        typename std::conditional<std::is_same<T, cuComplex>::value,
-                                  rocblas_float_complex,
-                                  rocblas_double_complex>::type
+        typename std::conditional<std::is_same<T, hipFloatComplex>::value,
+                                  hipFloatComplex,
+                                  hipDoubleComplex>::type
         >::type data_type;
     geqrf<data_type> func = geqrf_func<data_type>().ptr;
-    data_type* const* A = reinterpret_cast<data_type* const*>(a_ptr);
+    data_type* A = reinterpret_cast<data_type*>(a_ptr);
     data_type* Tau = reinterpret_cast<data_type*>(tau_ptr);
     int k = (m<n)?m:n;
 
-    // use rocSOLVER's batched geqrf
-    status = func((cusolverDnHandle_t)handle, m, n, A, lda, Tau, k, batch_size);
+    data_type* Work = reinterpret_cast<data_type*>(w_ptr);
+    int* devInfo = reinterpret_cast<int*>(info_ptr);
+    for (int i=0; i < batch_size; i++) {
+        status = func(reinterpret_cast<hipsolverDnHandle_t>(handle),
+                      m, n, A, lda, Tau, Work, buffersize, devInfo);
+        if (status != 0) break;
+        A += m * n;
+        Tau += k;
+        devInfo += 1;
+    }
 
     return status;
 }
-#endif // #if !defined(CUPY_USE_HIP)
-
 
 /*
- * loop-based batched orgqr (used on both CUDA & HIP)
+ * loop-based batched orgqr (used on HIP)
  */
 template<typename T>
-using orgqr = cusolverStatus_t (*)(cusolverDnHandle_t, int, int, int, T*, int, const T*, T*, int, int*);
+using orgqr = hipsolverStatus_t (*)(hipsolverDnHandle_t, int, int, int, T*, int, const T*, T*, int, int*);
 
 template<typename T> struct orgqr_func { orgqr<T> ptr; };
-template<> struct orgqr_func<float> { orgqr<float> ptr = cusolverDnSorgqr; };
-template<> struct orgqr_func<double> { orgqr<double> ptr = cusolverDnDorgqr; };
-template<> struct orgqr_func<cuComplex> { orgqr<cuComplex> ptr = cusolverDnCungqr; };
-template<> struct orgqr_func<cuDoubleComplex> { orgqr<cuDoubleComplex> ptr = cusolverDnZungqr; };
+template<> struct orgqr_func<float> { orgqr<float> ptr = hipsolverDnSorgqr; };
+template<> struct orgqr_func<double> { orgqr<double> ptr = hipsolverDnDorgqr; };
+template<> struct orgqr_func<hipFloatComplex> { orgqr<hipFloatComplex> ptr = hipsolverDnCungqr; };
+template<> struct orgqr_func<hipDoubleComplex> { orgqr<hipDoubleComplex> ptr = hipsolverDnZungqr; };
 
 template<typename T>
 int orgqr_loop(
@@ -206,7 +259,7 @@ int orgqr_loop(
      * 2. the workspace is reused in the loop
      */
 
-    cusolverStatus_t status;
+    hipsolverStatus_t status;
     T* A = reinterpret_cast<T*>(a_ptr);
     const T* Tau = reinterpret_cast<const T*>(tau_ptr);
     T* Work = reinterpret_cast<T*>(w_ptr);
@@ -217,7 +270,7 @@ int orgqr_loop(
     orgqr<T> func = orgqr_func<T>().ptr;
 
     for (int i=0; i<batch_size; i++) {
-        status = func(reinterpret_cast<cusolverDnHandle_t>(handle),
+        status = func(reinterpret_cast<hipsolverDnHandle_t>(handle),
                       m, n, k, A, lda, Tau, Work, buffersize, devInfo);
         if (status != 0) break;
         A += m * origin_n;
@@ -227,4 +280,7 @@ int orgqr_loop(
 
     return status;
 }
+
+#endif // #if !defined(CUPY_USE_HIP)
+
 #endif // #ifndef INCLUDE_GUARD_CUPY_CUSOLVER_H

From a478f58f92a1510ca0b0bebec1f866cbf19f1f7b Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 18:58:23 +0000
Subject: [PATCH 12/49] changes from
 https://github.com/ROCmSoftwarePlatform/cupy/blob/rocm6.0_internal_testing/cupy_backends/hip/cupy_hip_common.h

---
 cupy_backends/hip/cupy_hip_common.h | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/cupy_backends/hip/cupy_hip_common.h b/cupy_backends/hip/cupy_hip_common.h
index 8699cb9e391..0bb138e6c93 100644
--- a/cupy_backends/hip/cupy_hip_common.h
+++ b/cupy_backends/hip/cupy_hip_common.h
@@ -2,12 +2,15 @@
 #define INCLUDE_GUARD_HIP_CUPY_COMMON_H
 
 #include <hip/hip_runtime_api.h>
+#include <hip/library_types.h>
 #if HIP_VERSION >= 50530600
 #include <hipblas/hipblas.h>
 #include <rocsolver/rocsolver.h>
+#include <hipsolver/hipsolver.h>
 #else
 #include <hipblas.h>
 #include <rocsolver.h>
+#include <hipsolver.h>
 #endif
 
 #define CUDA_VERSION 0
@@ -156,6 +159,8 @@ typedef enum libraryPropertyType_t {
     PATCH_LEVEL
 } libraryPropertyType;
 
+typedef enum hipLibraryPropertyType hipLibraryPropertyType_t;
+
 } // extern "C"
 
 #endif // #ifndef INCLUDE_GUARD_HIP_CUPY_COMMON_H

From 5368a29eae39e0ea682a3108a6fde49bd28c68bc Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 19:23:56 +0000
Subject: [PATCH 13/49] changes from f2475950c4aa6df4cbf9ffb1649d93d85ecb3255
 11050f0

---
 cupy_backends/hip/cupy_hipsolver.h | 2071 ++++++++++++++++++++++++++++
 cupyx/cusolver.pyx                 |   33 +-
 2 files changed, 2086 insertions(+), 18 deletions(-)
 create mode 100644 cupy_backends/hip/cupy_hipsolver.h

diff --git a/cupy_backends/hip/cupy_hipsolver.h b/cupy_backends/hip/cupy_hipsolver.h
new file mode 100644
index 00000000000..345ae7df0d3
--- /dev/null
+++ b/cupy_backends/hip/cupy_hipsolver.h
@@ -0,0 +1,2071 @@
+#ifndef INCLUDE_GUARD_HIP_CUPY_ROCSOLVER_H
+#define INCLUDE_GUARD_HIP_CUPY_ROCSOLVER_H
+
+#include "cupy_hip.h"
+#include "cupy_hipblas.h"
+#include <stdexcept>  // for gcc 10.0
+
+extern "C" {
+
+hipsolverStatus_t cusolverGetProperty(hipLibraryPropertyType_t type, int* val) {
+    switch(type) {
+        case MAJOR_VERSION: { *val = hipsolverVersionMajor; break; }
+        case MINOR_VERSION: { *val = hipsolverVersionMinor; break; }
+        case PATCH_LEVEL:   { *val = hipsolverVersionPatch; break; }
+        default: throw std::runtime_error("invalid type");
+    }
+    return HIPSOLVER_STATUS_SUCCESS;
+}
+
+typedef enum hipsolverDnParams_t {};
+
+#if HIP_VERSION < 50631061
+typedef hipsolverHandle_t hipsolverDnHandle_t;
+typedef void* hipsolverGesvdjInfo_t;
+typedef void* hipsolverSyevjInfo_t;
+
+hipsolverStatus_t hipsolverDnSorgqr(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    int               k,
+                                    float*            A,
+                                    int               lda,
+                                    const float*      tau,
+                                    float*            work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDorgqr(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    int               k,
+                                    double*           A,
+                                    int               lda,
+                                    const double*     tau,
+                                    double*           work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCungqr(hipsolverHandle_t      handle,
+                                    int                    m,
+                                    int                    n,
+                                    int                    k,
+                                    hipFloatComplex*       A,
+                                    int                    lda,
+                                    const hipFloatComplex* tau,
+                                    hipFloatComplex*       work,
+                                    int                    lwork,
+                                    int*                   devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZungqr(hipsolverHandle_t       handle,
+                                    int                     m,
+                                    int                     n,
+                                    int                     k,
+                                    hipDoubleComplex*       A,
+                                    int                     lda,
+                                    const hipDoubleComplex* tau,
+                                    hipDoubleComplex*       work,
+                                    int                     lwork,
+                                    int*                    devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDestroy(hipsolverHandle_t handle) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCreate(hipsolverHandle_t* handle) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSetStream(hipsolverHandle_t handle,
+                                       hipStream_t       streamId) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnGetStream(hipsolverHandle_t handle,
+                                       hipStream_t*      streamId) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSpotrf_bufferSize(
+    hipsolverHandle_t handle, hipsolverFillMode_t uplo, int n, float* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDpotrf_bufferSize(
+    hipsolverHandle_t handle, hipsolverFillMode_t uplo, int n, double* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCpotrf_bufferSize(hipsolverHandle_t handle,
+                                               hipsolverFillMode_t uplo,
+                                               int               n,
+                                               hipFloatComplex* A,
+                                               int               lda,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZpotrf_bufferSize(hipsolverHandle_t handle,
+                                               hipsolverFillMode_t uplo,
+                                               int               n,
+                                               hipDoubleComplex* A,
+                                               int               lda,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSpotrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    float*            work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDpotrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    double*           work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCpotrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    hipFloatComplex*  work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZpotrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    hipDoubleComplex* work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSpotrs(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    int               nrhs,
+                                    const float*      A,
+                                    int               lda,
+                                    float*            B,
+                                    int               ldb,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDpotrs(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    int               nrhs,
+                                    const double*     A,
+                                    int               lda,
+                                    double*           B,
+                                    int               ldb,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCpotrs(hipsolverHandle_t      handle,
+                                    hipsolverFillMode_t      uplo,
+                                    int                    n,
+                                    int                    nrhs,
+                                    const hipFloatComplex* A,
+                                    int                    lda,
+                                    hipFloatComplex*       B,
+                                    int                    ldb,
+                                    int*                   devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZpotrs(hipsolverHandle_t       handle,
+                                    hipsolverFillMode_t       uplo,
+                                    int                     n,
+                                    int                     nrhs,
+                                    const hipDoubleComplex* A,
+                                    int                     lda,
+                                    hipDoubleComplex*       B,
+                                    int                     ldb,
+                                    int*                    devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSpotrfBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           float*            A[],
+                                           int               lda,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDpotrfBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           double*           A[],
+                                           int               lda,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCpotrfBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           hipFloatComplex*  A[],
+                                           int               lda,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZpotrfBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           hipDoubleComplex* A[],
+                                           int               lda,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSpotrsBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           int               nrhs,
+                                           float*            A[],
+                                           int               lda,
+                                           float*            B[],
+                                           int               ldb,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDpotrsBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           int               nrhs,
+                                           double*           A[],
+                                           int               lda,
+                                           double*           B[],
+                                           int               ldb,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCpotrsBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           int               nrhs,
+                                           hipFloatComplex*  A[],
+                                           int               lda,
+                                           hipFloatComplex*  B[],
+                                           int               ldb,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZpotrsBatched(hipsolverHandle_t handle,
+                                           hipsolverFillMode_t uplo,
+                                           int               n,
+                                           int               nrhs,
+                                           hipDoubleComplex* A[],
+                                           int               lda,
+                                           hipDoubleComplex* B[],
+                                           int               ldb,
+                                           int*              devInfo,
+                                           int               batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgetrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, float* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgetrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, double* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgetrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, hipFloatComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgetrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, hipDoubleComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgetrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    float*            work,
+                                    int*              devIpiv,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgetrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    double*           work,
+                                    int*              devIpiv,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgetrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    hipFloatComplex*  work,
+                                    int*              devIpiv,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgetrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    hipDoubleComplex* work,
+                                    int*              devIpiv,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgetrs(hipsolverHandle_t  handle,
+                                    hipsolverOperation_t trans,
+                                    int                n,
+                                    int                nrhs,
+                                    const float*       A,
+                                    int                lda,
+                                    const int*         devIpiv,
+                                    float*             B,
+                                    int                ldb,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgetrs(hipsolverHandle_t  handle,
+                                    hipsolverOperation_t trans,
+                                    int                n,
+                                    int                nrhs,
+                                    const double*      A,
+                                    int                lda,
+                                    const int*         devIpiv,
+                                    double*            B,
+                                    int                ldb,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgetrs(hipsolverHandle_t      handle,
+                                     hipsolverOperation_t     trans,
+                                     int                    n,
+                                     int                    nrhs,
+                                     const hipFloatComplex* A,
+                                     int                    lda,
+                                     const int*             devIpiv,
+                                     hipFloatComplex*       B,
+                                     int                    ldb,
+                                     int*                   devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgetrs(hipsolverHandle_t       handle,
+                                    hipsolverOperation_t      trans,
+                                    int                     n,
+                                    int                     nrhs,
+                                    const hipDoubleComplex* A,
+                                    int                     lda,
+                                    const int*              devIpiv,
+                                    hipDoubleComplex*       B,
+                                    int                     ldb,
+                                    int*                    devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgeqrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, float* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgeqrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, double* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgeqrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, hipFloatComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgeqrf_bufferSize(
+    hipsolverHandle_t handle, int m, int n, hipDoubleComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgeqrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    float*            tau,
+                                    float*            work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgeqrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    double*           tau,
+                                    double*           work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgeqrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    hipFloatComplex*  tau,
+                                    hipFloatComplex*  work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgeqrf(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    hipDoubleComplex* tau,
+                                    hipDoubleComplex* work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSorgqr_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int               k,
+                                               const float*      A,
+                                               int               lda,
+                                               const float*      tau,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDorgqr_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int               k,
+                                               const double*     A,
+                                               int               lda,
+                                               const double*     tau,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCungqr_bufferSize(hipsolverHandle_t      handle,
+                                               int                    m,
+                                               int                    n,
+                                               int                    k,
+                                               const hipFloatComplex* A,
+                                               int                    lda,
+                                               const hipFloatComplex* tau,
+                                               int*                   lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZungqr_bufferSize(hipsolverHandle_t       handle,
+                                               int                     m,
+                                               int                     n,
+                                               int                     k,
+                                               const hipDoubleComplex* A,
+                                               int                     lda,
+                                               const hipDoubleComplex* tau,
+                                               int*                    lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSormqr_bufferSize(hipsolverHandle_t  handle,
+                                               hipsolverSideMode_t  side,
+                                               hipsolverOperation_t trans,
+                                               int                m,
+                                               int                n,
+                                               int                k,
+                                               const float*       A,
+                                               int                lda,
+                                               const float*       tau,
+                                               const float*       C,
+                                               int                ldc,
+                                               int*               lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDormqr_bufferSize(hipsolverHandle_t  handle,
+                                               hipsolverSideMode_t  side,
+                                               hipsolverOperation_t trans,
+                                               int                m,
+                                               int                n,
+                                               int                k,
+                                               const double*      A,
+                                               int                lda,
+                                               const double*      tau,
+                                               const double*      C,
+                                               int                ldc,
+                                               int*               lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCunmqr_bufferSize(hipsolverHandle_t      handle,
+                                               hipsolverSideMode_t      side,
+                                               hipsolverOperation_t     trans,
+                                               int                    m,
+                                               int                    n,
+                                               int                    k,
+                                               const hipFloatComplex* A,
+                                               int                    lda,
+                                               const hipFloatComplex* tau,
+                                               const hipFloatComplex* C,
+                                               int                    ldc,
+                                               int*                   lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZunmqr_bufferSize(hipsolverHandle_t       handle,
+                                               hipsolverSideMode_t       side,
+                                               hipsolverOperation_t      trans,
+                                               int                     m,
+                                               int                     n,
+                                               int                     k,
+                                               const hipDoubleComplex* A,
+                                               int                     lda,
+                                               const hipDoubleComplex* tau,
+                                               const hipDoubleComplex* C,
+                                               int                     ldc,
+                                               int*                    lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSormqr(hipsolverHandle_t  handle,
+                                    hipsolverSideMode_t  side,
+                                    hipsolverOperation_t trans,
+                                    int                m,
+                                    int                n,
+                                    int                k,
+                                    const float*       A,
+                                    int                lda,
+                                    const float*       tau,
+                                    float*             C,
+                                    int                ldc,
+                                    float*             work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDormqr(hipsolverHandle_t  handle,
+                                    hipsolverSideMode_t  side,
+                                    hipsolverOperation_t trans,
+                                    int                m,
+                                    int                n,
+                                    int                k,
+                                    const double*      A,
+                                    int                lda,
+                                    const double*      tau,
+                                    double*            C,
+                                    int                ldc,
+                                    double*            work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCunmqr(hipsolverHandle_t      handle,
+                                    hipsolverSideMode_t      side,
+                                    hipsolverOperation_t     trans,
+                                    int                    m,
+                                    int                    n,
+                                    int                    k,
+                                    const hipFloatComplex* A,
+                                    int                    lda,
+                                    const hipFloatComplex* tau,
+                                    hipFloatComplex*       C,
+                                    int                    ldc,
+                                    hipFloatComplex*       work,
+                                    int                    lwork,
+                                    int*                   devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZunmqr(hipsolverHandle_t       handle,
+                                    hipsolverSideMode_t       side,
+                                    hipsolverOperation_t      trans,
+                                    int                     m,
+                                    int                     n,
+                                    int                     k,
+                                    const hipDoubleComplex* A,
+                                    int                     lda,
+                                    const hipDoubleComplex* tau,
+                                    hipDoubleComplex*       C,
+                                    int                     ldc,
+                                    hipDoubleComplex*       work,
+                                    int                     lwork,
+                                    int*                    devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsytrf_bufferSize(hipsolverHandle_t handle, int n,
+                                               float* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnDsytrf_bufferSize(hipsolverHandle_t handle, int n, double* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCsytrf_bufferSize(
+    hipsolverHandle_t handle, int n, hipFloatComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZsytrf_bufferSize(
+    hipsolverHandle_t handle, int n, hipDoubleComplex* A, int lda, int* lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsytrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    int*              ipiv,
+                                    float*            work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsytrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    int*              ipiv,
+                                    double*           work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCsytrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    int*              ipiv,
+                                    hipFloatComplex*  work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZsytrf(hipsolverHandle_t handle,
+                                    hipsolverFillMode_t uplo,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    int*              ipiv,
+                                    hipDoubleComplex* work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgebrd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgebrd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgebrd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgebrd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgebrd(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    float*            D,
+                                    float*            E,
+                                    float*            tauq,
+                                    float*            taup,
+                                    float*            work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgebrd(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    double*           D,
+                                    double*           E,
+                                    double*           tauq,
+                                    double*           taup,
+                                    double*           work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgebrd(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    float*            D,
+                                    float*            E,
+                                    hipFloatComplex*  tauq,
+                                    hipFloatComplex*  taup,
+                                    hipFloatComplex*  work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgebrd(hipsolverHandle_t handle,
+                                    int               m,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    double*           D,
+                                    double*           E,
+                                    hipDoubleComplex* tauq,
+                                    hipDoubleComplex* taup,
+                                    hipDoubleComplex* work,
+                                    int               lwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgesvd_bufferSize(hipsolverHandle_t handle,
+                                               int               m,
+                                               int               n,
+                                               int*              lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvd(hipsolverHandle_t handle,
+                                    signed char       jobu,
+                                    signed char       jobv,
+                                    int               m,
+                                    int               n,
+                                    float*            A,
+                                    int               lda,
+                                    float*            S,
+                                    float*            U,
+                                    int               ldu,
+                                    float*            V,
+                                    int               ldv,
+                                    float*            work,
+                                    int               lwork,
+                                    float*            rwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvd(hipsolverHandle_t handle,
+                                    signed char       jobu,
+                                    signed char       jobv,
+                                    int               m,
+                                    int               n,
+                                    double*           A,
+                                    int               lda,
+                                    double*           S,
+                                    double*           U,
+                                    int               ldu,
+                                    double*           V,
+                                    int               ldv,
+                                    double*           work,
+                                    int               lwork,
+                                    double*           rwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvd(hipsolverHandle_t handle,
+                                    signed char       jobu,
+                                    signed char       jobv,
+                                    int               m,
+                                    int               n,
+                                    hipFloatComplex*  A,
+                                    int               lda,
+                                    float*            S,
+                                    hipFloatComplex*  U,
+                                    int               ldu,
+                                    hipFloatComplex*  V,
+                                    int               ldv,
+                                    hipFloatComplex*  work,
+                                    int               lwork,
+                                    float*            rwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgesvd(hipsolverHandle_t handle,
+                                    signed char       jobu,
+                                    signed char       jobv,
+                                    int               m,
+                                    int               n,
+                                    hipDoubleComplex* A,
+                                    int               lda,
+                                    double*           S,
+                                    hipDoubleComplex* U,
+                                    int               ldu,
+                                    hipDoubleComplex* V,
+                                    int               ldv,
+                                    hipDoubleComplex* work,
+                                    int               lwork,
+                                    double*           rwork,
+                                    int*              devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCreateGesvdjInfo(hipsolverGesvdjInfo_t* info) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDestroyGesvdjInfo(hipsolverGesvdjInfo_t info) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXgesvdjSetTolerance(hipsolverGesvdjInfo_t info,
+                                                 double                tolerance) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXgesvdjSetMaxSweeps(hipsolverGesvdjInfo_t info,
+                                                 int                   max_sweeps) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXgesvdjSetSortEig(hipsolverGesvdjInfo_t info,
+                                               int                   sort_eig) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXgesvdjGetResidual(hipsolverDnHandle_t   handle,
+                                                hipsolverGesvdjInfo_t info,
+                                                double*               residual) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXgesvdjGetSweeps(hipsolverDnHandle_t   handle,
+                                              hipsolverGesvdjInfo_t info,
+                                              int* executed_sweeps) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvdj_bufferSize(hipsolverDnHandle_t   handle,
+                                                hipsolverEigMode_t    jobz,
+                                                int                   econ,
+                                                int                   m,
+                                                int                   n,
+                                                const float*          A,
+                                                int                   lda,
+                                                const float*          S,
+                                                const float*          U,
+                                                int                   ldu,
+                                                const float*          V,
+                                                int                   ldv,
+                                                int*                  lwork,
+                                                hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvdj_bufferSize(hipsolverDnHandle_t   handle,
+                                                hipsolverEigMode_t    jobz,
+                                                int                   econ,
+                                                int                   m,
+                                                int                   n,
+                                                const double*         A,
+                                                int                   lda,
+                                                const double*         S,
+                                                const double*         U,
+                                                int                   ldu,
+                                                const double*         V,
+                                                int                   ldv,
+                                                int*                  lwork,
+                                                hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvdj_bufferSize(hipsolverDnHandle_t    handle,
+                                                hipsolverEigMode_t     jobz,
+                                                int                    econ,
+                                                int                    m,
+                                                int                    n,
+                                                const hipFloatComplex* A,
+                                                int                    lda,
+                                                const float*           S,
+                                                const hipFloatComplex* U,
+                                                int                    ldu,
+                                                const hipFloatComplex* V,
+                                                int                    ldv,
+                                                int*                   lwork,
+                                                hipsolverGesvdjInfo_t  params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgesvdj_bufferSize(hipsolverDnHandle_t     handle,
+                                                hipsolverEigMode_t      jobz,
+                                                int                     econ,
+                                                int                     m,
+                                                int                     n,
+                                                const hipDoubleComplex* A,
+                                                int                     lda,
+                                                const double*           S,
+                                                const hipDoubleComplex* U,
+                                                int                     ldu,
+                                                const hipDoubleComplex* V,
+                                                int                     ldv,
+                                                int*                    lwork,
+                                                hipsolverGesvdjInfo_t   params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvdj(hipsolverDnHandle_t   handle,
+                                     hipsolverEigMode_t    jobz,
+                                     int                   econ,
+                                     int                   m,
+                                     int                   n,
+                                     float*                A,
+                                     int                   lda,
+                                     float*                S,
+                                     float*                U,
+                                     int                   ldu,
+                                     float*                V,
+                                     int                   ldv,
+                                     float*                work,
+                                     int                   lwork,
+                                     int*                  devInfo,
+                                     hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvdj(hipsolverDnHandle_t   handle,
+                                     hipsolverEigMode_t    jobz,
+                                     int                   econ,
+                                     int                   m,
+                                     int                   n,
+                                     double*               A,
+                                     int                   lda,
+                                     double*               S,
+                                     double*               U,
+                                     int                   ldu,
+                                     double*               V,
+                                     int                   ldv,
+                                     double*               work,
+                                     int                   lwork,
+                                     int*                  devInfo,
+                                     hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvdj(hipsolverDnHandle_t   handle,
+                                     hipsolverEigMode_t    jobz,
+                                     int                   econ,
+                                     int                   m,
+                                     int                   n,
+                                     hipFloatComplex*      A,
+                                     int                   lda,
+                                     float*                S,
+                                     hipFloatComplex*      U,
+                                     int                   ldu,
+                                     hipFloatComplex*      V,
+                                     int                   ldv,
+                                     hipFloatComplex*      work,
+                                     int                   lwork,
+                                     int*                  devInfo,
+                                     hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgesvdj(hipsolverDnHandle_t   handle,
+                                     hipsolverEigMode_t    jobz,
+                                     int                   econ,
+                                     int                   m,
+                                     int                   n,
+                                     hipDoubleComplex*     A,
+                                     int                   lda,
+                                     double*               S,
+                                     hipDoubleComplex*     U,
+                                     int                   ldu,
+                                     hipDoubleComplex*     V,
+                                     int                   ldv,
+                                     hipDoubleComplex*     work,
+                                     int                   lwork,
+                                     int*                  devInfo,
+                                     hipsolverGesvdjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnSgesvdjBatched_bufferSize(hipsolverDnHandle_t   handle,
+                                         hipsolverEigMode_t    jobz,
+                                         int                   m,
+                                         int                   n,
+                                         const float*          A,
+                                         int                   lda,
+                                         const float*          S,
+                                         const float*          U,
+                                         int                   ldu,
+                                         const float*          V,
+                                         int                   ldv,
+                                         int*                  lwork,
+                                         hipsolverGesvdjInfo_t params,
+                                         int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnDgesvdjBatched_bufferSize(hipsolverDnHandle_t   handle,
+                                         hipsolverEigMode_t    jobz,
+                                         int                   m,
+                                         int                   n,
+                                         const double*         A,
+                                         int                   lda,
+                                         const double*         S,
+                                         const double*         U,
+                                         int                   ldu,
+                                         const double*         V,
+                                         int                   ldv,
+                                         int*                  lwork,
+                                         hipsolverGesvdjInfo_t params,
+                                         int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnCgesvdjBatched_bufferSize(hipsolverDnHandle_t    handle,
+                                         hipsolverEigMode_t     jobz,
+                                         int                    m,
+                                         int                    n,
+                                         const hipFloatComplex* A,
+                                         int                    lda,
+                                         const float*           S,
+                                         const hipFloatComplex* U,
+                                         int                    ldu,
+                                         const hipFloatComplex* V,
+                                         int                    ldv,
+                                         int*                   lwork,
+                                         hipsolverGesvdjInfo_t  params,
+                                         int                    batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnZgesvdjBatched_bufferSize(hipsolverDnHandle_t     handle,
+                                         hipsolverEigMode_t      jobz,
+                                         int                     m,
+                                         int                     n,
+                                         const hipDoubleComplex* A,
+                                         int                     lda,
+                                         const double*           S,
+                                         const hipDoubleComplex* U,
+                                         int                     ldu,
+                                         const hipDoubleComplex* V,
+                                         int                     ldv,
+                                         int*                    lwork,
+                                         hipsolverGesvdjInfo_t   params,
+                                         int                     batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvdjBatched(hipsolverDnHandle_t   handle,
+                                            hipsolverEigMode_t    jobz,
+                                            int                   m,
+                                            int                   n,
+                                            float*                A,
+                                            int                   lda,
+                                            float*                S,
+                                            float*                U,
+                                            int                   ldu,
+                                            float*                V,
+                                            int                   ldv,
+                                            float*                work,
+                                            int                   lwork,
+                                            int*                  devInfo,
+                                            hipsolverGesvdjInfo_t params,
+                                            int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvdjBatched(hipsolverDnHandle_t   handle,
+                                            hipsolverEigMode_t    jobz,
+                                            int                   m,
+                                            int                   n,
+                                            double*               A,
+                                            int                   lda,
+                                            double*               S,
+                                            double*               U,
+                                            int                   ldu,
+                                            double*               V,
+                                            int                   ldv,
+                                            double*               work,
+                                            int                   lwork,
+                                            int*                  devInfo,
+                                            hipsolverGesvdjInfo_t params,
+                                            int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvdjBatched(hipsolverDnHandle_t   handle,
+                                            hipsolverEigMode_t    jobz,
+                                            int                   m,
+                                            int                   n,
+                                            hipFloatComplex*      A,
+                                            int                   lda,
+                                            float*                S,
+                                            hipFloatComplex*      U,
+                                            int                   ldu,
+                                            hipFloatComplex*      V,
+                                            int                   ldv,
+                                            hipFloatComplex*      work,
+                                            int                   lwork,
+                                            int*                  devInfo,
+                                            hipsolverGesvdjInfo_t params,
+                                            int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+ hipsolverStatus_t hipsolverDnZgesvdjBatched(hipsolverDnHandle_t   handle,
+                                             hipsolverEigMode_t    jobz,
+                                             int                   m,
+                                             int                   n,
+                                             hipDoubleComplex*     A,
+                                             int                   lda,
+                                             double*               S,
+                                             hipDoubleComplex*     U,
+                                             int                   ldu,
+                                             hipDoubleComplex*     V,
+                                             int                   ldv,
+                                             hipDoubleComplex*     work,
+                                             int                   lwork,
+                                             int*                  devInfo,
+                                             hipsolverGesvdjInfo_t params,
+                                             int                   batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnSgesvdaStridedBatched_bufferSize(hipsolverHandle_t  handle,
+                                                hipsolverEigMode_t jobz,
+                                                int                rank,
+                                                int                m,
+                                                int                n,
+                                                const float*       A,
+                                                int                lda,
+                                                long long int      strideA,
+                                                const float*       S,
+                                                long long int      strideS,
+                                                const float*       U,
+                                                int                ldu,
+                                                long long int      strideU,
+                                                const float*       V,
+                                                int                ldv,
+                                                long long int      strideV,
+                                                int*               lwork,
+                                                int                batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnDgesvdaStridedBatched_bufferSize(hipsolverHandle_t  handle,
+                                                hipsolverEigMode_t jobz,
+                                                int                rank,
+                                                int                m,
+                                                int                n,
+                                                const double*      A,
+                                                int                lda,
+                                                long long int      strideA,
+                                                const double*      S,
+                                                long long int      strideS,
+                                                const double*      U,
+                                                int                ldu,
+                                                long long int      strideU,
+                                                const double*      V,
+                                                int                ldv,
+                                                long long int      strideV,
+                                                int*               lwork,
+                                                int                batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnCgesvdaStridedBatched_bufferSize(hipsolverHandle_t      handle,
+                                                hipsolverEigMode_t     jobz,
+                                                int                    rank,
+                                                int                    m,
+                                                int                    n,
+                                                const hipFloatComplex* A,
+                                                int                    lda,
+                                                long long int          strideA,
+                                                const float*           S,
+                                                long long int          strideS,
+                                                const hipFloatComplex* U,
+                                                int                    ldu,
+                                                long long int          strideU,
+                                                const hipFloatComplex* V,
+                                                int                    ldv,
+                                                long long int          strideV,
+                                                int*                   lwork,
+                                                int                    batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t
+    hipsolverDnZgesvdaStridedBatched_bufferSize(hipsolverHandle_t       handle,
+                                                hipsolverEigMode_t      jobz,
+                                                int                     rank,
+                                                int                     m,
+                                                int                     n,
+                                                const hipDoubleComplex* A,
+                                                int                     lda,
+                                                long long int           strideA,
+                                                const double*           S,
+                                                long long int           strideS,
+                                                const hipDoubleComplex* U,
+                                                int                     ldu,
+                                                long long int           strideU,
+                                                const hipDoubleComplex* V,
+                                                int                     ldv,
+                                                long long int           strideV,
+                                                int*                    lwork,
+                                                int                     batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSgesvdaStridedBatched(hipsolverHandle_t  handle,
+                                                   hipsolverEigMode_t jobz,
+                                                   int                rank,
+                                                   int                m,
+                                                   int                n,
+                                                   const float*       A,
+                                                   int                lda,
+                                                   long long int      strideA,
+                                                   float*             S,
+                                                   long long int      strideS,
+                                                   float*             U,
+                                                   int                ldu,
+                                                   long long int      strideU,
+                                                   float*             V,
+                                                   int                ldv,
+                                                   long long int      strideV,
+                                                   float*             work,
+                                                   int                lwork,
+                                                   int*               devInfo,
+                                                   double*            hRnrmF,
+                                                   int                batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDgesvdaStridedBatched(hipsolverHandle_t  handle,
+                                                   hipsolverEigMode_t jobz,
+                                                   int                rank,
+                                                   int                m,
+                                                   int                n,
+                                                   const double*      A,
+                                                   int                lda,
+                                                   long long int      strideA,
+                                                   double*            S,
+                                                   long long int      strideS,
+                                                   double*            U,
+                                                   int                ldu,
+                                                   long long int      strideU,
+                                                   double*            V,
+                                                   int                ldv,
+                                                   long long int      strideV,
+                                                   double*            work,
+                                                   int                lwork,
+                                                   int*               devInfo,
+                                                   double*            hRnrmF,
+                                                   int                batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCgesvdaStridedBatched(hipsolverHandle_t      handle,
+                                                   hipsolverEigMode_t     jobz,
+                                                   int                    rank,
+                                                   int                    m,
+                                                   int                    n,
+                                                   const hipFloatComplex* A,
+                                                   int                    lda,
+                                                   long long int          strideA,
+                                                   float*                 S,
+                                                   long long int          strideS,
+                                                   hipFloatComplex*       U,
+                                                   int                    ldu,
+                                                   long long int          strideU,
+                                                   hipFloatComplex*       V,
+                                                   int                    ldv,
+                                                   long long int          strideV,
+                                                   hipFloatComplex*       work,
+                                                   int                    lwork,
+                                                   int*                   devInfo,
+                                                   double*                hRnrmF,
+                                                   int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZgesvdaStridedBatched(hipsolverHandle_t       handle,
+                                                   hipsolverEigMode_t      jobz,
+                                                   int                     rank,
+                                                   int                     m,
+                                                   int                     n,
+                                                   const hipDoubleComplex* A,
+                                                   int                     lda,
+                                                   long long int           strideA,
+                                                   double*                 S,
+                                                   long long int           strideS,
+                                                   hipDoubleComplex*       U,
+                                                   int                     ldu,
+                                                   long long int           strideU,
+                                                   hipDoubleComplex*       V,
+                                                   int                     ldv,
+                                                   long long int           strideV,
+                                                   hipDoubleComplex*       work,
+                                                   int                     lwork,
+                                                   int*                    devInfo,
+                                                   double*                 hRnrmF,
+                                                   int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevd_bufferSize(hipsolverHandle_t  handle,
+                                               hipsolverEigMode_t jobz,
+                                               hipsolverFillMode_t  uplo,
+                                               int                n,
+                                               const float*       A,
+                                               int                lda,
+                                               const float*       W,
+                                               int*               lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevd_bufferSize(hipsolverHandle_t  handle,
+                                               hipsolverEigMode_t jobz,
+                                               hipsolverFillMode_t  uplo,
+                                               int                n,
+                                               const double*      A,
+                                               int                lda,
+                                               const double*      W,
+                                               int*               lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevd_bufferSize(hipsolverHandle_t      handle,
+                                               hipsolverEigMode_t     jobz,
+                                               hipsolverFillMode_t      uplo,
+                                               int                    n,
+                                               const hipFloatComplex* A,
+                                               int                    lda,
+                                               const float*           W,
+                                               int*                   lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevd_bufferSize(hipsolverHandle_t       handle,
+                                               hipsolverEigMode_t      jobz,
+                                               hipsolverFillMode_t       uplo,
+                                               int                     n,
+                                               const hipDoubleComplex* A,
+                                               int                     lda,
+                                               const double*           W,
+                                               int*                    lwork) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevd(hipsolverHandle_t  handle,
+                                    hipsolverEigMode_t jobz,
+                                    hipsolverFillMode_t  uplo,
+                                    int                n,
+                                    float*             A,
+                                    int                lda,
+                                    float*             W,
+                                    float*             work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevd(hipsolverHandle_t  handle,
+                                    hipsolverEigMode_t jobz,
+                                    hipsolverFillMode_t  uplo,
+                                    int                n,
+                                    double*            A,
+                                    int                lda,
+                                    double*            W,
+                                    double*            work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevd(hipsolverHandle_t  handle,
+                                    hipsolverEigMode_t jobz,
+                                    hipsolverFillMode_t  uplo,
+                                    int                n,
+                                    hipFloatComplex*   A,
+                                    int                lda,
+                                    float*             W,
+                                    hipFloatComplex*   work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevd(hipsolverHandle_t  handle,
+                                    hipsolverEigMode_t jobz,
+                                    hipsolverFillMode_t  uplo,
+                                    int                n,
+                                    hipDoubleComplex*  A,
+                                    int                lda,
+                                    double*            W,
+                                    hipDoubleComplex*  work,
+                                    int                lwork,
+                                    int*               devInfo) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCreateSyevjInfo(hipsolverSyevjInfo_t* info) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDestroySyevjInfo(hipsolverSyevjInfo_t info) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevjSetTolerance(hipsolverSyevjInfo_t info,
+                                                double               tolerance) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevjSetMaxSweeps(hipsolverSyevjInfo_t info,
+                                                int                  max_sweeps) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevjSetSortEig(hipsolverSyevjInfo_t info,
+                                              int                  sort_eig) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevjGetResidual(hipsolverDnHandle_t  handle,
+                                               hipsolverSyevjInfo_t info,
+                                               double*              residual) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevjGetSweeps(hipsolverDnHandle_t  handle,
+                                             hipsolverSyevjInfo_t info,
+                                             int*                 executed_sweeps) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevj_bufferSize(hipsolverDnHandle_t  handle,
+                                               hipsolverEigMode_t   jobz,
+                                               hipsolverFillMode_t    uplo,
+                                               int                  n,
+                                               const float*         A,
+                                               int                  lda,
+                                               const float*         W,
+                                               int*                 lwork,
+                                               hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevj_bufferSize(hipsolverDnHandle_t  handle,
+                                               hipsolverEigMode_t   jobz,
+                                               hipsolverFillMode_t    uplo,
+                                               int                  n,
+                                               const double*        A,
+                                               int                  lda,
+                                               const double*        W,
+                                               int*                 lwork,
+                                               hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevj_bufferSize(hipsolverDnHandle_t    handle,
+                                               hipsolverEigMode_t     jobz,
+                                               hipsolverFillMode_t      uplo,
+                                               int                    n,
+                                               const hipFloatComplex* A,
+                                               int                    lda,
+                                               const float*           W,
+                                               int*                   lwork,
+                                               hipsolverSyevjInfo_t   params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevj_bufferSize(hipsolverDnHandle_t     handle,
+                                               hipsolverEigMode_t      jobz,
+                                               hipsolverFillMode_t       uplo,
+                                               int                     n,
+                                               const hipDoubleComplex* A,
+                                               int                     lda,
+                                               const double*           W,
+                                               int*                    lwork,
+                                               hipsolverSyevjInfo_t    params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevj(hipsolverDnHandle_t  handle,
+                                    hipsolverEigMode_t   jobz,
+                                    hipsolverFillMode_t    uplo,
+                                    int                  n,
+                                    float*               A,
+                                    int                  lda,
+                                    float*               W,
+                                    float*               work,
+                                    int                  lwork,
+                                    int*                 devInfo,
+                                    hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevj(hipsolverDnHandle_t  handle,
+                                    hipsolverEigMode_t   jobz,
+                                    hipsolverFillMode_t    uplo,
+                                    int                  n,
+                                    double*              A,
+                                    int                  lda,
+                                    double*              W,
+                                    double*              work,
+                                    int                  lwork,
+                                    int*                 devInfo,
+                                    hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevj(hipsolverDnHandle_t  handle,
+                                    hipsolverEigMode_t   jobz,
+                                    hipsolverFillMode_t    uplo,
+                                    int                  n,
+                                    hipFloatComplex*     A,
+                                    int                  lda,
+                                    float*               W,
+                                    hipFloatComplex*     work,
+                                    int                  lwork,
+                                    int*                 devInfo,
+                                    hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevj(hipsolverDnHandle_t  handle,
+                                    hipsolverEigMode_t   jobz,
+                                    hipsolverFillMode_t    uplo,
+                                    int                  n,
+                                    hipDoubleComplex*    A,
+                                    int                  lda,
+                                    double*              W,
+                                    hipDoubleComplex*    work,
+                                    int                  lwork,
+                                    int*                 devInfo,
+                                    hipsolverSyevjInfo_t params) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevjBatched_bufferSize(hipsolverDnHandle_t  handle,
+                                                      hipsolverEigMode_t   jobz,
+                                                      hipsolverFillMode_t    uplo,
+                                                      int                  n,
+                                                      const float*         A,
+                                                      int                  lda,
+                                                      const float*         W,
+                                                      int*                 lwork,
+                                                      hipsolverSyevjInfo_t params,
+                                                      int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevjBatched_bufferSize(hipsolverDnHandle_t  handle,
+                                                      hipsolverEigMode_t   jobz,
+                                                      hipsolverFillMode_t    uplo,
+                                                      int                  n,
+                                                      const double*        A,
+                                                      int                  lda,
+                                                      const double*        W,
+                                                      int*                 lwork,
+                                                      hipsolverSyevjInfo_t params,
+                                                      int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevjBatched_bufferSize(hipsolverDnHandle_t handle,
+                                                      hipsolverEigMode_t  jobz,
+                                                      hipsolverFillMode_t   uplo,
+                                                      int                 n,
+                                                      const hipFloatComplex* A,
+                                                      int                    lda,
+                                                      const float*           W,
+                                                      int*                   lwork,
+                                                      hipsolverSyevjInfo_t params,
+                                                      int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevjBatched_bufferSize(hipsolverDnHandle_t handle,
+                                                      hipsolverEigMode_t  jobz,
+                                                      hipsolverFillMode_t   uplo,
+                                                      int                 n,
+                                                      const hipDoubleComplex* A,
+                                                      int                     lda,
+                                                      const double*           W,
+                                                      int*                 lwork,
+                                                      hipsolverSyevjInfo_t params,
+                                                      int batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnSsyevjBatched(hipsolverDnHandle_t  handle,
+                                           hipsolverEigMode_t   jobz,
+                                           hipsolverFillMode_t    uplo,
+                                           int                  n,
+                                           float*               A,
+                                           int                  lda,
+                                           float*               W,
+                                           float*               work,
+                                           int                  lwork,
+                                           int*                 devInfo,
+                                           hipsolverSyevjInfo_t params,
+                                           int                  batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnDsyevjBatched(hipsolverDnHandle_t  handle,
+                                           hipsolverEigMode_t   jobz,
+                                           hipsolverFillMode_t    uplo,
+                                           int                  n,
+                                           double*              A,
+                                           int                  lda,
+                                           double*              W,
+                                           double*              work,
+                                           int                  lwork,
+                                           int*                 devInfo,
+                                           hipsolverSyevjInfo_t params,
+                                           int                  batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnCheevjBatched(hipsolverDnHandle_t  handle,
+                                           hipsolverEigMode_t   jobz,
+                                           hipsolverFillMode_t    uplo,
+                                           int                  n,
+                                           hipFloatComplex*     A,
+                                           int                  lda,
+                                           float*               W,
+                                           hipFloatComplex*     work,
+                                           int                  lwork,
+                                           int*                 devInfo,
+                                           hipsolverSyevjInfo_t params,
+                                           int                  batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnZheevjBatched(hipsolverDnHandle_t  handle,
+                                           hipsolverEigMode_t   jobz,
+                                           hipsolverFillMode_t    uplo,
+                                           int                  n,
+                                           hipDoubleComplex*    A,
+                                           int                  lda,
+                                           double*              W,
+                                           hipDoubleComplex*    work,
+                                           int                  lwork,
+                                           int*                 devInfo,
+                                           hipsolverSyevjInfo_t params,
+                                           int                  batch_count) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+#endif
+
+hipsolverStatus_t cusolverDnCreateParams(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDestroyParams(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+typedef void* cusolverSpHandle_t;
+typedef void* hipsparseMatDescr_t;
+
+hipsolverStatus_t cusolverSpGetStream(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpSetStream(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZZgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZCgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZYgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZKgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCCgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnCYgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnCKgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDDgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDSgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDXgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDHgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSSgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSXgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSHgels_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnZZgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnZCgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnZYgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnZKgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnCCgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnCYgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnCKgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDDgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDSgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDXgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnDHgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSSgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSXgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+hipsolverStatus_t cusolverDnSHgels(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZZgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZCgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZYgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZKgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCCgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCYgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCKgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDDgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDSgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDXgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDHgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSSgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSXgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSHgesv_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZZgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZCgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZYgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnZKgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCCgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCYgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnCKgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDDgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDSgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDXgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnDHgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSSgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSXgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverDnSHgesv(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevd_bufferSize(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t hipsolverDnXsyevd(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpCreate(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpDestroy(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpScsrlsvqr(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpDcsrlsvqr(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpCcsrlsvqr(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpZcsrlsvqr(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpScsrlsvchol(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpDcsrlsvchol(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpCcsrlsvchol(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpZcsrlsvchol(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpScsreigvsi(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpDcsreigvsi(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpCcsreigvsi(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+hipsolverStatus_t cusolverSpZcsreigvsi(...) {
+    return HIPSOLVER_STATUS_NOT_SUPPORTED;
+}
+
+} // extern "C"
+
+#endif // #ifdef INCLUDE_GUARD_HIP_CUPY_ROCSOLVER_H
diff --git a/cupyx/cusolver.pyx b/cupyx/cusolver.pyx
index 9ff834d6d5e..1e528441ed4 100644
--- a/cupyx/cusolver.pyx
+++ b/cupyx/cusolver.pyx
@@ -7,12 +7,19 @@ import warnings as _warnings
 import numpy as _numpy
 
 from cupy_backends.cuda.api cimport runtime
-from cupy_backends.cuda.libs cimport cusolver
-# due to a Cython bug (cython/cython#4000) we cannot just cimport the module
-from cupy_backends.cuda.libs.cusolver cimport (  # noqa
-    sgesvd_bufferSize, dgesvd_bufferSize, cgesvd_bufferSize, zgesvd_bufferSize,
-    sgeqrf_bufferSize, dgeqrf_bufferSize, cgeqrf_bufferSize, zgeqrf_bufferSize,
-    sorgqr_bufferSize, dorgqr_bufferSize, cungqr_bufferSize, zungqr_bufferSize)
+IF CUPY_HIP_VERSION != 0:
+    from cupy_backends.cuda.libs import cusolver_hip as cusolver
+    from cupy_backends.cuda.libs.cusolver import *
+ELSE:
+    from cupy_backends.cuda.libs cimport cusolver
+    # due to a Cython bug (cython/cython#4000) we cannot just
+    # cimport the module
+    from cupy_backends.cuda.libs.cusolver cimport (  # noqa
+        sgesvd_bufferSize, dgesvd_bufferSize, cgesvd_bufferSize,
+        zgesvd_bufferSize, sgeqrf_bufferSize, dgeqrf_bufferSize,
+        cgeqrf_bufferSize, zgeqrf_bufferSize, sorgqr_bufferSize,
+        dorgqr_bufferSize, cungqr_bufferSize, zungqr_bufferSize)
+
 
 from cupy.cuda cimport memory
 from cupy._core.core cimport _internal_ascontiguousarray
@@ -232,11 +239,7 @@ cpdef _gesvdj_batched(a, full_matrices, compute_uv, overwrite_a):
     handle = _device.get_cusolver_handle()
     batch_size, m, n = a.shape
     a = _cupy.array(a.swapaxes(-2, -1), order='C', copy=not overwrite_a)
-    if runtime._is_hip_environment:
-        # rocsolver_<t>gesvd_batched has a different signature...
-        ap = _linalg._mat_ptrs(a)
-    else:
-        ap = a
+    ap = a
     lda = m
     mn = min(m, n)
     s = _cupy.empty((batch_size, mn), dtype=s_dtype)
@@ -262,8 +265,6 @@ cpdef _gesvdj_batched(a, full_matrices, compute_uv, overwrite_a):
         gesvdj, info)
 
     _cusolver.destroyGesvdjInfo(params)
-    if runtime._is_hip_environment:
-        v = v.swapaxes(-1, -2).conj()
     if not full_matrices:
         u = u[..., :mn]
         v = v[..., :mn]
@@ -571,11 +572,7 @@ def _syevj_batched(a, UPLO, with_eigen_vector):
     a = a.reshape(batch_size, m, lda)
     v = _cupy.array(
         a.swapaxes(-2, -1), order='C', copy=True, dtype=dtype)
-    if runtime._is_hip_environment:
-        # the batched syev/heev has a different signature...
-        vp = _linalg._mat_ptrs(v)
-    else:
-        vp = v
+    vp = v
 
     w = _cupy.empty((batch_size, m), real_dtype).swapaxes(-2, -1)
     dev_info = _cupy.empty((batch_size,), _cupy.int32)

From 74652855535b6a25b10f3c3c4a6e2f5e78cbca33 Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 19:31:57 +0000
Subject: [PATCH 14/49] changes from 11050f0

---
 install/cupy_builder/_features.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/install/cupy_builder/_features.py b/install/cupy_builder/_features.py
index b6f10a087d3..7446a1e0c93 100644
--- a/install/cupy_builder/_features.py
+++ b/install/cupy_builder/_features.py
@@ -160,6 +160,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
         'file': _cuda_files + [
             'cupy_backends.cuda.libs.nvtx',
             'cupy_backends.cuda.libs.cusolver',
+            'cupy_backends.cuda.libs.cusolver_hip',
             'cupyx.cusolver',
         ],
         'include': [
@@ -171,6 +172,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'hipfft/hipfft.h' if rocm_version >= 560 else 'hipfft.h',
             'roctx.h',
             'rocsolver/rocsolver.h' if rocm_version >= 560 else 'rocsolver.h',
+            'hipsolver/hipsolver.h' if rocm_version >= 560 else 'hipsolver.h',
         ],
         'libraries': [
             'amdhip64',  # was hiprtc and hip_hcc before ROCm 3.8.0
@@ -183,6 +185,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'rocblas',
             'rocsolver',
             'rocsparse',
+            'hipsolver',
         ],
         'check_method': build.check_hip_version,
         'version_method': build.get_hip_version,

From 67dd98128f6bb2e2028088b1acc8b5ecba735eec Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Mon, 6 Nov 2023 20:22:39 +0000
Subject: [PATCH 15/49] changes for installing cupy after rocm6.0 changes for
 cusolver

---
 install/amd_build/rocm_custom_mapping.json |  5 +++++
 install/cupy_builder/_command.py           |  4 ++++
 setup.py                                   | 20 ++++++++++++++++++++
 3 files changed, 29 insertions(+)
 create mode 100644 install/amd_build/rocm_custom_mapping.json

diff --git a/install/amd_build/rocm_custom_mapping.json b/install/amd_build/rocm_custom_mapping.json
new file mode 100644
index 00000000000..728ed421b85
--- /dev/null
+++ b/install/amd_build/rocm_custom_mapping.json
@@ -0,0 +1,5 @@
+{
+    "custom_map": {
+        "CUPY_USE_GEN_HIP_CODE" : "CUPY_DONT_USE_GEN_HIP_CODE"
+    }
+}
diff --git a/install/cupy_builder/_command.py b/install/cupy_builder/_command.py
index 6d264c8a402..5526a926d63 100644
--- a/install/cupy_builder/_command.py
+++ b/install/cupy_builder/_command.py
@@ -122,13 +122,17 @@ def _cythonize(self, nthreads: int) -> None:
         if ctx.use_stub:  # on RTD
             compile_time_env['CUPY_CUDA_VERSION'] = 0
             compile_time_env['CUPY_HIP_VERSION'] = 0
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 0
         elif ctx.use_hip:  # on ROCm/HIP
             compile_time_env['CUPY_CUDA_VERSION'] = 0
             compile_time_env['CUPY_HIP_VERSION'] = build.get_hip_version()
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 1
+            compile_time_env['CUPY_DONT_USE_GEN_HIP_CODE'] = 0
         else:  # on CUDA
             compile_time_env['CUPY_CUDA_VERSION'] = (
                 ctx.features['cuda'].get_version())
             compile_time_env['CUPY_HIP_VERSION'] = 0
+            compile_time_env['CUPY_USE_GEN_HIP_CODE'] = 0
 
         print('Compile-time constants: ' +
               json.dumps(compile_time_env, indent=4))
diff --git a/setup.py b/setup.py
index 2c2e6f64c9f..96501eeba73 100644
--- a/setup.py
+++ b/setup.py
@@ -10,12 +10,32 @@
 
 import cupy_builder  # NOQA
 from cupy_builder import cupy_setup_build  # NOQA
+from cupy_builder.install_utils import get_rocm_version  # NOQA
 
 ctx = cupy_builder.Context(source_root)
 cupy_builder.initialize(ctx)
 if not cupy_builder.preflight_check(ctx):
     sys.exit(1)
 
+# hipify cupy
+if get_rocm_version() > 0:
+    # run hipify.
+    from hipify_torch import hipify_python
+    proj_dir = os.path.join(source_root, "cupy_backends", "cuda")
+    print("INFO: hipification of cupy_backends in progress ...")
+    with hipify_python.GeneratedFileCleaner(keep_intermediates=True) as \
+            clean_ctx:
+        hipify_python.hipify(
+            project_directory=proj_dir,
+            output_directory=proj_dir,
+            includes=['*'],
+            extra_extensions=(".pyx", ".pxd",".pxi"),
+            show_detailed=True,
+            header_include_dirs=[],
+            custom_map_list="install/amd_build/rocm_custom_mapping.json",
+            is_pytorch_extension=True,
+            clean_ctx=clean_ctx,
+        )
 
 # TODO(kmaehashi): migrate to pyproject.toml (see #4727, #4619)
 setup_requires = [

From 901839112ecd3e8bd0878ae62b42d3c95581a326 Mon Sep 17 00:00:00 2001
From: Prasanth Nunna <Prasanth.Nunna@amd.com>
Date: Wed, 8 Nov 2023 17:36:00 +0000
Subject: [PATCH 16/49] Add prefix back and hipify torch dict for hip function
 mappings

---
 cupy_backends/cuda/_softlink.pyx    | 18 ++++++++++++--
 cupy_backends/cuda/libs/_cnvrtc.pxi | 37 +++++++++++++++--------------
 2 files changed, 35 insertions(+), 20 deletions(-)

diff --git a/cupy_backends/cuda/_softlink.pyx b/cupy_backends/cuda/_softlink.pyx
index cbe732a2335..9cc327d4d17 100644
--- a/cupy_backends/cuda/_softlink.pyx
+++ b/cupy_backends/cuda/_softlink.pyx
@@ -4,10 +4,19 @@ import warnings
 from libc.stdint cimport intptr_t
 cimport cython
 
+def get_hipfuncname(cudafuncname):
+    import hipify_torch
+    from hipify_torch import cuda_to_hip_mappings
+    cuda_to_hip_map_list = cuda_to_hip_mappings.CUDA_TO_HIP_MAPPINGS
+    for cuda_to_hip_map in cuda_to_hip_map_list:
+        if cudafuncname in cuda_to_hip_map:
+            return cuda_to_hip_map[cudafuncname][0]
+    return cudafuncname
 
 cdef class SoftLink:
-    def __init__(self, object libname, *, bint mandatory=False):
+    def __init__(self, object libname, str prefix, *, bint mandatory=False):
         self.error = None
+        self.prefix = prefix
         self._cdll = None
         if libname is None:
             # Stub build or CUDA/HIP only library.
@@ -30,7 +39,12 @@ cdef class SoftLink:
         """
         if self._cdll is None:
             return <func_ptr>_fail_unsupported
-        cdef str funcname = f'{name}'
+        cudafuncname = f'{self.prefix}{name}'
+        IF CUPY_CUDA_VERSION!=0:
+            cdef str funcname = f'{cudafuncname}'
+        ELSE:
+            hipfuncname = get_hipfuncname(cudafuncname)
+            cdef str funcname = f'{hipfuncname}'
         cdef object func = getattr(self._cdll, funcname, None)
         if func is None:
             return <func_ptr>_fail_not_found
diff --git a/cupy_backends/cuda/libs/_cnvrtc.pxi b/cupy_backends/cuda/libs/_cnvrtc.pxi
index 6a3b0f08a35..0d22cd26486 100644
--- a/cupy_backends/cuda/libs/_cnvrtc.pxi
+++ b/cupy_backends/cuda/libs/_cnvrtc.pxi
@@ -76,43 +76,44 @@ cdef void _initialize() except *:
     _L = _get_softlink()
 
     global nvrtcGetErrorString
-    nvrtcGetErrorString = <F_nvrtcGetErrorString>_L.get('nvrtcGetErrorString')
+    nvrtcGetErrorString = <F_nvrtcGetErrorString>_L.get('GetErrorString')
     global nvrtcVersion
-    nvrtcVersion = <F_nvrtcVersion>_L.get('nvrtcVersion')
+    nvrtcVersion = <F_nvrtcVersion>_L.get('Version')
     global nvrtcCreateProgram
-    nvrtcCreateProgram = <F_nvrtcCreateProgram>_L.get('nvrtcCreateProgram')
+    nvrtcCreateProgram = <F_nvrtcCreateProgram>_L.get('CreateProgram')
     global nvrtcDestroyProgram
-    nvrtcDestroyProgram = <F_nvrtcDestroyProgram>_L.get('nvrtcDestroyProgram')
+    nvrtcDestroyProgram = <F_nvrtcDestroyProgram>_L.get('DestroyProgram')
     global nvrtcCompileProgram
-    nvrtcCompileProgram = <F_nvrtcCompileProgram>_L.get('nvrtcCompileProgram')
+    nvrtcCompileProgram = <F_nvrtcCompileProgram>_L.get('CompileProgram')
     global nvrtcGetPTXSize
-    nvrtcGetPTXSize = <F_nvrtcGetPTXSize>_L.get('nvrtcGetPTXSize')  # NOQA
+    nvrtcGetPTXSize = <F_nvrtcGetPTXSize>_L.get('GetPTXSize' if _L.prefix == 'nvrtc' else 'GetCodeSize')  # NOQA
     global nvrtcGetPTX
-    nvrtcGetPTX = <F_nvrtcGetPTX>_L.get('nvrtcGetPTX')  # NOQA
+    nvrtcGetPTX = <F_nvrtcGetPTX>_L.get('GetPTX' if _L.prefix == 'nvrtc' else 'GetCode')  # NOQA
     global nvrtcGetCUBINSize
-    nvrtcGetCUBINSize = <F_nvrtcGetCUBINSize>_L.get('nvrtcGetCUBINSize')
+    nvrtcGetCUBINSize = <F_nvrtcGetCUBINSize>_L.get('GetCUBINSize')
     global nvrtcGetCUBIN
-    nvrtcGetCUBIN = <F_nvrtcGetCUBIN>_L.get('nvrtcGetCUBIN')
+    nvrtcGetCUBIN = <F_nvrtcGetCUBIN>_L.get('GetCUBIN')
     global nvrtcGetProgramLogSize
-    nvrtcGetProgramLogSize = <F_nvrtcGetProgramLogSize>_L.get('nvrtcGetProgramLogSize')  # NOQA
+    nvrtcGetProgramLogSize = <F_nvrtcGetProgramLogSize>_L.get('GetProgramLogSize')  # NOQA
     global nvrtcGetProgramLog
-    nvrtcGetProgramLog = <F_nvrtcGetProgramLog>_L.get('nvrtcGetProgramLog')
+    nvrtcGetProgramLog = <F_nvrtcGetProgramLog>_L.get('GetProgramLog')
     global nvrtcAddNameExpression
-    nvrtcAddNameExpression = <F_nvrtcAddNameExpression>_L.get('nvrtcAddNameExpression')  # NOQA
+    nvrtcAddNameExpression = <F_nvrtcAddNameExpression>_L.get('AddNameExpression')  # NOQA
     global nvrtcGetLoweredName
-    nvrtcGetLoweredName = <F_nvrtcGetLoweredName>_L.get('nvrtcGetLoweredName')
+    nvrtcGetLoweredName = <F_nvrtcGetLoweredName>_L.get('GetLoweredName')
     global nvrtcGetNumSupportedArchs
-    nvrtcGetNumSupportedArchs = <F_nvrtcGetNumSupportedArchs>_L.get('nvrtcGetNumSupportedArchs')  # NOQA
+    nvrtcGetNumSupportedArchs = <F_nvrtcGetNumSupportedArchs>_L.get('GetNumSupportedArchs')  # NOQA
     global nvrtcGetSupportedArchs
-    nvrtcGetSupportedArchs = <F_nvrtcGetSupportedArchs>_L.get('nvrtcGetSupportedArchs')  # NOQA
+    nvrtcGetSupportedArchs = <F_nvrtcGetSupportedArchs>_L.get('GetSupportedArchs')  # NOQA
     global nvrtcGetNVVMSize
-    nvrtcGetNVVMSize = <F_nvrtcGetNVVMSize>_L.get('nvrtcGetNVVMSize')
+    nvrtcGetNVVMSize = <F_nvrtcGetNVVMSize>_L.get('GetNVVMSize')
     global nvrtcGetNVVM
-    nvrtcGetNVVM = <F_nvrtcGetNVVM>_L.get('nvrtcGetNVVM')
+    nvrtcGetNVVM = <F_nvrtcGetNVVM>_L.get('GetNVVM')
 
 
 cdef SoftLink _get_softlink():
     cdef int runtime_version
+    cdef str prefix = 'nvrtc'
     cdef object libname = None
 
     if CUPY_CUDA_VERSION != 0:
@@ -133,4 +134,4 @@ cdef SoftLink _get_softlink():
         runtime_version = runtime.runtimeGetVersion()
         libname = 'libamdhip64.so'
 
-    return SoftLink(libname, mandatory=True)
+    return SoftLink(libname, prefix, mandatory=True)

From d428b6c87ef2b406fcf621838b54acfaf80cdd23 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 8 Nov 2023 20:16:43 +0000
Subject: [PATCH 17/49] update test_solve.py from 41d4d9e

---
 tests/cupyx_tests/linalg_tests/test_solve.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/tests/cupyx_tests/linalg_tests/test_solve.py b/tests/cupyx_tests/linalg_tests/test_solve.py
index b7d005339c9..fef3275eede 100644
--- a/tests/cupyx_tests/linalg_tests/test_solve.py
+++ b/tests/cupyx_tests/linalg_tests/test_solve.py
@@ -14,8 +14,6 @@
     'size': [5, 9, 17, 33],
     'dtype': [numpy.float32, numpy.float64, numpy.complex64, numpy.complex128],
 }))
-@pytest.mark.xfail(runtime.is_hip,
-                   reason='rocSOLVER does not implement potrs yet.')
 class TestInvh(unittest.TestCase):
 
     @testing.numpy_cupy_allclose(atol=1e-5)

From 3053cd315ab9e6a91cae129d76e45087417affba Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Fri, 10 Nov 2023 21:42:53 +0000
Subject: [PATCH 18/49] Fix cuda build failures

---
 cupy_backends/cuda/_softlink.pyx  | 6 +++---
 cupy_backends/cuda/libs/nvrtc.pyx | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/cupy_backends/cuda/_softlink.pyx b/cupy_backends/cuda/_softlink.pyx
index 9cc327d4d17..5ac5e8ed56e 100644
--- a/cupy_backends/cuda/_softlink.pyx
+++ b/cupy_backends/cuda/_softlink.pyx
@@ -40,11 +40,11 @@ cdef class SoftLink:
         if self._cdll is None:
             return <func_ptr>_fail_unsupported
         cudafuncname = f'{self.prefix}{name}'
-        IF CUPY_CUDA_VERSION!=0:
-            cdef str funcname = f'{cudafuncname}'
-        ELSE:
+        IF CUPY_HIP_VERSION!=0:
             hipfuncname = get_hipfuncname(cudafuncname)
             cdef str funcname = f'{hipfuncname}'
+        ELSE:
+            cdef str funcname = f'{cudafuncname}'
         cdef object func = getattr(self._cdll, funcname, None)
         if func is None:
             return <func_ptr>_fail_not_found
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index f74e4a4fea9..ecaf38edb08 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -28,10 +28,10 @@ ELSE:
         cdef inline void initialize():
             pass
     ELSE:
-        IF CUPY_CUDA_VERSION!=0:
-            include "_cnvrtc.pxi"
-        ELSE:
+        IF CUPY_HIP_VERSION!=0:
             include "_cnvrtc_hip.pxi"
+        ELSE:
+            include "_cnvrtc.pxi"
         pass
 
 

From aa4737aae8536a7019a8ba80f76a03432288b306 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Fri, 10 Nov 2023 18:06:04 -0700
Subject: [PATCH 19/49] Use preprosessor macros to conditionally include pxi
 files

---
 cupy_backends/cuda/libs/nvrtc.pxd |  2 +-
 cupy_backends/cuda/libs/nvrtc.pyx | 19 +++++++++----------
 2 files changed, 10 insertions(+), 11 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pxd b/cupy_backends/cuda/libs/nvrtc.pxd
index 55e57707915..d57ccda9f27 100644
--- a/cupy_backends/cuda/libs/nvrtc.pxd
+++ b/cupy_backends/cuda/libs/nvrtc.pxd
@@ -11,7 +11,7 @@ IF CUPY_USE_CUDA_PYTHON:
     # TODO(kmaehashi): Remove these aliases.
     ctypedef nvrtcProgram Program
 
-IF CUPY_HIP_VERSION == 0:
+IF CUPY_HIP_VERSION != 0:
     cpdef check_status(int status)
 
     cpdef tuple getVersion()
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index ecaf38edb08..6480ce03e74 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -22,18 +22,17 @@ from cupy_backends.cuda.api cimport runtime
 ###############################################################################
 IF CUPY_USE_GEN_HIP_CODE:
     from cupy_backends.cuda.libs.nvrtc_hip import *
-ELSE:
-    IF CUPY_USE_CUDA_PYTHON:
-        from cuda.cnvrtc cimport *
-        cdef inline void initialize():
-            pass
-    ELSE:
-        IF CUPY_HIP_VERSION!=0:
-            include "_cnvrtc_hip.pxi"
-        ELSE:
-            include "_cnvrtc.pxi"
+ELIF CUPY_USE_CUDA_PYTHON:
+    from cuda.cnvrtc cimport *
+    cdef inline void initialize():
         pass
 
+#if CUPY_CUDA_VERSION != 0
+   #include "_cnvrtc.pxi"
+#else
+   #include "_cnvrtc_hip.pxi"
+#endif
+
 
     ###############################################################################
     # Error handling

From 4b161e0a1c25049ebce53a94c307790e19e1856b Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Mon, 13 Nov 2023 15:37:03 +0000
Subject: [PATCH 20/49] Revert "Use preprosessor macros to conditionally
 include pxi files"

This reverts commit aa4737aae8536a7019a8ba80f76a03432288b306.
---
 cupy_backends/cuda/libs/nvrtc.pxd |  2 +-
 cupy_backends/cuda/libs/nvrtc.pyx | 19 ++++++++++---------
 2 files changed, 11 insertions(+), 10 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pxd b/cupy_backends/cuda/libs/nvrtc.pxd
index d57ccda9f27..55e57707915 100644
--- a/cupy_backends/cuda/libs/nvrtc.pxd
+++ b/cupy_backends/cuda/libs/nvrtc.pxd
@@ -11,7 +11,7 @@ IF CUPY_USE_CUDA_PYTHON:
     # TODO(kmaehashi): Remove these aliases.
     ctypedef nvrtcProgram Program
 
-IF CUPY_HIP_VERSION != 0:
+IF CUPY_HIP_VERSION == 0:
     cpdef check_status(int status)
 
     cpdef tuple getVersion()
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index 6480ce03e74..ecaf38edb08 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -22,17 +22,18 @@ from cupy_backends.cuda.api cimport runtime
 ###############################################################################
 IF CUPY_USE_GEN_HIP_CODE:
     from cupy_backends.cuda.libs.nvrtc_hip import *
-ELIF CUPY_USE_CUDA_PYTHON:
-    from cuda.cnvrtc cimport *
-    cdef inline void initialize():
+ELSE:
+    IF CUPY_USE_CUDA_PYTHON:
+        from cuda.cnvrtc cimport *
+        cdef inline void initialize():
+            pass
+    ELSE:
+        IF CUPY_HIP_VERSION!=0:
+            include "_cnvrtc_hip.pxi"
+        ELSE:
+            include "_cnvrtc.pxi"
         pass
 
-#if CUPY_CUDA_VERSION != 0
-   #include "_cnvrtc.pxi"
-#else
-   #include "_cnvrtc_hip.pxi"
-#endif
-
 
     ###############################################################################
     # Error handling

From 1b8a68db44f50a01b659e3153b9f9f1b4d9ace8c Mon Sep 17 00:00:00 2001
From: lcskrishna <lollachaitanya@gmail.com>
Date: Tue, 14 Nov 2023 06:17:32 +0000
Subject: [PATCH 21/49] Test CI for stub/CUDA

---
 setup.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 96501eeba73..139ecf2f62a 100644
--- a/setup.py
+++ b/setup.py
@@ -18,7 +18,8 @@
     sys.exit(1)
 
 # hipify cupy
-if get_rocm_version() > 0:
+if True:
+#if get_rocm_version() > 0:
     # run hipify.
     from hipify_torch import hipify_python
     proj_dir = os.path.join(source_root, "cupy_backends", "cuda")

From 3b2264bbd38f31ca1482167c6f4e0f846b7a99e5 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Tue, 14 Nov 2023 20:03:40 +0000
Subject: [PATCH 22/49] update from code review comments

---
 .github/workflows/pretest-rocm-test.sh | 13 +++++++++----
 1 file changed, 9 insertions(+), 4 deletions(-)

diff --git a/.github/workflows/pretest-rocm-test.sh b/.github/workflows/pretest-rocm-test.sh
index ce9da15928f..a0b813860d4 100644
--- a/.github/workflows/pretest-rocm-test.sh
+++ b/.github/workflows/pretest-rocm-test.sh
@@ -2,15 +2,20 @@
 
 set -uex
 
+# Python 3.8 (Ubuntu 20.04)
 apt-get -y update
-DEBIAN_FRONTEND=noninteractive apt-get -y install python3.9-dev python3-pip
+DEBIAN_FRONTEND=noninteractive apt-get -y install python3-pip python3-dev git
 
 hipconfig
 
-python3.9 -m pip install -U pip wheel
+pip3 install -U pip wheel
+pip3 install cython
+
+# install hipify_torch
+pip3 install git+https://github.com/ROCmSoftwarePlatform/hipify_torch.git
 
 export ROCM_HOME="/opt/rocm"
 export HCC_AMDGPU_TARGET="gfx900"
 export CUPY_INSTALL_USE_HIP="1"
-python3.9 -m pip install -v -e .
-python3.9 -c "import cupy; cupy.show_config()"
+pip3 install -v -e .
+python3 -c "import cupy; cupy.show_config()"

From 24540bfa1f40b58c49a694b81541150a01e47038 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Tue, 14 Nov 2023 20:17:29 +0000
Subject: [PATCH 23/49] pre-commit flaske issue

---
 tests/cupyx_tests/linalg_tests/test_solve.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tests/cupyx_tests/linalg_tests/test_solve.py b/tests/cupyx_tests/linalg_tests/test_solve.py
index fef3275eede..69247bc940a 100644
--- a/tests/cupyx_tests/linalg_tests/test_solve.py
+++ b/tests/cupyx_tests/linalg_tests/test_solve.py
@@ -4,7 +4,6 @@
 import pytest
 
 import cupy
-from cupy.cuda import runtime
 from cupyx import cusolver
 from cupy import testing
 import cupyx

From 03722a3ec50f1694af6c995fac0d47d33c955e51 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Tue, 14 Nov 2023 16:06:33 -0700
Subject: [PATCH 24/49] Fix build issues with CUDA/stub builds & enable hipify
 torch in CI/CD

---
 .github/workflows/pretest.yml     | 5 +++++
 cupy_backends/cuda/_softlink.pyx  | 2 +-
 cupy_backends/cuda/libs/nvrtc.pyx | 2 +-
 setup.py                          | 5 ++---
 4 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/pretest.yml b/.github/workflows/pretest.yml
index 48bdd15088a..6c1d605bc8d 100644
--- a/.github/workflows/pretest.yml
+++ b/.github/workflows/pretest.yml
@@ -32,6 +32,10 @@ jobs:
       run: |
         pip install pre-commit
 
+    - name: Install hipify-torch
+      run: |
+        pip install git+https://github.com/ROCmSoftwarePlatform/hipify_torch.git
+
     - name: Check
       run: |
         pre-commit run -a --show-diff-on-failure
@@ -77,6 +81,7 @@ jobs:
 
     - name: Build
       run: |
+        pip install git+https://github.com/ROCmSoftwarePlatform/hipify_torch.git
         pip install -U pip wheel
         READTHEDOCS=True pip install -v -e .
         ccache --max-size 0.5Gi --cleanup --show-stats
diff --git a/cupy_backends/cuda/_softlink.pyx b/cupy_backends/cuda/_softlink.pyx
index 5ac5e8ed56e..256f7402dcb 100644
--- a/cupy_backends/cuda/_softlink.pyx
+++ b/cupy_backends/cuda/_softlink.pyx
@@ -40,7 +40,7 @@ cdef class SoftLink:
         if self._cdll is None:
             return <func_ptr>_fail_unsupported
         cudafuncname = f'{self.prefix}{name}'
-        IF CUPY_HIP_VERSION!=0:
+        IF CUPY_HIP_VERSION != 0:
             hipfuncname = get_hipfuncname(cudafuncname)
             cdef str funcname = f'{hipfuncname}'
         ELSE:
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index ecaf38edb08..c783acfeaa1 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -28,7 +28,7 @@ ELSE:
         cdef inline void initialize():
             pass
     ELSE:
-        IF CUPY_HIP_VERSION!=0:
+        IF CUPY_HIP_VERSION != 0:
             include "_cnvrtc_hip.pxi"
         ELSE:
             include "_cnvrtc.pxi"
diff --git a/setup.py b/setup.py
index 139ecf2f62a..9a61835bdfa 100644
--- a/setup.py
+++ b/setup.py
@@ -17,9 +17,8 @@
 if not cupy_builder.preflight_check(ctx):
     sys.exit(1)
 
-# hipify cupy
-if True:
-#if get_rocm_version() > 0:
+# Note: Used for generating HIP equivalent .pyx .pxd .pxi files. Necessary for CUDA/Stub builds. 
+if get_rocm_version() > 0 or ctx.use_stub :
     # run hipify.
     from hipify_torch import hipify_python
     proj_dir = os.path.join(source_root, "cupy_backends", "cuda")

From 3941cefc9b78d4488801c696d2f8fbcffe24a16c Mon Sep 17 00:00:00 2001
From: root <root@hyd-7c-zt06-04.amd.com>
Date: Wed, 15 Nov 2023 01:33:02 +0000
Subject: [PATCH 25/49] fixed flake8 issues

---
 cupy_backends/cuda/_softlink.pyx  |   2 +
 cupy_backends/cuda/libs/nvrtc.pyx | 428 +++++++++++++++---------------
 setup.py                          |   7 +-
 3 files changed, 220 insertions(+), 217 deletions(-)

diff --git a/cupy_backends/cuda/_softlink.pyx b/cupy_backends/cuda/_softlink.pyx
index 256f7402dcb..50ca9d6cfa1 100644
--- a/cupy_backends/cuda/_softlink.pyx
+++ b/cupy_backends/cuda/_softlink.pyx
@@ -4,6 +4,7 @@ import warnings
 from libc.stdint cimport intptr_t
 cimport cython
 
+
 def get_hipfuncname(cudafuncname):
     import hipify_torch
     from hipify_torch import cuda_to_hip_mappings
@@ -13,6 +14,7 @@ def get_hipfuncname(cudafuncname):
             return cuda_to_hip_map[cudafuncname][0]
     return cudafuncname
 
+
 cdef class SoftLink:
     def __init__(self, object libname, str prefix, *, bint mandatory=False):
         self.error = None
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index c783acfeaa1..f83613c4435 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -34,225 +34,225 @@ ELSE:
             include "_cnvrtc.pxi"
         pass
 
-
-    ###############################################################################
+###############################################################################
     # Error handling
-    ###############################################################################
-
-    class NVRTCError(RuntimeError):
-
-        def __init__(self, status):
-            initialize()
-            self.status = status
-            cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
-            super(NVRTCError, self).__init__(
-                '{} ({})'.format(msg.decode(), status))
-
-        def __reduce__(self):
-            return (type(self), (self.status,))
-
-
-    @cython.profile(False)
-    cpdef inline check_status(int status):
-        if status != 0:
-            raise NVRTCError(status)
-
-
-    cpdef tuple getVersion():
-        initialize()
-        cdef int major, minor
-        with nogil:
-            status = nvrtcVersion(&major, &minor)
-        check_status(status)
-        return major, minor
-
+###############################################################################
 
-    cpdef tuple getSupportedArchs():
-        initialize()
-        cdef int status, num_archs
-        cdef vector.vector[int] archs
-        if runtime._is_hip_environment:
-            raise RuntimeError("HIP does not support getSupportedArchs")
-        if runtime.runtimeGetVersion() < 11020:
-            raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
-        with nogil:
-            status = nvrtcGetNumSupportedArchs(&num_archs)
-            if status == 0:
-                archs.resize(num_archs)
-                status = nvrtcGetSupportedArchs(archs.data())
-        check_status(status)
-        return tuple(archs)
-
-
-    ###############################################################################
-    # Program
-    ###############################################################################
-
-    cpdef intptr_t createProgram(unicode src, unicode name, headers,
-                                 include_names) except? 0:
-        initialize()
-        cdef Program prog
-        cdef bytes b_src = src.encode()
-        cdef const char* src_ptr = b_src
-        cdef bytes b_name = name.encode()
-        cdef const char* name_ptr
-        if len(name) > 0:
-            name_ptr = b_name
-        else:
-            name_ptr = NULL
-        cdef int num_headers = len(headers)
-        cdef vector.vector[const char*] header_vec
-        cdef vector.vector[const char*] include_name_vec
-        cdef const char** header_vec_ptr = NULL
-        cdef const char** include_name_vec_ptr = NULL
-        assert num_headers == len(include_names)
-        for i in headers:
-            header_vec.push_back(<const char*>i)
-        for i in include_names:
-            include_name_vec.push_back(<const char*>i)
-        if num_headers > 0:
-            header_vec_ptr = header_vec.data()
-            include_name_vec_ptr = include_name_vec.data()
-        with nogil:
-            status = nvrtcCreateProgram(
-                &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
-                include_name_vec_ptr)
-        check_status(status)
-        return <intptr_t>prog
-
-
-    cpdef destroyProgram(intptr_t prog):
-        initialize()
-        cdef Program p = <Program>prog
-        with nogil:
-            status = nvrtcDestroyProgram(&p)
-        check_status(status)
 
+class NVRTCError(RuntimeError):
 
-    cpdef compileProgram(intptr_t prog, options):
-        initialize()
-        cdef int option_num = len(options)
-        cdef vector.vector[const char*] option_vec
-        cdef option_list = [opt.encode() for opt in options]
-        cdef const char** option_vec_ptr = NULL
-        for i in option_list:
-            option_vec.push_back(<const char*>i)
-        if option_num > 0:
-            option_vec_ptr = option_vec.data()
-        with nogil:
-            status = nvrtcCompileProgram(<Program>prog, option_num,
-                                         option_vec_ptr)
-        check_status(status)
-
-
-    cpdef bytes getPTX(intptr_t prog):
-        initialize()
-        cdef size_t ptxSizeRet
-        cdef vector.vector[char] ptx
-        cdef char* ptx_ptr = NULL
-        with nogil:
-            status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
-        check_status(status)
-        if ptxSizeRet == 0:
-            return b''
-        ptx.resize(ptxSizeRet)
-        ptx_ptr = ptx.data()
-        with nogil:
-            status = nvrtcGetPTX(<Program>prog, ptx_ptr)
-        check_status(status)
-
-        # Strip the trailing NULL.
-        return ptx_ptr[:ptxSizeRet-1]
-
-
-    cpdef bytes getCUBIN(intptr_t prog):
-        initialize()
-        cdef size_t cubinSizeRet = 0
-        cdef vector.vector[char] cubin
-        cdef char* cubin_ptr = NULL
-        if runtime._is_hip_environment:
-            raise RuntimeError("HIP does not support getCUBIN")
-        if runtime.runtimeGetVersion() < 11010:
-            raise RuntimeError("getCUBIN is supported since CUDA 11.1")
-        with nogil:
-            status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
-        check_status(status)
-        if cubinSizeRet <= 1:
-            # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
-            # spec says it should be 0 in this case...
-            raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
-                               'not provided')
-        cubin.resize(cubinSizeRet)
-        cubin_ptr = cubin.data()
-        with nogil:
-            status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
-        check_status(status)
-
-        # Strip the trailing NULL.
-        return cubin_ptr[:cubinSizeRet-1]
-
-
-    cpdef bytes getNVVM(intptr_t prog):
+    def __init__(self, status):
         initialize()
-        if runtime._is_hip_environment:
-            raise RuntimeError("HIP does not support getNVVM")
-        if runtime.runtimeGetVersion() < 11040:
-            raise RuntimeError("getNVVM is supported since CUDA 11.4")
-
-        cdef size_t nvvmSizeRet = 0
-        cdef vector.vector[char] nvvm
-        cdef char* nvvm_ptr = NULL
-
-        with nogil:
-            status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
-        check_status(status)
-
-        nvvm.resize(nvvmSizeRet)
-        nvvm_ptr = nvvm.data()
-        with nogil:
-            status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
-        check_status(status)
+        self.status = status
+        cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
+        super(NVRTCError, self).__init__(
+            '{} ({})'.format(msg.decode(), status))
+
+    def __reduce__(self):
+        return (type(self), (self.status,))
+
+
+@cython.profile(False)
+cpdef inline check_status(int status):
+    if status != 0:
+        raise NVRTCError(status)
+
+
+cpdef tuple getVersion():
+    initialize()
+    cdef int major, minor
+    with nogil:
+        status = nvrtcVersion(&major, &minor)
+    check_status(status)
+    return major, minor
+
+
+cpdef tuple getSupportedArchs():
+    initialize()
+    cdef int status, num_archs
+    cdef vector.vector[int] archs
+    if runtime._is_hip_environment:
+        raise RuntimeError("HIP does not support getSupportedArchs")
+    if runtime.runtimeGetVersion() < 11020:
+        raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
+    with nogil:
+        status = nvrtcGetNumSupportedArchs(&num_archs)
+        if status == 0:
+            archs.resize(num_archs)
+            status = nvrtcGetSupportedArchs(archs.data())
+    check_status(status)
+    return tuple(archs)
 
-        # Strip the trailing NULL.
-        return nvvm_ptr[:nvvmSizeRet-1]
-
-
-    cpdef unicode getProgramLog(intptr_t prog):
-        initialize()
-        cdef size_t logSizeRet
-        cdef vector.vector[char] log
-        cdef char* log_ptr = NULL
-        with nogil:
-            status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
-        check_status(status)
-        if logSizeRet == 0:
-            return ''
-        log.resize(logSizeRet)
-        log_ptr = log.data()
-        with nogil:
-            status = nvrtcGetProgramLog(<Program>prog, log_ptr)
-        check_status(status)
-
-        # Strip the trailing NULL.
-        return log_ptr[:logSizeRet-1].decode('UTF-8')
-
-
-    cpdef addNameExpression(intptr_t prog, str name):
-        initialize()
-        cdef bytes b_name = name.encode()
-        cdef const char* c_name = b_name
-        with nogil:
-            status = nvrtcAddNameExpression(<Program>prog, c_name)
-        check_status(status)
 
+###############################################################################
+# Program
+###############################################################################
 
-    cpdef str getLoweredName(intptr_t prog, str name):
-        initialize()
-        cdef bytes b_name = name.encode()
-        cdef const char* c_name = b_name
-        cdef const char* mangled_name
-        with nogil:
-            status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
-        check_status(status)
-        b_name = mangled_name
-        return b_name.decode('UTF-8')
+cpdef intptr_t createProgram(unicode src, unicode name, headers,
+                             include_names) except? 0:
+    initialize()
+    cdef Program prog
+    cdef bytes b_src = src.encode()
+    cdef const char* src_ptr = b_src
+    cdef bytes b_name = name.encode()
+    cdef const char* name_ptr
+    if len(name) > 0:
+        name_ptr = b_name
+    else:
+        name_ptr = NULL
+    cdef int num_headers = len(headers)
+    cdef vector.vector[const char*] header_vec
+    cdef vector.vector[const char*] include_name_vec
+    cdef const char** header_vec_ptr = NULL
+    cdef const char** include_name_vec_ptr = NULL
+    assert num_headers == len(include_names)
+    for i in headers:
+        header_vec.push_back(<const char*>i)
+    for i in include_names:
+        include_name_vec.push_back(<const char*>i)
+    if num_headers > 0:
+        header_vec_ptr = header_vec.data()
+        include_name_vec_ptr = include_name_vec.data()
+    with nogil:
+        status = nvrtcCreateProgram(
+            &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
+            include_name_vec_ptr)
+    check_status(status)
+    return <intptr_t>prog
+
+
+cpdef destroyProgram(intptr_t prog):
+    initialize()
+    cdef Program p = <Program>prog
+    with nogil:
+        status = nvrtcDestroyProgram(&p)
+    check_status(status)
+
+
+cpdef compileProgram(intptr_t prog, options):
+    initialize()
+    cdef int option_num = len(options)
+    cdef vector.vector[const char*] option_vec
+    cdef option_list = [opt.encode() for opt in options]
+    cdef const char** option_vec_ptr = NULL
+    for i in option_list:
+        option_vec.push_back(<const char*>i)
+    if option_num > 0:
+        option_vec_ptr = option_vec.data()
+    with nogil:
+        status = nvrtcCompileProgram(<Program>prog, option_num,
+                                     option_vec_ptr)
+    check_status(status)
+
+
+cpdef bytes getPTX(intptr_t prog):
+    initialize()
+    cdef size_t ptxSizeRet
+    cdef vector.vector[char] ptx
+    cdef char* ptx_ptr = NULL
+    with nogil:
+        status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
+    check_status(status)
+    if ptxSizeRet == 0:
+        return b''
+    ptx.resize(ptxSizeRet)
+    ptx_ptr = ptx.data()
+    with nogil:
+        status = nvrtcGetPTX(<Program>prog, ptx_ptr)
+    check_status(status)
+
+    # Strip the trailing NULL.
+    return ptx_ptr[:ptxSizeRet-1]
+
+
+cpdef bytes getCUBIN(intptr_t prog):
+    initialize()
+    cdef size_t cubinSizeRet = 0
+    cdef vector.vector[char] cubin
+    cdef char* cubin_ptr = NULL
+    if runtime._is_hip_environment:
+        raise RuntimeError("HIP does not support getCUBIN")
+    if runtime.runtimeGetVersion() < 11010:
+        raise RuntimeError("getCUBIN is supported since CUDA 11.1")
+    with nogil:
+        status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
+    check_status(status)
+    if cubinSizeRet <= 1:
+        # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
+        # spec says it should be 0 in this case...
+        raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
+                           'not provided')
+    cubin.resize(cubinSizeRet)
+    cubin_ptr = cubin.data()
+    with nogil:
+        status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
+    check_status(status)
+
+    # Strip the trailing NULL.
+    return cubin_ptr[:cubinSizeRet-1]
+
+
+cpdef bytes getNVVM(intptr_t prog):
+    initialize()
+    if runtime._is_hip_environment:
+        raise RuntimeError("HIP does not support getNVVM")
+    if runtime.runtimeGetVersion() < 11040:
+        raise RuntimeError("getNVVM is supported since CUDA 11.4")
+
+    cdef size_t nvvmSizeRet = 0
+    cdef vector.vector[char] nvvm
+    cdef char* nvvm_ptr = NULL
+
+    with nogil:
+        status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
+    check_status(status)
+
+    nvvm.resize(nvvmSizeRet)
+    nvvm_ptr = nvvm.data()
+    with nogil:
+        status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
+    check_status(status)
+
+    # Strip the trailing NULL.
+    return nvvm_ptr[:nvvmSizeRet-1]
+
+
+cpdef unicode getProgramLog(intptr_t prog):
+    initialize()
+    cdef size_t logSizeRet
+    cdef vector.vector[char] log
+    cdef char* log_ptr = NULL
+    with nogil:
+        status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
+    check_status(status)
+    if logSizeRet == 0:
+        return ''
+    log.resize(logSizeRet)
+    log_ptr = log.data()
+    with nogil:
+        status = nvrtcGetProgramLog(<Program>prog, log_ptr)
+    check_status(status)
+
+    # Strip the trailing NULL.
+    return log_ptr[:logSizeRet-1].decode('UTF-8')
+
+
+cpdef addNameExpression(intptr_t prog, str name):
+    initialize()
+    cdef bytes b_name = name.encode()
+    cdef const char* c_name = b_name
+    with nogil:
+        status = nvrtcAddNameExpression(<Program>prog, c_name)
+    check_status(status)
+
+
+cpdef str getLoweredName(intptr_t prog, str name):
+    initialize()
+    cdef bytes b_name = name.encode()
+    cdef const char* c_name = b_name
+    cdef const char* mangled_name
+    with nogil:
+        status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
+    check_status(status)
+    b_name = mangled_name
+    return b_name.decode('UTF-8')
diff --git a/setup.py b/setup.py
index 9a61835bdfa..e093c343b3d 100644
--- a/setup.py
+++ b/setup.py
@@ -17,8 +17,9 @@
 if not cupy_builder.preflight_check(ctx):
     sys.exit(1)
 
-# Note: Used for generating HIP equivalent .pyx .pxd .pxi files. Necessary for CUDA/Stub builds. 
-if get_rocm_version() > 0 or ctx.use_stub :
+# Used for generating HIP equivalent files.
+# Necessary for CUDA/Stub builds.
+if get_rocm_version() > 0 or ctx.use_stub:
     # run hipify.
     from hipify_torch import hipify_python
     proj_dir = os.path.join(source_root, "cupy_backends", "cuda")
@@ -29,7 +30,7 @@
             project_directory=proj_dir,
             output_directory=proj_dir,
             includes=['*'],
-            extra_extensions=(".pyx", ".pxd",".pxi"),
+            extra_extensions=(".pyx", ".pxd", ".pxi"),
             show_detailed=True,
             header_include_dirs=[],
             custom_map_list="install/amd_build/rocm_custom_mapping.json",

From 4db64baf5f7ab95f8b394a35f030dc3aafe13a81 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Wed, 15 Nov 2023 21:20:32 +0000
Subject: [PATCH 26/49] Cleaned up conditionals

---
 cupy_backends/cuda/libs/nvrtc.pyx | 448 +++++++++++++++---------------
 1 file changed, 224 insertions(+), 224 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index f83613c4435..e42096c1f37 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -20,239 +20,239 @@ from cupy_backends.cuda.api cimport runtime
 ###############################################################################
 # Extern
 ###############################################################################
-IF CUPY_USE_GEN_HIP_CODE:
-    from cupy_backends.cuda.libs.nvrtc_hip import *
+
+IF CUPY_USE_CUDA_PYTHON:
+    from cuda.cnvrtc cimport *
+    cdef inline void initialize():
+        pass
+ELIF CUPY_USE_GEN_HIP_CODE:
+      from cupy_backends.cuda.libs.nvrtc_hip import *
 ELSE:
-    IF CUPY_USE_CUDA_PYTHON:
-        from cuda.cnvrtc cimport *
-        cdef inline void initialize():
-            pass
+    IF CUPY_HIP_VERSION != 0:
+        include "_cnvrtc_hip.pxi"
     ELSE:
-        IF CUPY_HIP_VERSION != 0:
-            include "_cnvrtc_hip.pxi"
-        ELSE:
-            include "_cnvrtc.pxi"
-        pass
+        include "_cnvrtc.pxi"
+    pass
+
 
 ###############################################################################
-    # Error handling
+# Error handling
 ###############################################################################
 
+    class NVRTCError(RuntimeError):
+
+        def __init__(self, status):
+            initialize()
+            self.status = status
+            cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
+            super(NVRTCError, self).__init__(
+                '{} ({})'.format(msg.decode(), status))
+
+        def __reduce__(self):
+            return (type(self), (self.status,))
+
+
+    @cython.profile(False)
+    cpdef inline check_status(int status):
+        if status != 0:
+            raise NVRTCError(status)
 
-class NVRTCError(RuntimeError):
 
-    def __init__(self, status):
+    cpdef tuple getVersion():
         initialize()
-        self.status = status
-        cdef bytes msg = nvrtcGetErrorString(<nvrtcResult>status)
-        super(NVRTCError, self).__init__(
-            '{} ({})'.format(msg.decode(), status))
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise NVRTCError(status)
-
-
-cpdef tuple getVersion():
-    initialize()
-    cdef int major, minor
-    with nogil:
-        status = nvrtcVersion(&major, &minor)
-    check_status(status)
-    return major, minor
-
-
-cpdef tuple getSupportedArchs():
-    initialize()
-    cdef int status, num_archs
-    cdef vector.vector[int] archs
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getSupportedArchs")
-    if runtime.runtimeGetVersion() < 11020:
-        raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
-    with nogil:
-        status = nvrtcGetNumSupportedArchs(&num_archs)
-        if status == 0:
-            archs.resize(num_archs)
-            status = nvrtcGetSupportedArchs(archs.data())
-    check_status(status)
-    return tuple(archs)
+        cdef int major, minor
+        with nogil:
+            status = nvrtcVersion(&major, &minor)
+        check_status(status)
+        return major, minor
 
 
-###############################################################################
-# Program
-###############################################################################
+    cpdef tuple getSupportedArchs():
+        initialize()
+        cdef int status, num_archs
+        cdef vector.vector[int] archs
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getSupportedArchs")
+        if runtime.runtimeGetVersion() < 11020:
+            raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
+        with nogil:
+            status = nvrtcGetNumSupportedArchs(&num_archs)
+            if status == 0:
+                archs.resize(num_archs)
+                status = nvrtcGetSupportedArchs(archs.data())
+        check_status(status)
+        return tuple(archs)
+
+
+    ###############################################################################
+    # Program
+    ###############################################################################
+
+    cpdef intptr_t createProgram(unicode src, unicode name, headers,
+                                 include_names) except? 0:
+        initialize()
+        cdef Program prog
+        cdef bytes b_src = src.encode()
+        cdef const char* src_ptr = b_src
+        cdef bytes b_name = name.encode()
+        cdef const char* name_ptr
+        if len(name) > 0:
+            name_ptr = b_name
+        else:
+            name_ptr = NULL
+        cdef int num_headers = len(headers)
+        cdef vector.vector[const char*] header_vec
+        cdef vector.vector[const char*] include_name_vec
+        cdef const char** header_vec_ptr = NULL
+        cdef const char** include_name_vec_ptr = NULL
+        assert num_headers == len(include_names)
+        for i in headers:
+            header_vec.push_back(<const char*>i)
+        for i in include_names:
+            include_name_vec.push_back(<const char*>i)
+        if num_headers > 0:
+            header_vec_ptr = header_vec.data()
+            include_name_vec_ptr = include_name_vec.data()
+        with nogil:
+            status = nvrtcCreateProgram(
+                &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
+                include_name_vec_ptr)
+        check_status(status)
+        return <intptr_t>prog
+
+
+    cpdef destroyProgram(intptr_t prog):
+        initialize()
+        cdef Program p = <Program>prog
+        with nogil:
+            status = nvrtcDestroyProgram(&p)
+        check_status(status)
+
 
-cpdef intptr_t createProgram(unicode src, unicode name, headers,
-                             include_names) except? 0:
-    initialize()
-    cdef Program prog
-    cdef bytes b_src = src.encode()
-    cdef const char* src_ptr = b_src
-    cdef bytes b_name = name.encode()
-    cdef const char* name_ptr
-    if len(name) > 0:
-        name_ptr = b_name
-    else:
-        name_ptr = NULL
-    cdef int num_headers = len(headers)
-    cdef vector.vector[const char*] header_vec
-    cdef vector.vector[const char*] include_name_vec
-    cdef const char** header_vec_ptr = NULL
-    cdef const char** include_name_vec_ptr = NULL
-    assert num_headers == len(include_names)
-    for i in headers:
-        header_vec.push_back(<const char*>i)
-    for i in include_names:
-        include_name_vec.push_back(<const char*>i)
-    if num_headers > 0:
-        header_vec_ptr = header_vec.data()
-        include_name_vec_ptr = include_name_vec.data()
-    with nogil:
-        status = nvrtcCreateProgram(
-            &prog, src_ptr, name_ptr, num_headers, header_vec_ptr,
-            include_name_vec_ptr)
-    check_status(status)
-    return <intptr_t>prog
-
-
-cpdef destroyProgram(intptr_t prog):
-    initialize()
-    cdef Program p = <Program>prog
-    with nogil:
-        status = nvrtcDestroyProgram(&p)
-    check_status(status)
-
-
-cpdef compileProgram(intptr_t prog, options):
-    initialize()
-    cdef int option_num = len(options)
-    cdef vector.vector[const char*] option_vec
-    cdef option_list = [opt.encode() for opt in options]
-    cdef const char** option_vec_ptr = NULL
-    for i in option_list:
-        option_vec.push_back(<const char*>i)
-    if option_num > 0:
-        option_vec_ptr = option_vec.data()
-    with nogil:
-        status = nvrtcCompileProgram(<Program>prog, option_num,
-                                     option_vec_ptr)
-    check_status(status)
-
-
-cpdef bytes getPTX(intptr_t prog):
-    initialize()
-    cdef size_t ptxSizeRet
-    cdef vector.vector[char] ptx
-    cdef char* ptx_ptr = NULL
-    with nogil:
-        status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
-    check_status(status)
-    if ptxSizeRet == 0:
-        return b''
-    ptx.resize(ptxSizeRet)
-    ptx_ptr = ptx.data()
-    with nogil:
-        status = nvrtcGetPTX(<Program>prog, ptx_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return ptx_ptr[:ptxSizeRet-1]
-
-
-cpdef bytes getCUBIN(intptr_t prog):
-    initialize()
-    cdef size_t cubinSizeRet = 0
-    cdef vector.vector[char] cubin
-    cdef char* cubin_ptr = NULL
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getCUBIN")
-    if runtime.runtimeGetVersion() < 11010:
-        raise RuntimeError("getCUBIN is supported since CUDA 11.1")
-    with nogil:
-        status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
-    check_status(status)
-    if cubinSizeRet <= 1:
-        # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
-        # spec says it should be 0 in this case...
-        raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
-                           'not provided')
-    cubin.resize(cubinSizeRet)
-    cubin_ptr = cubin.data()
-    with nogil:
-        status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return cubin_ptr[:cubinSizeRet-1]
-
-
-cpdef bytes getNVVM(intptr_t prog):
-    initialize()
-    if runtime._is_hip_environment:
-        raise RuntimeError("HIP does not support getNVVM")
-    if runtime.runtimeGetVersion() < 11040:
-        raise RuntimeError("getNVVM is supported since CUDA 11.4")
-
-    cdef size_t nvvmSizeRet = 0
-    cdef vector.vector[char] nvvm
-    cdef char* nvvm_ptr = NULL
-
-    with nogil:
-        status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
-    check_status(status)
-
-    nvvm.resize(nvvmSizeRet)
-    nvvm_ptr = nvvm.data()
-    with nogil:
-        status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return nvvm_ptr[:nvvmSizeRet-1]
-
-
-cpdef unicode getProgramLog(intptr_t prog):
-    initialize()
-    cdef size_t logSizeRet
-    cdef vector.vector[char] log
-    cdef char* log_ptr = NULL
-    with nogil:
-        status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
-    check_status(status)
-    if logSizeRet == 0:
-        return ''
-    log.resize(logSizeRet)
-    log_ptr = log.data()
-    with nogil:
-        status = nvrtcGetProgramLog(<Program>prog, log_ptr)
-    check_status(status)
-
-    # Strip the trailing NULL.
-    return log_ptr[:logSizeRet-1].decode('UTF-8')
-
-
-cpdef addNameExpression(intptr_t prog, str name):
-    initialize()
-    cdef bytes b_name = name.encode()
-    cdef const char* c_name = b_name
-    with nogil:
-        status = nvrtcAddNameExpression(<Program>prog, c_name)
-    check_status(status)
-
-
-cpdef str getLoweredName(intptr_t prog, str name):
-    initialize()
-    cdef bytes b_name = name.encode()
-    cdef const char* c_name = b_name
-    cdef const char* mangled_name
-    with nogil:
-        status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
-    check_status(status)
-    b_name = mangled_name
-    return b_name.decode('UTF-8')
+    cpdef compileProgram(intptr_t prog, options):
+        initialize()
+        cdef int option_num = len(options)
+        cdef vector.vector[const char*] option_vec
+        cdef option_list = [opt.encode() for opt in options]
+        cdef const char** option_vec_ptr = NULL
+        for i in option_list:
+            option_vec.push_back(<const char*>i)
+        if option_num > 0:
+            option_vec_ptr = option_vec.data()
+        with nogil:
+            status = nvrtcCompileProgram(<Program>prog, option_num,
+                                         option_vec_ptr)
+        check_status(status)
+
+
+    cpdef bytes getPTX(intptr_t prog):
+        initialize()
+        cdef size_t ptxSizeRet
+        cdef vector.vector[char] ptx
+        cdef char* ptx_ptr = NULL
+        with nogil:
+            status = nvrtcGetPTXSize(<Program>prog, &ptxSizeRet)
+        check_status(status)
+        if ptxSizeRet == 0:
+            return b''
+        ptx.resize(ptxSizeRet)
+        ptx_ptr = ptx.data()
+        with nogil:
+            status = nvrtcGetPTX(<Program>prog, ptx_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return ptx_ptr[:ptxSizeRet-1]
+
+
+    cpdef bytes getCUBIN(intptr_t prog):
+        initialize()
+        cdef size_t cubinSizeRet = 0
+        cdef vector.vector[char] cubin
+        cdef char* cubin_ptr = NULL
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getCUBIN")
+        if runtime.runtimeGetVersion() < 11010:
+            raise RuntimeError("getCUBIN is supported since CUDA 11.1")
+        with nogil:
+            status = nvrtcGetCUBINSize(<Program>prog, &cubinSizeRet)
+        check_status(status)
+        if cubinSizeRet <= 1:
+            # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
+            # spec says it should be 0 in this case...
+            raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
+                               'not provided')
+        cubin.resize(cubinSizeRet)
+        cubin_ptr = cubin.data()
+        with nogil:
+            status = nvrtcGetCUBIN(<Program>prog, cubin_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return cubin_ptr[:cubinSizeRet-1]
+
+
+    cpdef bytes getNVVM(intptr_t prog):
+        initialize()
+        if runtime._is_hip_environment:
+            raise RuntimeError("HIP does not support getNVVM")
+        if runtime.runtimeGetVersion() < 11040:
+            raise RuntimeError("getNVVM is supported since CUDA 11.4")
+
+        cdef size_t nvvmSizeRet = 0
+        cdef vector.vector[char] nvvm
+        cdef char* nvvm_ptr = NULL
+
+        with nogil:
+            status = nvrtcGetNVVMSize(<Program>prog, &nvvmSizeRet)
+        check_status(status)
+
+        nvvm.resize(nvvmSizeRet)
+        nvvm_ptr = nvvm.data()
+        with nogil:
+            status = nvrtcGetNVVM(<Program>prog, nvvm_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return nvvm_ptr[:nvvmSizeRet-1]
+
+
+    cpdef unicode getProgramLog(intptr_t prog):
+        initialize()
+        cdef size_t logSizeRet
+        cdef vector.vector[char] log
+        cdef char* log_ptr = NULL
+        with nogil:
+            status = nvrtcGetProgramLogSize(<Program>prog, &logSizeRet)
+        check_status(status)
+        if logSizeRet == 0:
+            return ''
+        log.resize(logSizeRet)
+        log_ptr = log.data()
+        with nogil:
+            status = nvrtcGetProgramLog(<Program>prog, log_ptr)
+        check_status(status)
+
+        # Strip the trailing NULL.
+        return log_ptr[:logSizeRet-1].decode('UTF-8')
+
+
+    cpdef addNameExpression(intptr_t prog, str name):
+        initialize()
+        cdef bytes b_name = name.encode()
+        cdef const char* c_name = b_name
+        with nogil:
+            status = nvrtcAddNameExpression(<Program>prog, c_name)
+        check_status(status)
+
+
+    cpdef str getLoweredName(intptr_t prog, str name):
+        initialize()
+        cdef bytes b_name = name.encode()
+        cdef const char* c_name = b_name
+        cdef const char* mangled_name
+        with nogil:
+            status = nvrtcGetLoweredName(<Program>prog, c_name, &mangled_name)
+        check_status(status)
+        b_name = mangled_name
+        return b_name.decode('UTF-8')

From 9a0b259d80a430876ede264574c025593665ad79 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Wed, 15 Nov 2023 21:35:05 +0000
Subject: [PATCH 27/49] Revert github actions runner

---
 .github/workflows/pretest.yml     | 4 ++--
 cupy_backends/cuda/libs/nvrtc.pyx | 3 ++-
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/.github/workflows/pretest.yml b/.github/workflows/pretest.yml
index 6c1d605bc8d..673dc9e87bb 100644
--- a/.github/workflows/pretest.yml
+++ b/.github/workflows/pretest.yml
@@ -4,7 +4,7 @@ on: [push, pull_request]
 
 jobs:
   static-checks:
-    runs-on: rocm
+    runs-on: ubuntu-22.04
 
     steps:
     - name: Checkout
@@ -109,7 +109,7 @@ jobs:
         python -c 'import cupy, cupyx'
 
   build-rocm:
-    runs-on: rocm
+    runs-on: ubuntu-22.04
 
     steps:
     - name: Checkout
diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index e42096c1f37..557cfd2d11f 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -26,7 +26,7 @@ IF CUPY_USE_CUDA_PYTHON:
     cdef inline void initialize():
         pass
 ELIF CUPY_USE_GEN_HIP_CODE:
-      from cupy_backends.cuda.libs.nvrtc_hip import *
+    from cupy_backends.cuda.libs.nvrtc_hip import *
 ELSE:
     IF CUPY_HIP_VERSION != 0:
         include "_cnvrtc_hip.pxi"
@@ -39,6 +39,7 @@ ELSE:
 # Error handling
 ###############################################################################
 
+
     class NVRTCError(RuntimeError):
 
         def __init__(self, status):

From 5f215761667137e7d87bec7cf7cd528a3df982e9 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Wed, 15 Nov 2023 22:22:52 +0000
Subject: [PATCH 28/49] Add hipify-torch to ci

---
 .github/workflows/pretest-rocm-test.sh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/workflows/pretest-rocm-test.sh b/.github/workflows/pretest-rocm-test.sh
index ce9da15928f..66a28927f69 100644
--- a/.github/workflows/pretest-rocm-test.sh
+++ b/.github/workflows/pretest-rocm-test.sh
@@ -8,6 +8,7 @@ DEBIAN_FRONTEND=noninteractive apt-get -y install python3.9-dev python3-pip
 hipconfig
 
 python3.9 -m pip install -U pip wheel
+pip install git+https://github.com/ROCmSoftwarePlatform/hipify_torch.git
 
 export ROCM_HOME="/opt/rocm"
 export HCC_AMDGPU_TARGET="gfx900"

From 787f0c7f8d62834c342005c7b0d3257612b80109 Mon Sep 17 00:00:00 2001
From: Adrian Abeyta <adabeyta@amd.com>
Date: Wed, 15 Nov 2023 16:39:23 -0600
Subject: [PATCH 29/49] Add git to rocm ci

---
 .github/workflows/pretest-rocm-test.sh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/workflows/pretest-rocm-test.sh b/.github/workflows/pretest-rocm-test.sh
index 66a28927f69..29b60da9f95 100644
--- a/.github/workflows/pretest-rocm-test.sh
+++ b/.github/workflows/pretest-rocm-test.sh
@@ -4,6 +4,7 @@ set -uex
 
 apt-get -y update
 DEBIAN_FRONTEND=noninteractive apt-get -y install python3.9-dev python3-pip
+apt install git
 
 hipconfig
 

From f3d235d970d9d32c5b6a096cbaa385d814b84c51 Mon Sep 17 00:00:00 2001
From: Adrian Abeyta <adabeyta@amd.com>
Date: Wed, 15 Nov 2023 16:42:47 -0600
Subject: [PATCH 30/49] Update pretest-rocm-test.sh

---
 .github/workflows/pretest-rocm-test.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/pretest-rocm-test.sh b/.github/workflows/pretest-rocm-test.sh
index 29b60da9f95..731e16ae1ec 100644
--- a/.github/workflows/pretest-rocm-test.sh
+++ b/.github/workflows/pretest-rocm-test.sh
@@ -4,7 +4,7 @@ set -uex
 
 apt-get -y update
 DEBIAN_FRONTEND=noninteractive apt-get -y install python3.9-dev python3-pip
-apt install git
+apt install git -y
 
 hipconfig
 

From 5a50e3127228698c06b7d9d6963b5762b6c0ec10 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Thu, 16 Nov 2023 01:08:16 +0000
Subject: [PATCH 31/49] Fix flake8 issues

---
 cupy_backends/cuda/libs/nvrtc.pyx | 45 ++++++++++++-------------------
 1 file changed, 17 insertions(+), 28 deletions(-)

diff --git a/cupy_backends/cuda/libs/nvrtc.pyx b/cupy_backends/cuda/libs/nvrtc.pyx
index 557cfd2d11f..2199837be36 100644
--- a/cupy_backends/cuda/libs/nvrtc.pyx
+++ b/cupy_backends/cuda/libs/nvrtc.pyx
@@ -21,25 +21,23 @@ from cupy_backends.cuda.api cimport runtime
 # Extern
 ###############################################################################
 
-IF CUPY_USE_CUDA_PYTHON:
-    from cuda.cnvrtc cimport *
-    cdef inline void initialize():
-        pass
-ELIF CUPY_USE_GEN_HIP_CODE:
+IF CUPY_USE_GEN_HIP_CODE:
     from cupy_backends.cuda.libs.nvrtc_hip import *
 ELSE:
-    IF CUPY_HIP_VERSION != 0:
-        include "_cnvrtc_hip.pxi"
+    IF CUPY_USE_CUDA_PYTHON:
+        from cuda.cnvrtc cimport *
+        cdef inline void initialize():
+            pass
     ELSE:
-        include "_cnvrtc.pxi"
-    pass
-
+        IF CUPY_HIP_VERSION != 0:
+            include "_cnvrtc_hip.pxi"
+        ELSE:
+            include "_cnvrtc.pxi"
+        pass
 
 ###############################################################################
 # Error handling
 ###############################################################################
-
-
     class NVRTCError(RuntimeError):
 
         def __init__(self, status):
@@ -52,13 +50,11 @@ ELSE:
         def __reduce__(self):
             return (type(self), (self.status,))
 
-
     @cython.profile(False)
     cpdef inline check_status(int status):
         if status != 0:
             raise NVRTCError(status)
 
-
     cpdef tuple getVersion():
         initialize()
         cdef int major, minor
@@ -67,7 +63,6 @@ ELSE:
         check_status(status)
         return major, minor
 
-
     cpdef tuple getSupportedArchs():
         initialize()
         cdef int status, num_archs
@@ -75,7 +70,8 @@ ELSE:
         if runtime._is_hip_environment:
             raise RuntimeError("HIP does not support getSupportedArchs")
         if runtime.runtimeGetVersion() < 11020:
-            raise RuntimeError("getSupportedArchs is supported since CUDA 11.2")
+            raise RuntimeError('getSupportedArchs is supported'
+                               'since CUDA 11.2')
         with nogil:
             status = nvrtcGetNumSupportedArchs(&num_archs)
             if status == 0:
@@ -85,9 +81,9 @@ ELSE:
         return tuple(archs)
 
 
-    ###############################################################################
-    # Program
-    ###############################################################################
+###############################################################################
+# Program
+###############################################################################
 
     cpdef intptr_t createProgram(unicode src, unicode name, headers,
                                  include_names) except? 0:
@@ -121,7 +117,6 @@ ELSE:
         check_status(status)
         return <intptr_t>prog
 
-
     cpdef destroyProgram(intptr_t prog):
         initialize()
         cdef Program p = <Program>prog
@@ -129,7 +124,6 @@ ELSE:
             status = nvrtcDestroyProgram(&p)
         check_status(status)
 
-
     cpdef compileProgram(intptr_t prog, options):
         initialize()
         cdef int option_num = len(options)
@@ -145,7 +139,6 @@ ELSE:
                                          option_vec_ptr)
         check_status(status)
 
-
     cpdef bytes getPTX(intptr_t prog):
         initialize()
         cdef size_t ptxSizeRet
@@ -165,7 +158,6 @@ ELSE:
         # Strip the trailing NULL.
         return ptx_ptr[:ptxSizeRet-1]
 
-
     cpdef bytes getCUBIN(intptr_t prog):
         initialize()
         cdef size_t cubinSizeRet = 0
@@ -181,7 +173,8 @@ ELSE:
         if cubinSizeRet <= 1:
             # On CUDA 11.1, cubinSizeRet=1 if -arch=compute_XX is used, but the
             # spec says it should be 0 in this case...
-            raise RuntimeError('cubin is requested, but the real arch (sm_XX) is '
+            raise RuntimeError('cubin is requested,'
+                               'but the real arch (sm_XX) is '
                                'not provided')
         cubin.resize(cubinSizeRet)
         cubin_ptr = cubin.data()
@@ -192,7 +185,6 @@ ELSE:
         # Strip the trailing NULL.
         return cubin_ptr[:cubinSizeRet-1]
 
-
     cpdef bytes getNVVM(intptr_t prog):
         initialize()
         if runtime._is_hip_environment:
@@ -217,7 +209,6 @@ ELSE:
         # Strip the trailing NULL.
         return nvvm_ptr[:nvvmSizeRet-1]
 
-
     cpdef unicode getProgramLog(intptr_t prog):
         initialize()
         cdef size_t logSizeRet
@@ -237,7 +228,6 @@ ELSE:
         # Strip the trailing NULL.
         return log_ptr[:logSizeRet-1].decode('UTF-8')
 
-
     cpdef addNameExpression(intptr_t prog, str name):
         initialize()
         cdef bytes b_name = name.encode()
@@ -246,7 +236,6 @@ ELSE:
             status = nvrtcAddNameExpression(<Program>prog, c_name)
         check_status(status)
 
-
     cpdef str getLoweredName(intptr_t prog, str name):
         initialize()
         cdef bytes b_name = name.encode()

From febdf4aa0c96bfe9714fb041aae1c787b5baf1e7 Mon Sep 17 00:00:00 2001
From: AdrianAbeyta <Adrian.Abeyta@amd.com>
Date: Thu, 16 Nov 2023 20:05:19 +0000
Subject: [PATCH 32/49] Fix flake8 issues

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 3502b2edee8..e093c343b3d 100644
--- a/setup.py
+++ b/setup.py
@@ -30,7 +30,7 @@
             project_directory=proj_dir,
             output_directory=proj_dir,
             includes=['*'],
-            extra_extensions=(".pyx",".pxd",".pxi"),
+            extra_extensions=(".pyx", ".pxd", ".pxi"),
             show_detailed=True,
             header_include_dirs=[],
             custom_map_list="install/amd_build/rocm_custom_mapping.json",

From b3409677d7ebb8dca14c4a0e43dab93e66daa844 Mon Sep 17 00:00:00 2001
From: Adrian Abeyta <adabeyta@amd.com>
Date: Thu, 16 Nov 2023 14:27:19 -0600
Subject: [PATCH 33/49] Update pretest-rocm-test.sh

---
 .github/workflows/pretest-rocm-test.sh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/pretest-rocm-test.sh b/.github/workflows/pretest-rocm-test.sh
index 1367f3e78ee..457969a1109 100644
--- a/.github/workflows/pretest-rocm-test.sh
+++ b/.github/workflows/pretest-rocm-test.sh
@@ -13,5 +13,5 @@ pip install git+https://github.com/ROCmSoftwarePlatform/hipify_torch.git
 export ROCM_HOME="/opt/rocm"
 export HCC_AMDGPU_TARGET="gfx900"
 export CUPY_INSTALL_USE_HIP="1"
-pip3 install -v -e .
-python3 -c "import cupy; cupy.show_config()"
+python3.9 -m pip install -v -e .
+python3.9 -c "import cupy; cupy.show_config()"

From ad9b14582bb172eda0952c9711fdc7cd286e8cf2 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Mon, 20 Nov 2023 17:17:10 +0000
Subject: [PATCH 34/49] some tests are skipped for rocm

---
 tests/cupy_tests/linalg_tests/test_decomposition.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/tests/cupy_tests/linalg_tests/test_decomposition.py b/tests/cupy_tests/linalg_tests/test_decomposition.py
index 5b8cc94b916..e022c64344e 100644
--- a/tests/cupy_tests/linalg_tests/test_decomposition.py
+++ b/tests/cupy_tests/linalg_tests/test_decomposition.py
@@ -141,6 +141,7 @@ def _check_result(self, result_cpu, result_gpu):
 
     @testing.fix_random()
     @_condition.repeat(3, 10)
+    @pytest.mark.skipif(runtime.is_hip, reason='ROCm/HIP may have a bug ')
     def test_mode(self):
         self.check_mode(numpy.random.randn(2, 4), mode=self.mode)
         self.check_mode(numpy.random.randn(3, 3), mode=self.mode)
@@ -148,6 +149,7 @@ def test_mode(self):
 
     @testing.with_requires('numpy>=1.22')
     @testing.fix_random()
+    @pytest.mark.skipif(runtime.is_hip, reason='ROCm/HIP may have a bug ')
     def test_mode_rank3(self):
         self.check_mode(numpy.random.randn(3, 2, 4), mode=self.mode)
         self.check_mode(numpy.random.randn(4, 3, 3), mode=self.mode)
@@ -155,6 +157,7 @@ def test_mode_rank3(self):
 
     @testing.with_requires('numpy>=1.22')
     @testing.fix_random()
+    @pytest.mark.skipif(runtime.is_hip, reason='ROCm/HIP may have a bug ')
     def test_mode_rank4(self):
         self.check_mode(numpy.random.randn(2, 3, 2, 4), mode=self.mode)
         self.check_mode(numpy.random.randn(2, 4, 3, 3), mode=self.mode)
@@ -286,6 +289,7 @@ def test_svd_rank3(self):
         self.check_usv((2, 32, 32))  # still use _gesvdj_batched
 
     @_condition.repeat(3, 10)
+    @pytest.mark.skipif(runtime.is_hip, reason='ROCm/HIP may have a bug ')
     def test_svd_rank3_loop(self):
         # This tests the loop-based batched gesvd on CUDA (_gesvd_batched)
         self.check_usv((2, 64, 64))
@@ -340,6 +344,7 @@ def test_svd_rank4(self):
         self.check_usv((2, 2, 32, 32))  # still use _gesvdj_batched
 
     @_condition.repeat(3, 10)
+    @pytest.mark.skipif(runtime.is_hip, reason='ROCm/HIP may have a bug ')
     def test_svd_rank4_loop(self):
         # This tests the loop-based batched gesvd on CUDA (_gesvd_batched)
         self.check_usv((3, 2, 64, 64))

From 50048bad8ad392e2e4d6b3819f6801607c05bac0 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 22 Nov 2023 06:00:19 +0000
Subject: [PATCH 35/49] unit tests failing with AttributeError: module 'cupyx'
 has no attribute 'lapack' Address it in hipBLAS integration

---
 cupyx/__init__.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/cupyx/__init__.py b/cupyx/__init__.py
index 06a8449a11b..3d86374a7eb 100644
--- a/cupyx/__init__.py
+++ b/cupyx/__init__.py
@@ -9,6 +9,7 @@
 from cupyx import time  # NOQA
 from cupyx import scipy  # NOQA
 from cupyx import optimizing  # NOQA
+from cupyx import lapack  # NOQA
 
 from cupyx._ufunc_config import errstate  # NOQA
 from cupyx._ufunc_config import geterr  # NOQA

From b4b95e92992c5c3dd66f19e05c0f602e7c1d1f20 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 22 Nov 2023 07:11:39 +0000
Subject: [PATCH 36/49] hipify third_party/cccl

---
 setup.py | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/setup.py b/setup.py
index e093c343b3d..1d1774b839a 100644
--- a/setup.py
+++ b/setup.py
@@ -37,6 +37,20 @@
             is_pytorch_extension=True,
             clean_ctx=clean_ctx,
         )
+        proj_dir_third_party = os.path.join(source_root, "third_party", "cccl", "cub", "cub", "detail")
+    with hipify_python.GeneratedFileCleaner(keep_intermediates=True) as \
+            clean_ctx:
+        hipify_python.hipify(
+            project_directory=proj_dir_third_party,
+            output_directory=proj_dir_third_party,
+            includes=['*'],
+            extra_extensions=(".pyx", ".pxd", ".pxi"),
+            show_detailed=True,
+            header_include_dirs=[],
+            custom_map_list="install/amd_build/rocm_custom_mapping.json",
+            is_pytorch_extension=True,
+            clean_ctx=clean_ctx,
+        )
 
 # TODO(kmaehashi): migrate to pyproject.toml (see #4727, #4619)
 setup_requires = [

From 8aa5af033464f4d65206a8e80c83297dc5c4479d Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 22 Nov 2023 20:12:51 +0000
Subject: [PATCH 37/49] Revert "hipify third_party/cccl"

This reverts commit b4b95e92992c5c3dd66f19e05c0f602e7c1d1f20.
---
 setup.py | 14 --------------
 1 file changed, 14 deletions(-)

diff --git a/setup.py b/setup.py
index 1d1774b839a..e093c343b3d 100644
--- a/setup.py
+++ b/setup.py
@@ -37,20 +37,6 @@
             is_pytorch_extension=True,
             clean_ctx=clean_ctx,
         )
-        proj_dir_third_party = os.path.join(source_root, "third_party", "cccl", "cub", "cub", "detail")
-    with hipify_python.GeneratedFileCleaner(keep_intermediates=True) as \
-            clean_ctx:
-        hipify_python.hipify(
-            project_directory=proj_dir_third_party,
-            output_directory=proj_dir_third_party,
-            includes=['*'],
-            extra_extensions=(".pyx", ".pxd", ".pxi"),
-            show_detailed=True,
-            header_include_dirs=[],
-            custom_map_list="install/amd_build/rocm_custom_mapping.json",
-            is_pytorch_extension=True,
-            clean_ctx=clean_ctx,
-        )
 
 # TODO(kmaehashi): migrate to pyproject.toml (see #4727, #4619)
 setup_requires = [

From 04480aaaf79f7a59ee6047422224069ab2641d23 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 22 Nov 2023 20:15:01 +0000
Subject: [PATCH 38/49] Revert "unit tests failing with AttributeError: module
 'cupyx' has no attribute 'lapack'"

This reverts commit 50048bad8ad392e2e4d6b3819f6801607c05bac0.
---
 cupyx/__init__.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/cupyx/__init__.py b/cupyx/__init__.py
index 3d86374a7eb..06a8449a11b 100644
--- a/cupyx/__init__.py
+++ b/cupyx/__init__.py
@@ -9,7 +9,6 @@
 from cupyx import time  # NOQA
 from cupyx import scipy  # NOQA
 from cupyx import optimizing  # NOQA
-from cupyx import lapack  # NOQA
 
 from cupyx._ufunc_config import errstate  # NOQA
 from cupyx._ufunc_config import geterr  # NOQA

From cef800e8d7ae851e608418f65c059a21e973141b Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Mon, 27 Nov 2023 21:47:19 +0000
Subject: [PATCH 39/49] update miopen.pyx

---
 cupy_backends/cuda/libs/miopen.pyx | 1802 ----------------------------
 1 file changed, 1802 deletions(-)

diff --git a/cupy_backends/cuda/libs/miopen.pyx b/cupy_backends/cuda/libs/miopen.pyx
index c7c3811c885..cd68ca9f693 100644
--- a/cupy_backends/cuda/libs/miopen.pyx
+++ b/cupy_backends/cuda/libs/miopen.pyx
@@ -739,1805 +739,3 @@ cdef extern from '../../cupy_cudnn.h' nogil:
     # Constants
     double _CUDNN_BN_MIN_EPSILON 'CUDNN_BN_MIN_EPSILON'
 
-
-cdef class CuDNNAlgoPerf:
-
-    def __init__(self, algo, status, time, memory, determinism, mathType):
-        self.algo = algo
-        self.status = status
-        self.time = time
-        self.memory = memory
-        self.determinism = determinism
-        self.mathType = mathType
-
-
-###############################################################################
-# Error handling
-###############################################################################
-
-class CuDNNError(RuntimeError):
-
-    def __init__(self, int status):
-        self.status = status
-        msg = cudnnGetErrorString(<Status>status)
-        super(CuDNNError, self).__init__(
-            'cuDNN Error: {}'.format(msg.decode()))
-        self._infos = []
-
-    def add_info(self, info):
-        assert isinstance(info, str)
-        self._infos.append(info)
-
-    def add_infos(self, infos):
-        assert isinstance(infos, list)
-        self._infos.extend(infos)
-
-    def __str__(self):
-        base = super(CuDNNError, self).__str__()
-        return base + ''.join(
-            '\n  ' + info for info in self._infos)
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise CuDNNError(status)
-
-
-###############################################################################
-# Build-time version
-###############################################################################
-
-def get_build_version():
-    return CUDNN_VERSION
-
-
-###############################################################################
-# Version
-###############################################################################
-
-cpdef size_t getVersion() except? 0:
-    return cudnnGetVersion()
-
-
-###############################################################################
-# Runtime error checking
-###############################################################################
-
-cpdef queryRuntimeError(intptr_t handle, int mode):
-    cdef Status rstatus
-    with nogil:
-        status = cudnnQueryRuntimeError(<Handle>handle, &rstatus,
-                                        <ErrQueryMode>mode, <RuntimeTag*>0)
-    check_status(status)
-    return rstatus
-
-
-###############################################################################
-# Initialization and CUDA cooperation
-###############################################################################
-
-cpdef intptr_t create() except? 0:
-    cdef Handle handle
-    with nogil:
-        status = miopenCreate(&handle)
-    check_status(status)
-    return <intptr_t>handle
-
-
-cpdef destroy(intptr_t handle):
-    with nogil:
-        status = miopenDestroy(<Handle>handle)
-    check_status(status)
-
-
-cpdef setStream(intptr_t handle, size_t stream):
-    # TODO(leofang): The support of stream capture is not mentioned at all in
-    # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
-        raise NotImplementedError(
-            'calling cuDNN API during stream capture is currently '
-            'unsupported')
-
-    status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
-    check_status(status)
-
-
-cpdef size_t getStream(intptr_t handle) except? 0:
-    cdef driver.Stream stream
-    status = miopenGetStream(<Handle>handle, &stream)
-    check_status(status)
-    return <size_t>stream
-
-
-cdef _setStream(intptr_t handle):
-    """Set current stream"""
-    setStream(handle, stream_module.get_current_stream_ptr())
-
-###############################################################################
-# Tensor manipulation
-###############################################################################
-
-cpdef size_t createTensorDescriptor() except? 0:
-    cdef TensorDescriptor descriptor
-    status = miopenCreateTensorDescriptor(&descriptor)
-    check_status(status)
-    return <size_t>descriptor
-
-
-cpdef setTensor4dDescriptor(size_t tensorDesc, int format, int dataType,
-                            int n, int c, int h, int w):
-    status = miopenSet4dTensorDescriptor(
-        <TensorDescriptor>tensorDesc,
-        <DataType>dataType, n, c, h, w)
-    check_status(status)
-
-
-cpdef setTensor4dDescriptorEx(size_t tensorDesc, int dataType,
-                              int n, int c, int h, int w, int nStride,
-                              int cStride, int hStride, int wStride):
-    status = miopenSet4dTensorDescriptorEx(
-        <TensorDescriptor>tensorDesc, <DataType>dataType, n, c, h, w,
-        nStride, cStride, hStride, wStride)
-    check_status(status)
-
-
-cpdef tuple getTensor4dDescriptor(size_t tensorDesc):
-    cdef DataType dataType
-    cdef int n, c, h, w, nStride, cStride, hStride, wStride
-    status = miopenGet4dTensorDescriptor(
-        <TensorDescriptor>tensorDesc, &dataType,
-        &n, &c, &h, &w, &nStride, &cStride, &hStride, &wStride)
-    check_status(status)
-    return dataType, n, c, h, w, nStride, cStride, hStride, wStride
-
-
-cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
-                            size_t dimA, size_t strideA):
-    status = cudnnSetTensorNdDescriptor(
-        <TensorDescriptor>tensorDesc, <DataType>dataType, nbDims,
-        <int*>dimA, <int*>strideA)
-    check_status(status)
-
-
-cpdef destroyTensorDescriptor(size_t tensorDesc):
-    status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
-    check_status(status)
-
-
-cpdef addTensor_v3(intptr_t handle, size_t alpha, size_t bDesc,
-                   size_t b, size_t beta, size_t yDesc, size_t y):
-    _setStream(handle)
-    with nogil:
-        status = cudnnAddTensor_v3(
-            <Handle>handle, <void*>alpha, <TensorDescriptor>bDesc,
-            <void*>b, <void*>beta, <TensorDescriptor>yDesc, <void*>y)
-    check_status(status)
-
-
-###############################################################################
-# Tensor operations
-###############################################################################
-
-cpdef size_t createOpTensorDescriptor() except? 0:
-    cdef OpTensorDescriptor opTensorDesc
-    status = cudnnCreateOpTensorDescriptor(&opTensorDesc)
-    check_status(status)
-    return <size_t>opTensorDesc
-
-
-cpdef setOpTensorDescriptor(size_t opTensorDesc, int opTensorOp,
-                            int opTensorCompType, int opTensorNanOpt):
-    status = cudnnSetOpTensorDescriptor(
-        <OpTensorDescriptor>opTensorDesc, <OpTensorOp>opTensorOp,
-        <DataType>opTensorCompType, <NanPropagation>opTensorNanOpt)
-    check_status(status)
-
-
-cpdef getOpTensorDescriptor(size_t opTensorDesc):
-    cdef OpTensorOp opTensorOp
-    cdef DataType opTensorCompType
-    cdef NanPropagation opTensorNanOpt
-    status = cudnnGetOpTensorDescriptor(
-        <OpTensorDescriptor>opTensorDesc, &opTensorOp, &opTensorCompType,
-        &opTensorNanOpt)
-    check_status(status)
-    return opTensorOp, opTensorCompType, opTensorNanOpt
-
-
-cpdef destroyOpTensorDescriptor(size_t opTensorDesc):
-    status = cudnnDestroyOpTensorDescriptor(<OpTensorDescriptor>opTensorDesc)
-    check_status(status)
-
-
-cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
-               size_t aDesc, size_t A, size_t alpha2, size_t bDesc,
-               size_t B, size_t beta, size_t cDesc, size_t C):
-    _setStream(handle)
-    with nogil:
-        status = cudnnOpTensor(
-            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
-            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
-            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
-            <TensorDescriptor>cDesc, <void*>C)
-    check_status(status)
-
-
-###############################################################################
-# Tensor reductions
-###############################################################################
-
-cpdef size_t createReduceTensorDescriptor() except? 0:
-    cdef ReduceTensorDescriptor reduceTensorDesc
-    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
-    check_status(status)
-    return <size_t>reduceTensorDesc
-
-cpdef setReduceTensorDescriptor(
-        size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
-        int reduceTensorNanOpt, int reduceTensorIndices,
-        int reduceTensorIndicesType):
-    status = cudnnSetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc,
-        <ReduceTensorOp>reduceTensorOp,
-        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
-        <ReduceTensorIndices>reduceTensorIndices,
-        <IndicesType>reduceTensorIndicesType)
-    check_status(status)
-
-
-cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
-    cdef ReduceTensorOp redOp
-    cdef DataType redCompType
-    cdef NanPropagation redNanOpt
-    cdef ReduceTensorIndices redIndices
-    cdef IndicesType redIndicesType
-    status = cudnnGetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
-        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
-    check_status(status)
-    return redOp, redCompType, redNanOpt, redIndices, redIndicesType
-
-
-cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    status = cudnnDestroyReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc)
-    check_status(status)
-
-
-cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
-                                     size_t aDesc, size_t cDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetReductionIndicesSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef size_t getReductionWorkspaceSize(intptr_t handle,
-                                       size_t reduceTensorDesc,
-                                       size_t aDesc, size_t cDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetReductionWorkspaceSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
-                   size_t indicesSizeInBytes, size_t workspace,
-                   size_t workspaceSizeInBytes, size_t alpha, size_t aDesc,
-                   size_t A, size_t beta, size_t cDesc, size_t C):
-    _setStream(handle)
-    with nogil:
-        status = cudnnReduceTensor(
-            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-            <void*>indices, indicesSizeInBytes, <void*>workspace,
-            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
-            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
-    check_status(status)
-
-
-cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSetTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
-            <void*>valuePtr)
-    check_status(status)
-
-
-cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
-    _setStream(handle)
-    with nogil:
-        status = cudnnScaleTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
-            <void*>alpha)
-    check_status(status)
-
-
-###############################################################################
-# Filter manipulation
-###############################################################################
-
-cpdef size_t createFilterDescriptor() except? 0:
-    cdef FilterDescriptor desc
-    status = cudnnCreateFilterDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setFilter4dDescriptor_v4(
-        size_t filterDesc, int dataType,
-        int format, int k, int c, int h, int w):
-    status = cudnnSetFilter4dDescriptor_v4(
-        <FilterDescriptor>filterDesc, <DataType> dataType,
-        <TensorFormat> format, k, c, h, w)
-    check_status(status)
-
-
-cpdef setFilterNdDescriptor_v4(
-        size_t filterDesc, int dataType,
-        int format, int nbDims, size_t filterDimA):
-    status = cudnnSetFilterNdDescriptor_v4(
-        <FilterDescriptor>filterDesc, <DataType>dataType,
-        <TensorFormat>format, nbDims, <int*>filterDimA)
-    check_status(status)
-
-
-cpdef getFilterNdDescriptor(size_t wDesc, int nbDimsRequested):
-    cdef DataType dataType
-    cdef TensorFormat format
-    cdef int nbDims
-    cdef vector.vector[int] filterDimA
-    filterDimA.resize(nbDimsRequested)
-
-    status = cudnnGetFilterNdDescriptor_v4(
-        <FilterDescriptor>wDesc, nbDimsRequested, &dataType,
-        &format, &nbDims, filterDimA.data())
-    check_status(status)
-    return dataType, format, nbDims, tuple(filterDimA)
-
-
-cpdef destroyFilterDescriptor(size_t filterDesc):
-    status = cudnnDestroyFilterDescriptor(<FilterDescriptor>filterDesc)
-    check_status(status)
-
-
-###############################################################################
-# Convolution
-###############################################################################
-
-cpdef size_t createConvolutionDescriptor() except? 0:
-    cdef ConvolutionDescriptor desc
-    status = miopenCreateConvolutionDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setConvolutionMathType(size_t convDesc, size_t mathType):
-    status = cudnnSetConvolutionMathType(
-        <ConvolutionDescriptor>convDesc, <MathType>mathType)
-    check_status(status)
-
-
-cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
-    cdef MathType mathType
-    status = cudnnGetConvolutionMathType(
-        <ConvolutionDescriptor>convDesc, &mathType)
-    check_status(status)
-    return <size_t>mathType
-
-
-cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    status = miopenSetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, groupCount)
-    check_status(status)
-
-
-cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
-    cdef int groupCount
-    status = cudnnGetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, &groupCount)
-    check_status(status)
-    return groupCount
-
-
-cpdef setConvolution2dDescriptor_v4(
-        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
-        int dilation_w, int mode):
-    status = cudnnSetConvolution2dDescriptor_v4(
-        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
-        dilation_w, <ConvolutionMode>mode)
-    check_status(status)
-
-
-cpdef setConvolution2dDescriptor_v5(
-        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
-        int dilation_w, int mode, size_t computeType):
-    status = cudnnSetConvolution2dDescriptor_v5(
-        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
-        dilation_w, <ConvolutionMode>mode, <DataType>computeType)
-    check_status(status)
-
-
-cpdef setConvolutionNdDescriptor_v3(
-        size_t convDesc, int arrayLength, size_t padA, size_t filterStrideA,
-        size_t dilationA, int mode, int dataType):
-    status = cudnnSetConvolutionNdDescriptor_v3(
-        <ConvolutionDescriptor>convDesc, arrayLength, <int*>padA,
-        <int*>filterStrideA, <int*>dilationA, <ConvolutionMode>mode,
-        <DataType>dataType)
-    check_status(status)
-
-
-cpdef destroyConvolutionDescriptor(size_t convDesc):
-    status = miopenDestroyConvolutionDescriptor(
-        <ConvolutionDescriptor>convDesc)
-    check_status(status)
-
-
-cpdef findConvolutionForwardAlgorithm(
-        intptr_t handle, size_t xDesc, size_t wDesc, size_t convDesc,
-        size_t yDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithm(
-        <Handle> handle, <TensorDescriptor>xDesc, <FilterDescriptor>wDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>yDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionForwardAlgorithmEx(
-        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
-        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithmEx(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
-        workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionForwardAlgorithmEx_v7(
-        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
-        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithmEx_v7(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
-        workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionForwardAlgorithm_v6(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int preference, size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionFwdAlgo algo
-    status = cudnnGetConvolutionForwardAlgorithm_v6(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>destDesc, <ConvolutionFwdPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionForwardAlgorithm_v7(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionForwardAlgorithm_v7(
-        <Handle> handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>destDesc, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionForwardWorkspaceSize(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenConvolutionForwardGetWorkSpaceSize(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor> convDesc,
-        <TensorDescriptor>destDesc, &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionForward(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t filterDesc, size_t filterData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t destDesc, size_t destData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionForward(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
-    check_status(status)
-
-
-cpdef convolutionBackwardBias(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t beta, size_t destDesc, size_t destData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardBias(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
-    check_status(status)
-
-
-cpdef findConvolutionBackwardFilterAlgorithm(
-        intptr_t handle, size_t xDesc, size_t dyDesc, size_t convDesc,
-        size_t dwDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithm(
-        <Handle> handle, <TensorDescriptor>xDesc, <TensorDescriptor>dyDesc,
-        <ConvolutionDescriptor>convDesc, <FilterDescriptor>dwDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionBackwardFilterAlgorithmEx(
-        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithmEx(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>dwDesc, <void*>dw,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionBackwardFilterAlgorithmEx_v7(
-        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>dwDesc, <void*>dw,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionBackwardFilterAlgorithm_v6(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t filterDesc, int preference,
-        size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionBwdFilterAlgo algo
-    status = cudnnGetConvolutionBackwardFilterAlgorithm_v6(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>filterDesc,
-        <ConvolutionBwdFilterPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionBackwardFilterAlgorithm_v7(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionBackwardFilterAlgorithm_v7(
-        <Handle>handle, <TensorDescriptor>srcDesc, <TensorDescriptor>diffDesc,
-        <ConvolutionDescriptor>convDesc, <FilterDescriptor>gradDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionBackwardFilterWorkspaceSize(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t filterDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = cudnnGetConvolutionBackwardFilterWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor> convDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionBwdFilterAlgo>algo,
-        &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionBackwardFilter_v3(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t gradDesc, size_t gradData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardFilter_v3(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>diffDesc, <void*>diffData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionBwdFilterAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <FilterDescriptor>gradDesc, <void*>gradData)
-    check_status(status)
-
-
-cpdef findConvolutionBackwardDataAlgorithm(
-        intptr_t handle, size_t wDesc, size_t dyDesc, size_t convDesc,
-        size_t dxDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithm(
-        <Handle> handle, <FilterDescriptor>wDesc, <TensorDescriptor>dyDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>dxDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionBackwardDataAlgorithmEx(
-        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dxDesc, size_t dx,
-        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithmEx(
-        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>dxDesc, <void*>dx,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionBackwardDataAlgorithmEx_v7(
-        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dxDesc, size_t dx,
-        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
-        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>dxDesc, <void*>dx,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionBackwardDataAlgorithm_v6(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, size_t preference,
-        size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionBwdDataAlgo algo
-    status = cudnnGetConvolutionBackwardDataAlgorithm_v6(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>gradDesc, <ConvolutionBwdDataPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionBackwardDataAlgorithm_v7(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionBackwardDataAlgorithm_v7(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>gradDesc, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionBackwardDataWorkspaceSize(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenConvolutionBackwardDataGetWorkSpaceSize(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>gradDesc,
-        &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionBackwardData_v3(
-        intptr_t handle, size_t alpha, size_t filterDesc, size_t filterData,
-        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t gradDesc, size_t gradData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardData_v3(
-            <Handle>handle, <void*>alpha,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <TensorDescriptor>diffDesc, <void*>diffData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionBwdDataAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>gradDesc, <void*>gradData)
-    check_status(status)
-
-###############################################################################
-# Pooling
-###############################################################################
-
-cpdef size_t createPoolingDescriptor() except? 0:
-    cdef PoolingDescriptor desc
-    status = miopenCreatePoolingDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setPooling2dDescriptor_v4(
-        size_t poolingDesc, int mode, int maxpoolingNanOpt, int windowHeight,
-        int windowWidth, int verticalPadding, int horizontalPadding,
-        int verticalStride, int horizontalStride):
-    status = cudnnSetPooling2dDescriptor_v4(
-        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
-        <NanPropagation>maxpoolingNanOpt, windowHeight, windowWidth,
-        verticalPadding, horizontalPadding, verticalStride, horizontalStride)
-    check_status(status)
-
-
-cpdef setPoolingNdDescriptor_v4(
-        size_t poolingDesc, int mode, int maxpoolingNanOpt, int nbDims,
-        size_t windowDimA, size_t paddingA, size_t strideA):
-    status = cudnnSetPoolingNdDescriptor_v4(
-        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
-        <NanPropagation>maxpoolingNanOpt, nbDims,
-        <int*>windowDimA, <int*>paddingA, <int*>strideA)
-    check_status(status)
-
-
-cpdef destroyPoolingDescriptor(size_t poolingDesc):
-    status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
-    check_status(status)
-
-
-cpdef poolingForward(
-        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnPoolingForward(
-            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef poolingBackward(
-        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
-        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
-        size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnPoolingBackward(
-            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
-            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-###############################################################################
-# Batch Normalization
-###############################################################################
-
-CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
-
-cpdef deriveBNTensorDescriptor(
-        size_t derivedBnDesc, size_t xDesc, int mode):
-    status = miopenDeriveBNTensorDescriptor(
-        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
-        <BatchNormMode> mode)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardTraining(
-        intptr_t handle, int mode,
-        size_t alpha, size_t beta, size_t xDesc,
-        size_t x, size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
-        size_t bnBias, double exponentialAverageFactor,
-        size_t resultRunningMean, size_t resultRunningVariance,
-        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationForwardTraining(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardInference(
-        intptr_t handle, int mode,
-        size_t alpha, size_t beta, size_t xDesc,
-        size_t x, size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
-        size_t bnBias, size_t estimatedMean, size_t estimatedVariance,
-        double epsilon):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationForwardInference(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
-            epsilon)
-    check_status(status)
-
-
-cpdef batchNormalizationBackward(
-        intptr_t handle, int mode,
-        size_t alphaDataDiff, size_t betaDataDiff,
-        size_t alphaParamDiff, size_t betaParamDiff,
-        size_t xDesc, size_t x, size_t dyDesc,
-        size_t dy, size_t dxDesc, size_t dx,
-        size_t dBnScaleBiasDesc, size_t bnScale,
-        size_t dBnScaleResult, size_t dBnBiasResult,
-        double epsilon, size_t savedMean, size_t savedInvVariance):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationBackward(
-            <Handle>handle, <BatchNormMode>mode,
-            <void*>alphaDataDiff, <void*>betaDataDiff,
-            <void*>alphaParamDiff, <void*>betaParamDiff,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>dyDesc, <void*>dy,
-            <TensorDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
-            <void*>dBnScaleResult, <void*>dBnBiasResult,
-            epsilon, <void*>savedMean, <void*>savedInvVariance)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardTrainingEx(
-        intptr_t handle, int mode, int bnOps,
-        size_t alpha, size_t beta,
-        size_t xDesc, size_t x,
-        size_t zDesc, size_t z,
-        size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc,
-        size_t bnScale, size_t bnBias,
-        double exponentialAverageFactor,
-        size_t resultRunningMean, size_t resultRunningVariance,
-        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance,
-        size_t activationDesc,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnBatchNormalizationForwardTrainingEx(
-            <Handle>handle, <BatchNormMode> mode, <BatchNormOps> bnOps,
-            <void*>alpha, <void*>beta,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>zDesc, <void*>z,
-            <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc,
-            <void*>bnScale, <void*>bnBias,
-            exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance,
-            <ActivationDescriptor>activationDesc,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef size_t getBatchNormalizationForwardTrainingExWorkspaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t xDesc,
-        size_t zDesc,
-        size_t yDesc,
-        size_t bnScaleBiasMeanVarDesc,
-        size_t activationDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode, <BatchNormOps> bnOps,
-        <TensorDescriptor> xDesc,
-        <TensorDescriptor> zDesc,
-        <TensorDescriptor> yDesc,
-        <TensorDescriptor> bnScaleBiasMeanVarDesc,
-        <ActivationDescriptor> activationDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef batchNormalizationBackwardEx(
-        intptr_t handle, int mode, int bnops,
-        size_t alphaDataDiff, size_t betaDataDiff,
-        size_t alphaParamDiff, size_t betaParamDiff,
-        size_t xDesc, size_t x,
-        size_t yDesc, size_t y,
-        size_t dyDesc, size_t dy,
-        size_t dzDesc, size_t dz,
-        size_t dxDesc, size_t dx,
-        size_t dBnScaleBiasDesc,
-        size_t bnScaleData, size_t bnBiasData,
-        size_t dBnScaleData, size_t dBnBiasData,
-        double epsilon,
-        size_t savedMean, size_t savedInvVariance,
-        size_t activationDesc,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnBatchNormalizationBackwardEx(
-            <Handle> handle,
-            <BatchNormMode> mode, <BatchNormOps> bnops,
-            <void*> alphaDataDiff, <void*> betaDataDiff,
-            <void*> alphaParamDiff, <void*> betaParamDiff,
-            <TensorDescriptor> xDesc, <void*> x,
-            <TensorDescriptor> yDesc, <void*> y,
-            <TensorDescriptor> dyDesc, <void*> dy,
-            <TensorDescriptor> dzDesc, <void*> dz,
-            <TensorDescriptor> dxDesc, <void*> dx,
-            <TensorDescriptor> dBnScaleBiasDesc,
-            <void*> bnScaleData, <void*> bnBiasData,
-            <void*> dBnScaleData, <void*> dBnBiasData,
-            epsilon,
-            <void*> savedMean, <void*> savedInvVariance,
-            <ActivationDescriptor> activationDesc,
-            <void*> workSpace, workSpaceSizeInBytes,
-            <void*> reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef size_t getBatchNormalizationBackwardExWorkspaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t xDesc,
-        size_t yDesc,
-        size_t dyDesc,
-        size_t dzDesc,
-        size_t dxDesc,
-        size_t dBnScaleBiasDesc,
-        size_t activationDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationBackwardExWorkspaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode,
-        <BatchNormOps> bnOps,
-        <TensorDescriptor> xDesc,
-        <TensorDescriptor> yDesc,
-        <TensorDescriptor> dyDesc,
-        <TensorDescriptor> dzDesc,
-        <TensorDescriptor> dxDesc,
-        <TensorDescriptor> dBnScaleBiasDesc,
-        <ActivationDescriptor> activationDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t activationDesc,
-        size_t xDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode,
-        <BatchNormOps> bnOps,
-        <ActivationDescriptor> activationDesc,
-        <TensorDescriptor> xDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-###############################################################################
-# Activation
-###############################################################################
-
-cpdef size_t createActivationDescriptor() except? 0:
-    cdef ActivationDescriptor activationDesc
-    status = miopenCreateActivationDescriptor(&activationDesc)
-    check_status(status)
-    return <size_t>activationDesc
-
-
-cpdef setActivationDescriptor(
-        size_t activationDesc, int mode, int reluNanOpt, double reluCeiling):
-    status = cudnnSetActivationDescriptor(
-        <ActivationDescriptor>activationDesc, <ActivationMode>mode,
-        <NanPropagation>reluNanOpt, reluCeiling)
-    check_status(status)
-
-
-cpdef destroyActivationDescriptor(size_t activationDesc):
-    status = miopenDestroyActivationDescriptor(
-        <ActivationDescriptor>activationDesc)
-    check_status(status)
-
-
-cpdef softmaxForward(
-        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = miopenSoftmaxForward(
-            <Handle>handle, 
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef softmaxBackward(
-        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData, size_t beta,
-        size_t destDiffDesc, size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = miopenSoftmaxBackward(
-            <Handle>handle, 
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-
-cpdef activationForward_v4(
-        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnActivationForward_v4(
-            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef activationBackward_v4(
-        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
-        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
-        size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnActivationBackward_v4(
-            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
-            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-
-###############################################################################
-# Dropout
-###############################################################################
-
-cpdef size_t createDropoutDescriptor() except? 0:
-    cdef DropoutDescriptor desc
-    status = miopenCreateDropoutDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
-    check_status(status)
-
-
-cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenDropoutGetStatesSize(
-        <Handle>handle, &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef setDropoutDescriptor(
-        size_t dropoutDesc, intptr_t handle, float dropout,
-        size_t states, size_t stateSizeInBytes, unsigned long long seed):
-    status = cudnnSetDropoutDescriptor(
-        <DropoutDescriptor>dropoutDesc, <Handle>handle, dropout,
-        <void*>states, stateSizeInBytes, seed)
-    check_status(status)
-
-
-cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = miopenDropoutGetReserveSpaceSize(
-        <TensorDescriptor>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef dropoutForward(
-        intptr_t handle, size_t dropoutDesc,
-        size_t srcDesc, size_t srcData,
-        size_t dstDesc, size_t dstData,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnDropoutForward(
-            <Handle>handle, <DropoutDescriptor>dropoutDesc,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>dstDesc, <void*>dstData,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef dropoutBackward(
-        intptr_t handle, size_t dropoutDesc,
-        size_t dyDesc, size_t dyData,
-        size_t dxDesc, size_t dxData,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnDropoutBackward(
-            <Handle>handle, <DropoutDescriptor>dropoutDesc,
-            <TensorDescriptor>dyDesc, <void*>dyData,
-            <TensorDescriptor>dxDesc, <void*>dxData,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# CTC
-###############################################################################
-cpdef size_t createCTCLossDescriptor() except? 0:
-    cdef CTCLossDescriptor desc
-    status = miopenCreateCTCLossDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
-    check_status(status)
-
-cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
-    status = cudnnSetCTCLossDescriptor(
-        <CTCLossDescriptor>ctcLossDesc, <DataType>dataType)
-    check_status(status)
-
-cpdef getCTCLossDescriptor(size_t ctcLossDesc):
-    cdef DataType compType
-    status = cudnnGetCTCLossDescriptor(
-        <CTCLossDescriptor>ctcLossDesc, &compType)
-    check_status(status)
-    return compType
-
-cpdef size_t getCTCLossWorkspaceSize(
-        intptr_t handle, size_t probsDesc, size_t gradientsDesc,
-        size_t labels, size_t labelLengths, size_t inputLengths,
-        int algo, size_t ctcLossDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = miopenGetCTCLossWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>probsDesc,
-        <TensorDescriptor>gradientsDesc,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-cpdef CTCLoss(
-        intptr_t handle, size_t probsDesc,
-        size_t probs, size_t labels, size_t labelLengths, size_t inputLengths,
-        size_t costs, size_t gradientsDesc, size_t gradients,
-        int algo, size_t ctcLossDesc,
-        size_t workspace, size_t workSpaceSizeInBytes):
-    status = miopenCTCLoss(
-        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
-        <void*>workspace, <size_t>workSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# RNN
-###############################################################################
-
-cpdef size_t createRNNDescriptor() except? 0:
-    cdef RNNDescriptor desc
-    status = miopenCreateRNNDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyRNNDescriptor(size_t rnnDesc):
-    status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
-    check_status(status)
-
-
-cpdef size_t createPersistentRNNPlan(size_t rnnDesc, int minibatch,
-                                     int dataType) except? 0:
-    cdef PersistentRNNPlan plan
-    status = cudnnCreatePersistentRNNPlan(
-        <RNNDescriptor>rnnDesc,
-        <int>minibatch, <DataType>dataType, &plan)
-    check_status(status)
-    return <size_t>plan
-
-
-cpdef setPersistentRNNPlan(size_t rnnDesc, size_t plan):
-    status = cudnnSetPersistentRNNPlan(
-        <RNNDescriptor>rnnDesc, <PersistentRNNPlan>plan)
-    check_status(status)
-
-
-cpdef destroyPersistentRNNPlan(size_t plan):
-    status = cudnnDestroyPersistentRNNPlan(<PersistentRNNPlan>plan)
-    check_status(status)
-
-
-cpdef setRNNDescriptor_v5(
-        size_t rnnDesc, int hiddenSize, int numLayers,
-        size_t dropoutDesc, int inputMode, int direction, int mode,
-        int dataType):
-    status = cudnnSetRNNDescriptor_v5(
-        <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
-        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
-        <DirectionMode>direction, <RNNMode>mode, <DataType>dataType)
-    check_status(status)
-
-
-cpdef setRNNDescriptor_v6(
-        intptr_t handle, size_t rnnDesc, int hiddenSize, int numLayers,
-        size_t dropoutDesc, int inputMode, int direction, int mode,
-        int algo, int dataType):
-    status = cudnnSetRNNDescriptor_v6(
-        <Handle>handle, <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
-        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
-        <DirectionMode>direction, <RNNMode>mode, <RNNAlgo>algo,
-        <DataType>dataType)
-    check_status(status)
-
-
-cpdef setRNNPaddingMode(
-        size_t rnnDesc, int paddingMode):
-    status = cudnnSetRNNPaddingMode(
-        <RNNDescriptor>rnnDesc, <RNNPaddingMode>paddingMode)
-    check_status(status)
-
-
-cpdef getRNNPaddingMode(size_t rnnDesc):
-    cdef RNNPaddingMode paddingMode
-    status = cudnnGetRNNPaddingMode(
-        <RNNDescriptor>rnnDesc, &paddingMode)
-    check_status(status)
-    return paddingMode
-
-
-cpdef size_t createRNNDataDescriptor() except? 0:
-    cdef RNNDataDescriptor desc
-    status = cudnnCreateRNNDataDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyRNNDataDescriptor(size_t RNNDataDesc):
-    status = cudnnDestroyRNNDataDescriptor(<RNNDataDescriptor>RNNDataDesc)
-    check_status(status)
-
-
-cpdef setRNNDataDescriptor(
-        size_t RNNDataDesc, int dataType, size_t layout,
-        int maxSeqLength, int batchSize, int vectorSize,
-        size_t seqLengthArray, size_t paddingFill):
-    status = cudnnSetRNNDataDescriptor(
-        <RNNDataDescriptor>RNNDataDesc, <DataType>dataType,
-        <RNNDataLayout>layout, maxSeqLength, batchSize, vectorSize,
-        <const int*>seqLengthArray, <void*>paddingFill)
-    check_status(status)
-
-
-cpdef getRNNDataDescriptor(
-        size_t RNNDataDesc, size_t dataType,
-        size_t layout, size_t maxSeqLength, size_t batchSize,
-        size_t vectorSize, int arrayLengthRequested, size_t seqLengthArray,
-        size_t paddingFill):
-    status = cudnnGetRNNDataDescriptor(
-        <RNNDataDescriptor>RNNDataDesc, <DataType*>dataType,
-        <RNNDataLayout*>layout, <int*>maxSeqLength, <int*>batchSize,
-        <int*>vectorSize, arrayLengthRequested, <int*>seqLengthArray,
-        <void*>paddingFill)
-    check_status(status)
-
-
-cpdef getRNNWorkspaceSize(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNWorkspaceSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNTrainingReserveSize(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNTrainingReserveSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNParamsSize(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNParamsSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
-        &sizeInBytes, <DataType>dataType)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNLinLayerMatrixParams(
-        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
-        size_t w, int linLayerID, size_t linLayerMatDesc, size_t linLayerMat):
-    status = cudnnGetRNNLinLayerMatrixParams(
-        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
-        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
-        linLayerID, <FilterDescriptor>linLayerMatDesc, <void**>linLayerMat)
-    check_status(status)
-
-
-cpdef getRNNLinLayerBiasParams(
-        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
-        size_t w, int linLayerID, size_t linLayerBiasDesc,
-        size_t linLayerBias):
-    status = cudnnGetRNNLinLayerBiasParams(
-        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
-        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
-        linLayerID, <FilterDescriptor>linLayerBiasDesc, <void**>linLayerBias)
-    check_status(status)
-
-
-cpdef RNNForwardInference(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc,
-        size_t x, size_t hxDesc, size_t hx, size_t cxDesc,
-        size_t cx, size_t wDesc, size_t w, size_t yDesc,
-        size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = miopenRNNForwardInference(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardTraining(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
-        size_t wDesc, size_t w, size_t yDesc, size_t y,
-        size_t hyDesc, size_t hy, size_t cyDesc, size_t cy,
-        size_t workspace, size_t workSpaceSizeInBytes, size_t reserveSpace,
-        size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = miopenRNNForwardTraining(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*> hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardData(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t yDesc, size_t y,
-        size_t dyDesc, size_t dy, size_t dhyDesc, size_t dhy,
-        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w,
-        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
-        size_t dxDesc, size_t dx, size_t dhxDesc, size_t dhx,
-        size_t dcxDesc, size_t dcx, size_t workspace,
-        size_t workSpaceSizeInBytes, size_t reserveSpace,
-        size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardData(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor*>dyDesc, <void*>dy,
-            <TensorDescriptor>dhyDesc, <void*>dhy,
-            <TensorDescriptor>dcyDesc, <void*>dcy,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <TensorDescriptor*>dxDesc, <void*>dx,
-            <TensorDescriptor>dhxDesc, <void*>dhx,
-            <TensorDescriptor>dcxDesc, <void*>dcx,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardWeights(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
-        size_t workspace, size_t workSpaceSizeInBytes, size_t dwDesc,
-        size_t dw, size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardWeights(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <void*>workspace, workSpaceSizeInBytes,
-            <FilterDescriptor>dwDesc, <void*>dw,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardInferenceEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
-        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
-        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNForwardInferenceEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <RNNDataDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <RNNDataDescriptor>kDesc, <const void*>keys,
-            <RNNDataDescriptor>cDesc, <void*>cAttn,
-            <RNNDataDescriptor>iDesc, <void*>iAttn,
-            <RNNDataDescriptor>qDesc, <void*>queries,
-            <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardTrainingEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
-        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
-        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNForwardTrainingEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <RNNDataDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <RNNDataDescriptor>kDesc, <const void*>keys,
-            <RNNDataDescriptor>cDesc, <void*>cAttn,
-            <RNNDataDescriptor>iDesc, <void*>iAttn,
-            <RNNDataDescriptor>qDesc, <void*>queries,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardDataEx(
-        intptr_t handle, size_t rnnDesc, size_t yDesc, size_t y, size_t dyDesc,
-        size_t dy, size_t dcDesc, size_t dcAttn, size_t dhyDesc, size_t dhy,
-        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t dxDesc, size_t dx,
-        size_t dhxDesc, size_t dhx, size_t dcxDesc, size_t dcx,
-        size_t dkDesc, size_t dkeys,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardDataEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>yDesc, <const void*>y,
-            <RNNDataDescriptor>dyDesc, <const void*>dy,
-            <RNNDataDescriptor>dcDesc, <const void*>dcAttn,
-            <TensorDescriptor>dhyDesc, <const void*>dhy,
-            <TensorDescriptor>dcyDesc, <const void*>dcy,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <RNNDataDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dhxDesc, <void*>dhx,
-            <TensorDescriptor>dcxDesc, <void*>dcx,
-            <RNNDataDescriptor>dkDesc, <void*>dkeys,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardWeightsEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t dwDesc, size_t dw,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardWeightsEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <RNNDataDescriptor>yDesc, <const void*>y,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <FilterDescriptor>dwDesc, <void*>dw,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# Spatial Transformer
-###############################################################################
-
-cpdef size_t createSpatialTransformerDescriptor() except? 0:
-    cdef SpatialTransformerDescriptor stDesc
-    status = cudnnCreateSpatialTransformerDescriptor(&stDesc)
-    check_status(status)
-    return <size_t>stDesc
-
-
-cpdef destroySpatialTransformerDescriptor(size_t stDesc):
-    status = cudnnDestroySpatialTransformerDescriptor(
-        <SpatialTransformerDescriptor>stDesc)
-    check_status(status)
-
-
-cpdef setSpatialTransformerDescriptor(
-        size_t stDesc, size_t samplerType, int dataType,
-        int nbDims, size_t dimA):
-    status = cudnnSetSpatialTransformerNdDescriptor(
-        <SpatialTransformerDescriptor>stDesc, <SamplerType>samplerType,
-        <DataType>dataType, nbDims, <int*>dimA)
-    check_status(status)
-
-
-cpdef spatialTfGridGeneratorForward(
-        intptr_t handle, size_t stDesc, size_t theta, size_t grid):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfGridGeneratorForward(
-            <Handle>handle, <SpatialTransformerDescriptor> stDesc,
-            <void*>theta, <void*>grid)
-    check_status(status)
-
-
-cpdef spatialTfGridGeneratorBackward(
-        intptr_t handle, size_t stDesc, size_t dgrid, size_t dtheta):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfGridGeneratorBackward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>dgrid, <void*>dtheta)
-    check_status(status)
-
-
-cpdef spatialTfSamplerForward(
-        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
-        size_t x, size_t grid, size_t beta, size_t yDesc, size_t y):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfSamplerForward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>grid,
-            <void*>beta, <TensorDescriptor>yDesc, <void*>y)
-    check_status(status)
-
-
-cpdef spatialTfSamplerBackward(
-        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
-        size_t x, size_t beta, size_t dxDesc, size_t dx, size_t alphaDgrid,
-        size_t dyDesc, size_t dy, size_t grid, size_t betaDgrid, size_t dgrid):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfSamplerBackward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>beta,
-            <TensorDescriptor>dxDesc, <void*>dx, <void*>alphaDgrid,
-            <TensorDescriptor>dyDesc, <void*>dy, <void*>grid,
-            <void*>betaDgrid, <void*>dgrid)
-    check_status(status)
-
-###############################################################################
-# Fused Ops
-###############################################################################
-
-cpdef createFusedOpsConstParamPack(int ops):
-    cdef FusedOpsConstParamPack constPack
-    with nogil:
-        status = cudnnCreateFusedOpsConstParamPack(&constPack, <FusedOps>ops)
-    check_status(status)
-    return <size_t>constPack
-
-cpdef destroyFusedOpsConstParamPack(size_t constPack):
-    with nogil:
-        status = cudnnDestroyFusedOpsConstParamPack(
-            <FusedOpsConstParamPack>constPack)
-    check_status(status)
-
-cpdef setFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
-                                         size_t param):
-    with nogil:
-        status = cudnnSetFusedOpsConstParamPackAttribute(
-            <FusedOpsConstParamPack>constPack,
-            <FusedOpsConstParamLabel>paramLabel, <const void*>param)
-    check_status(status)
-
-cpdef getFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
-                                         size_t param):
-    cdef int isNULL = 0
-    with nogil:
-        status = cudnnGetFusedOpsConstParamPackAttribute(
-            <const FusedOpsConstParamPack>constPack,
-            <FusedOpsConstParamLabel>paramLabel, <void*>param, &isNULL)
-    check_status(status)
-    return isNULL
-
-cpdef createFusedOpsVariantParamPack(int ops):
-    cdef FusedOpsVariantParamPack varPack
-    with nogil:
-        status = cudnnCreateFusedOpsVariantParamPack(&varPack, <FusedOps>ops)
-    check_status(status)
-    return <size_t>varPack
-
-cpdef destroyFusedOpsVariantParamPack(size_t varPack):
-    with nogil:
-        status = cudnnDestroyFusedOpsVariantParamPack(
-            <FusedOpsVariantParamPack>varPack)
-    check_status(status)
-
-cpdef setFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
-                                           size_t ptr):
-    with nogil:
-        status = cudnnSetFusedOpsVariantParamPackAttribute(
-            <FusedOpsVariantParamPack>varPack,
-            <FusedOpsVariantParamLabel>paramLabel, <void*>ptr)
-    check_status(status)
-
-cpdef getFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
-                                           size_t ptr):
-    with nogil:
-        status = cudnnGetFusedOpsVariantParamPackAttribute(
-            <const FusedOpsVariantParamPack>varPack,
-            <FusedOpsVariantParamLabel> paramLabel, <void*>ptr)
-    check_status(status)
-
-cpdef createFusedOpsPlan(int ops):
-    cdef FusedOpsPlan plan
-    with nogil:
-        status = cudnnCreateFusedOpsPlan(&plan, <FusedOps>ops)
-    check_status(status)
-    return <size_t>plan
-
-cpdef destroyFusedOpsPlan(size_t plan):
-    with nogil:
-        status = cudnnDestroyFusedOpsPlan(<FusedOpsPlan>plan)
-    check_status(status)
-
-cpdef makeFusedOpsPlan(intptr_t handle, size_t plan, size_t constPack):
-    cdef size_t workspaceSizeInBytes
-    _setStream(handle)
-    with nogil:
-        status = cudnnMakeFusedOpsPlan(<Handle>handle, <FusedOpsPlan>plan,
-                                       <const FusedOpsConstParamPack>constPack,
-                                       &workspaceSizeInBytes)
-    check_status(status)
-    return workspaceSizeInBytes
-
-cpdef fusedOpsExecute(intptr_t handle, size_t plan, size_t varPack):
-    _setStream(handle)
-    with nogil:
-        status = cudnnFusedOpsExecute(<Handle>handle, <const FusedOpsPlan>plan,
-                                      <FusedOpsVariantParamPack>varPack)
-    check_status(status)
-

From 842331a89cdd1a760cb9bebf8c705617265b129d Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Mon, 27 Nov 2023 21:49:34 +0000
Subject: [PATCH 40/49] do not skip tests

---
 tests/cupyx_tests/test_cudnn.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/tests/cupyx_tests/test_cudnn.py b/tests/cupyx_tests/test_cudnn.py
index 84ef7b02071..0087a1c661b 100644
--- a/tests/cupyx_tests/test_cudnn.py
+++ b/tests/cupyx_tests/test_cudnn.py
@@ -40,7 +40,6 @@
     'dtype': [numpy.float32, numpy.float64],
     'mode': modes,
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnActivation:
 
     @pytest.fixture(autouse=True)
@@ -60,7 +59,6 @@ def test_activation_backward(self):
     'dtype': [numpy.float32, numpy.float64],
     'mode': coef_modes,
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnActivationCoef:
 
     @pytest.fixture(autouse=True)
@@ -83,7 +81,6 @@ def test_activation_backward(self):
     'ratio': [0.0, 0.1, 0.2, 0.5],
     'seed': [0, 100]
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnDropout:
 
     @pytest.fixture(autouse=True)
@@ -136,7 +133,6 @@ def test_dropout_seed(self):
     'bias': [True, False],
     'layout': layouts,
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionForward:
 
     @pytest.fixture(autouse=True)
@@ -224,7 +220,6 @@ def test_call(self):
     'auto_tune': [True, False],
     'deterministic': [True, False],
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionBackwardFilter:
 
     @pytest.fixture(autouse=True)
@@ -303,7 +298,6 @@ def test_call(self):
     'deterministic': [True, False],
     'bias': [True, False],
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionBackwardData:
 
     @pytest.fixture(autouse=True)

From 685bc5ac61af3004f2c767be27aad5455e726f1c Mon Sep 17 00:00:00 2001
From: root <root@rocm-framework-44.amd.com>
Date: Fri, 27 Oct 2023 18:14:10 +0000
Subject: [PATCH 41/49] cudnn , miopen changes on 6.1 branch

---
 cupy_backends/cuda/libs/cudnn.pyx  |  563 ++++--
 cupy_backends/cuda/libs/miopen.pyx | 2543 ++++++++++++++++++++++++++++
 2 files changed, 2949 insertions(+), 157 deletions(-)
 create mode 100644 cupy_backends/cuda/libs/miopen.pyx

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index 464c59d8a00..bd4c50f3d41 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -9,6 +9,7 @@ from cupy_backends.cuda.api cimport driver
 from cupy_backends.cuda.api cimport runtime
 from cupy_backends.cuda cimport stream as stream_module
 
+from cupy_backends.cuda.libs.miopen import *
 ###############################################################################
 # Extern
 ###############################################################################
@@ -758,7 +759,10 @@ class CuDNNError(RuntimeError):
 
     def __init__(self, int status):
         self.status = status
-        msg = cudnnGetErrorString(<Status>status)
+        if runtime._is_hip_environment:
+            msg = miopenGetErrorString(<Status>status)
+        else:
+            msg = cudnnGetErrorString(<Status>status)
         super(CuDNNError, self).__init__(
             'cuDNN Error: {}'.format(msg.decode()))
         self._infos = []
@@ -799,7 +803,10 @@ def get_build_version():
 ###############################################################################
 
 cpdef size_t getVersion() except? 0:
-    return cudnnGetVersion()
+    if runtime._is_hip_environment:
+        return miopenGetVersion()
+    else:
+        return cudnnGetVersion()
 
 
 ###############################################################################
@@ -822,14 +829,20 @@ cpdef queryRuntimeError(intptr_t handle, int mode):
 cpdef intptr_t create() except? 0:
     cdef Handle handle
     with nogil:
-        status = cudnnCreate(&handle)
+        if runtime._is_hip_environment:
+            status = miopenCreate(&handle)
+        else:
+            status = cudnnCreate(&handle)
     check_status(status)
     return <intptr_t>handle
 
 
 cpdef destroy(intptr_t handle):
     with nogil:
-        status = cudnnDestroy(<Handle>handle)
+        if runtime._is_hip_environment:
+            status = miopenDestroy(<Handle>handle)
+        else:
+            status = cudnnDestroy(<Handle>handle)
     check_status(status)
 
 
@@ -840,14 +853,19 @@ cpdef setStream(intptr_t handle, size_t stream):
         raise NotImplementedError(
             'calling cuDNN API during stream capture is currently '
             'unsupported')
-
-    status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
+    if runtime._is_hip_environment:
+        status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
+    else:
+        status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
     check_status(status)
 
 
 cpdef size_t getStream(intptr_t handle) except? 0:
     cdef driver.Stream stream
-    status = cudnnGetStream(<Handle>handle, &stream)
+    if runtime._is_hip_environment:
+        status = cudnnGetStream(<Handle>handle, &stream)
+    else:
+        status = miopenGetStream(<Handle>handle, &stream)
     check_status(status)
     return <size_t>stream
 
@@ -862,7 +880,10 @@ cdef _setStream(intptr_t handle):
 
 cpdef size_t createTensorDescriptor() except? 0:
     cdef TensorDescriptor descriptor
-    status = cudnnCreateTensorDescriptor(&descriptor)
+    if runtime._is_hip_environment:
+        status = miopenCreateTensorDescriptor(&descriptor)
+    else:
+        status = cudnnCreateTensorDescriptor(&descriptor)
     check_status(status)
     return <size_t>descriptor
 
@@ -903,7 +924,10 @@ cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
 
 
 cpdef destroyTensorDescriptor(size_t tensorDesc):
-    status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    else:
+        status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     check_status(status)
 
 
@@ -957,11 +981,18 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
                size_t B, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        status = cudnnOpTensor(
-            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
-            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
-            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
-            <TensorDescriptor>cDesc, <void*>C)
+        if runtime._is_hip_environment:
+            status = miopenOpTensor(
+                <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+                <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+                <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+                <TensorDescriptor>cDesc, <void*>C)
+        else:
+            status = cudnnOpTensor(
+                <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+                <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+                <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+                <TensorDescriptor>cDesc, <void*>C)
     check_status(status)
 
 
@@ -971,7 +1002,10 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
 
 cpdef size_t createReduceTensorDescriptor() except? 0:
     cdef ReduceTensorDescriptor reduceTensorDesc
-    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
+    else:
+        status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
     check_status(status)
     return <size_t>reduceTensorDesc
 
@@ -979,12 +1013,20 @@ cpdef setReduceTensorDescriptor(
         size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
         int reduceTensorNanOpt, int reduceTensorIndices,
         int reduceTensorIndicesType):
-    status = cudnnSetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc,
-        <ReduceTensorOp>reduceTensorOp,
-        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
-        <ReduceTensorIndices>reduceTensorIndices,
-        <IndicesType>reduceTensorIndicesType)
+    if runtime._is_hip_environment:
+        status = miopenSetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc,
+            <ReduceTensorOp>reduceTensorOp,
+            <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+            <ReduceTensorIndices>reduceTensorIndices,
+            <IndicesType>reduceTensorIndicesType)
+    else:
+        status = cudnnSetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc,
+            <ReduceTensorOp>reduceTensorOp,
+            <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+            <ReduceTensorIndices>reduceTensorIndices,
+            <IndicesType>reduceTensorIndicesType)
     check_status(status)
 
 
@@ -994,25 +1036,39 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
     cdef NanPropagation redNanOpt
     cdef ReduceTensorIndices redIndices
     cdef IndicesType redIndicesType
-    status = cudnnGetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
-        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    if runtime._is_hip_environment:
+        status = miopenGetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+            &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    else:
+        status = cudnnGetReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+            &redCompType, &redNanOpt, &redIndices, &redIndicesType)
     check_status(status)
     return redOp, redCompType, redNanOpt, redIndices, redIndicesType
 
 
 cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    status = cudnnDestroyReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc)
+    else:
+        status = cudnnDestroyReduceTensorDescriptor(
+            <ReduceTensorDescriptor>reduceTensorDesc)
     check_status(status)
 
 
 cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
                                      size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetReductionIndicesSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetReductionIndicesSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    else:
+        status = cudnnGetReductionIndicesSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)    
     check_status(status)
     return sizeInBytes
 
@@ -1021,10 +1077,16 @@ cpdef size_t getReductionWorkspaceSize(intptr_t handle,
                                        size_t reduceTensorDesc,
                                        size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetReductionWorkspaceSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
-        &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetReductionWorkspaceSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+            &sizeInBytes)
+    else:
+        status = cudnnGetReductionWorkspaceSize(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+            &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -1035,29 +1097,46 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
                    size_t A, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        status = cudnnReduceTensor(
-            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-            <void*>indices, indicesSizeInBytes, <void*>workspace,
-            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
-            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+        if runtime._is_hip_environment:
+            status = miopenReduceTensor(
+                <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+                <void*>indices, indicesSizeInBytes, <void*>workspace,
+                workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+                <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+        else:
+            status = cudnnReduceTensor(
+                <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+                <void*>indices, indicesSizeInBytes, <void*>workspace,
+                workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+                <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
     check_status(status)
 
 
 cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
     _setStream(handle)
     with nogil:
-        status = cudnnSetTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
-            <void*>valuePtr)
+        if runtime._is_hip_environment:
+            status = miopenSetTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+                <void*>valuePtr)
+        else:
+            status = cudnnSetTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+                <void*>valuePtr)
     check_status(status)
 
 
 cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
     _setStream(handle)
     with nogil:
-        status = cudnnScaleTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
-            <void*>alpha)
+        if runtime._is_hip_environment:
+            status = miopenScaleTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+                <void*>alpha)
+        else:
+            status = cudnnScaleTensor(
+                <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+                <void*>alpha)
     check_status(status)
 
 
@@ -1115,7 +1194,10 @@ cpdef destroyFilterDescriptor(size_t filterDesc):
 
 cpdef size_t createConvolutionDescriptor() except? 0:
     cdef ConvolutionDescriptor desc
-    status = cudnnCreateConvolutionDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateConvolutionDescriptor(&desc)
+    else:
+        status = cudnnCreateConvolutionDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
@@ -1130,21 +1212,27 @@ cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
     cdef MathType mathType
     status = cudnnGetConvolutionMathType(
         <ConvolutionDescriptor>convDesc, &mathType)
-    check_status(status)
     return <size_t>mathType
 
 
 cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    status = cudnnSetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, groupCount)
+    if runtime._is_hip_environment:
+        status = miopenSetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, groupCount)
+    else:
+        status = cudnnSetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, groupCount)
     check_status(status)
 
 
 cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
     cdef int groupCount
-    status = cudnnGetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, &groupCount)
-    check_status(status)
+    if runtime._is_hip_environment:
+        status = miopenGetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, &groupCount)
+    else:
+        status = cudnnGetConvolutionGroupCount(
+            <ConvolutionDescriptor>convDesc, &groupCount)
     return groupCount
 
 
@@ -1177,8 +1265,12 @@ cpdef setConvolutionNdDescriptor_v3(
 
 
 cpdef destroyConvolutionDescriptor(size_t convDesc):
-    status = cudnnDestroyConvolutionDescriptor(
-        <ConvolutionDescriptor>convDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyConvolutionDescriptor(
+            <ConvolutionDescriptor>convDesc)
+    else:
+        status = cudnnDestroyConvolutionDescriptor(
+            <ConvolutionDescriptor>convDesc)
     check_status(status)
 
 
@@ -1286,13 +1378,21 @@ cpdef convolutionForward(
         size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        status = cudnnConvolutionForward(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
+	if runtime._is_hip_environment:
+		status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
+				<TensorDescriptor>srcDesc, <void*>srcData,
+				<FilterDescriptor>filterDesc, <void*>filterData,
+				<ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+				<void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+				<TensorDescriptor>destDesc, <void*>destData)
+        else:
+            status = cudnnConvolutionForward(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData,
+                <FilterDescriptor>filterDesc, <void*>filterData,
+                <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+                <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
     check_status(status)
 
 
@@ -1301,10 +1401,16 @@ cpdef convolutionBackwardBias(
         size_t beta, size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        status = cudnnConvolutionBackwardBias(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
+        if runtime._is_hip_environment:
+            status = miopenConvolutionBackwardBias(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
+        else:
+            status = cudnnConvolutionBackwardBias(
+                <Handle>handle, <void*>alpha,
+                <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+                <TensorDescriptor>destDesc, <void*>destData)
     check_status(status)
 
 
@@ -1545,7 +1651,10 @@ cpdef convolutionBackwardData_v3(
 
 cpdef size_t createPoolingDescriptor() except? 0:
     cdef PoolingDescriptor desc
-    status = cudnnCreatePoolingDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreatePoolingDescriptor(&desc)
+    else:
+        status = cudnnCreatePoolingDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
@@ -1572,7 +1681,10 @@ cpdef setPoolingNdDescriptor_v4(
 
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
-    status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+	if runtime._is_hip_environment:
+        status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+    else:
+        status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     check_status(status)
 
 
@@ -1611,9 +1723,14 @@ CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
 
 cpdef deriveBNTensorDescriptor(
         size_t derivedBnDesc, size_t xDesc, int mode):
-    status = cudnnDeriveBNTensorDescriptor(
-        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
-        <BatchNormMode> mode)
+    if runtime._is_hip_environment:
+        status = miopenDeriveBNTensorDescriptor(
+            <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+            <BatchNormMode> mode)
+    else:
+        status = cudnnDeriveBNTensorDescriptor(
+            <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+            <BatchNormMode> mode)
     check_status(status)
 
 
@@ -1627,14 +1744,24 @@ cpdef batchNormalizationForwardTraining(
         double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationForwardTraining(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationForwardTraining(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, exponentialAverageFactor,
+                <void*>resultRunningMean, <void*>resultRunningVariance,
+                epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+        else:
+            status = cudnnBatchNormalizationForwardTraining(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, exponentialAverageFactor,
+                <void*>resultRunningMean, <void*>resultRunningVariance,
+                epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
     check_status(status)
 
 
@@ -1647,13 +1774,22 @@ cpdef batchNormalizationForwardInference(
         double epsilon):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationForwardInference(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
-            epsilon)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationForwardInference(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+                epsilon)
+        else:
+            status = cudnnBatchNormalizationForwardInference(
+                <Handle>handle, <BatchNormMode> mode,
+                <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+                <void*>x, <TensorDescriptor>yDesc, <void*>y,
+                <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+                <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+                epsilon)
     check_status(status)
 
 
@@ -1668,16 +1804,28 @@ cpdef batchNormalizationBackward(
         double epsilon, size_t savedMean, size_t savedInvVariance):
     _setStream(handle)
     with nogil:
-        status = cudnnBatchNormalizationBackward(
-            <Handle>handle, <BatchNormMode>mode,
-            <void*>alphaDataDiff, <void*>betaDataDiff,
-            <void*>alphaParamDiff, <void*>betaParamDiff,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>dyDesc, <void*>dy,
-            <TensorDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
-            <void*>dBnScaleResult, <void*>dBnBiasResult,
-            epsilon, <void*>savedMean, <void*>savedInvVariance)
+        if runtime._is_hip_environment:
+            status = miopenBatchNormalizationBackward(
+                <Handle>handle, <BatchNormMode>mode,
+                <void*>alphaDataDiff, <void*>betaDataDiff,
+                <void*>alphaParamDiff, <void*>betaParamDiff,
+                <TensorDescriptor>xDesc, <void*>x,
+                <TensorDescriptor>dyDesc, <void*>dy,
+                <TensorDescriptor>dxDesc, <void*>dx,
+                <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+                <void*>dBnScaleResult, <void*>dBnBiasResult,
+                epsilon, <void*>savedMean, <void*>savedInvVariance)
+        else:
+            status = cudnnBatchNormalizationBackward(
+                <Handle>handle, <BatchNormMode>mode,
+                <void*>alphaDataDiff, <void*>betaDataDiff,
+                <void*>alphaParamDiff, <void*>betaParamDiff,
+                <TensorDescriptor>xDesc, <void*>x,
+                <TensorDescriptor>dyDesc, <void*>dy,
+                <TensorDescriptor>dxDesc, <void*>dx,
+                <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+                <void*>dBnScaleResult, <void*>dBnBiasResult,
+                epsilon, <void*>savedMean, <void*>savedInvVariance)
     check_status(status)
 
 
@@ -1823,7 +1971,10 @@ cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
 
 cpdef size_t createActivationDescriptor() except? 0:
     cdef ActivationDescriptor activationDesc
-    status = cudnnCreateActivationDescriptor(&activationDesc)
+    if runtime._is_hip_environment:
+        status = miopenCreateActivationDescriptor(&activationDesc)
+    else:
+        status = cudnnCreateActivationDescriptor(&activationDesc)
     check_status(status)
     return <size_t>activationDesc
 
@@ -1837,8 +1988,12 @@ cpdef setActivationDescriptor(
 
 
 cpdef destroyActivationDescriptor(size_t activationDesc):
-    status = cudnnDestroyActivationDescriptor(
-        <ActivationDescriptor>activationDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyActivationDescriptor(
+            <ActivationDescriptor>activationDesc)
+    else:
+        status = cudnnDestroyActivationDescriptor(
+            <ActivationDescriptor>activationDesc)
     check_status(status)
 
 
@@ -1847,10 +2002,16 @@ cpdef softmaxForward(
         size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
     _setStream(handle)
     with nogil:
-        status = cudnnSoftmaxForward(
-            <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+        if runtime._is_hip_environment:
+            status = miopenSoftmaxForward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+        else:
+            status = cudnnSoftmaxForward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
     check_status(status)
 
 
@@ -1860,11 +2021,18 @@ cpdef softmaxBackward(
         size_t destDiffDesc, size_t destDiffData):
     _setStream(handle)
     with nogil:
-        status = cudnnSoftmaxBackward(
-            <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+        if runtime._is_hip_environment:
+            status = miopenSoftmaxBackward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+                <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+        else:
+            status = cudnnSoftmaxBackward(
+                <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
+                <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+                <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+                <TensorDescriptor>destDiffDesc, <void*>destDiffData)
     check_status(status)
 
 
@@ -1902,20 +2070,30 @@ cpdef activationBackward_v4(
 
 cpdef size_t createDropoutDescriptor() except? 0:
     cdef DropoutDescriptor desc
-    status = cudnnCreateDropoutDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateDropoutDescriptor(&desc)
+    else:
+        status = cudnnCreateDropoutDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 
 cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    else:
+        status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     check_status(status)
 
 
 cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
     cdef size_t sizeInBytes
-    status = cudnnDropoutGetStatesSize(
-        <Handle>handle, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenDropoutGetStatesSize(
+            <Handle>handle, &sizeInBytes)
+    else:
+        status = cudnnDropoutGetStatesSize(
+            <Handle>handle, &sizeInBytes)
     check_status(status)
     return <Py_ssize_t>sizeInBytes
 
@@ -1931,8 +2109,12 @@ cpdef setDropoutDescriptor(
 
 cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnDropoutGetReserveSpaceSize(
-        <TensorDescriptor>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenDropoutGetReserveSpaceSize(
+            <TensorDescriptor>xDesc, &sizeInBytes)
+    else:
+        status = cudnnDropoutGetReserveSpaceSize(
+            <TensorDescriptor>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -1972,12 +2154,18 @@ cpdef dropoutBackward(
 ###############################################################################
 cpdef size_t createCTCLossDescriptor() except? 0:
     cdef CTCLossDescriptor desc
-    status = cudnnCreateCTCLossDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateCTCLossDescriptor(&desc)
+    else:
+        status = cudnnCreateCTCLossDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    else:
+        status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     check_status(status)
 
 cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
@@ -1997,11 +2185,18 @@ cpdef size_t getCTCLossWorkspaceSize(
         size_t labels, size_t labelLengths, size_t inputLengths,
         int algo, size_t ctcLossDesc) except? 0:
     cdef size_t sizeInBytes
-    status = cudnnGetCTCLossWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>probsDesc,
-        <TensorDescriptor>gradientsDesc,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetCTCLossWorkspaceSize(
+            <Handle>handle, <TensorDescriptor>probsDesc,
+            <TensorDescriptor>gradientsDesc,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    else:
+        status = cudnnGetCTCLossWorkspaceSize(
+            <Handle>handle, <TensorDescriptor>probsDesc,
+            <TensorDescriptor>gradientsDesc,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2011,12 +2206,20 @@ cpdef CTCLoss(
         size_t costs, size_t gradientsDesc, size_t gradients,
         int algo, size_t ctcLossDesc,
         size_t workspace, size_t workSpaceSizeInBytes):
-    status = cudnnCTCLoss(
-        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
-        <void*>workspace, <size_t>workSpaceSizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenCTCLoss(
+            <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+            <void*>workspace, <size_t>workSpaceSizeInBytes)
+    else:
+        status = cudnnCTCLoss(
+            <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+            <int*>labels, <int*>labelLengths, <int*>inputLengths,
+            <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+            <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+            <void*>workspace, <size_t>workSpaceSizeInBytes)
     check_status(status)
 
 
@@ -2026,13 +2229,19 @@ cpdef CTCLoss(
 
 cpdef size_t createRNNDescriptor() except? 0:
     cdef RNNDescriptor desc
-    status = cudnnCreateRNNDescriptor(&desc)
+    if runtime._is_hip_environment:
+        status = miopenCreateRNNDescriptor(&desc)
+    else:
+        status = cudnnCreateRNNDescriptor(&desc)
     check_status(status)
     return <size_t>desc
 
 
 cpdef destroyRNNDescriptor(size_t rnnDesc):
-    status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    if runtime._is_hip_environment:
+        status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    else:
+        status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     check_status(status)
 
 
@@ -2134,9 +2343,14 @@ cpdef getRNNDataDescriptor(
 cpdef getRNNWorkspaceSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNWorkspaceSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNWorkspaceSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
+    else:
+        status = cudnnGetRNNWorkspaceSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2144,9 +2358,14 @@ cpdef getRNNWorkspaceSize(
 cpdef getRNNTrainingReserveSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNTrainingReserveSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNTrainingReserveSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
+    else:
+        status = cudnnGetRNNTrainingReserveSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, &sizeInBytes)
     check_status(status)
     return sizeInBytes
 
@@ -2154,9 +2373,14 @@ cpdef getRNNTrainingReserveSize(
 cpdef getRNNParamsSize(
         intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
     cdef size_t sizeInBytes
-    status = cudnnGetRNNParamsSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
-        &sizeInBytes, <DataType>dataType)
+    if runtime._is_hip_environment:
+        status = miopenGetRNNParamsSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+            &sizeInBytes, <DataType>dataType)
+    else:
+        status = cudnnGetRNNParamsSize(
+            <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+            &sizeInBytes, <DataType>dataType)
     check_status(status)
     return sizeInBytes
 
@@ -2190,16 +2414,28 @@ cpdef RNNForwardInference(
         size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        status = cudnnRNNForwardInference(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes)
+        if runtime._is_hip_environment:
+            status = miopenRNNForwardInference(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*>hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes)
+        else:
+            status = cudnnRNNForwardInference(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*>hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes)
     check_status(status)
 
 
@@ -2212,17 +2448,30 @@ cpdef RNNForwardTraining(
         size_t reserveSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        status = cudnnRNNForwardTraining(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*> hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
+        if runtime._is_hip_environment:
+            status = miopenRNNForwardTraining(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*> hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes,
+                <void*>reserveSpace, reserveSpaceSizeInBytes)
+        else:
+            status = cudnnRNNForwardTraining(
+                <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+                <TensorDescriptor*>xDesc, <void*>x,
+                <TensorDescriptor>hxDesc, <void*>hx,
+                <TensorDescriptor>cxDesc, <void*>cx,
+                <FilterDescriptor>wDesc, <void*>w,
+                <TensorDescriptor*>yDesc, <void*>y,
+                <TensorDescriptor>hyDesc, <void*> hy,
+                <TensorDescriptor>cyDesc, <void*>cy,
+                <void*>workspace, workSpaceSizeInBytes,
+                <void*>reserveSpace, reserveSpaceSizeInBytes)
     check_status(status)
 
 
diff --git a/cupy_backends/cuda/libs/miopen.pyx b/cupy_backends/cuda/libs/miopen.pyx
new file mode 100644
index 00000000000..c7c3811c885
--- /dev/null
+++ b/cupy_backends/cuda/libs/miopen.pyx
@@ -0,0 +1,2543 @@
+# distutils: language = c++
+
+"""Thin wrapper of cuDNN."""
+# NOTE: This wrapper does not cover all APIs of cuDNN v4.
+cimport cython  # NOQA
+from libcpp cimport vector
+
+from cupy_backends.cuda.api cimport driver
+from cupy_backends.cuda.api cimport runtime
+from cupy_backends.cuda cimport stream as stream_module
+
+###############################################################################
+# Extern
+###############################################################################
+
+cdef extern from '../../cupy_cudnn.h' nogil:
+    # Types
+    ctypedef int ActivationMode 'miopenActivationMode_t'
+    ctypedef int AddMode 'cudnnAddMode_t'
+    ctypedef int BatchNormMode 'miopenBatchNormMode_t'
+    ctypedef int BatchNormOps 'cudnnBatchNormOps_t'
+    ctypedef int ConvolutionBwdDataAlgo 'miopenBwdDataAlgorithm_t'
+    ctypedef int ConvolutionBwdDataPreference \
+        'cudnnConvolutionBwdDataPreference_t'
+    ctypedef struct ConvolutionBwdDataAlgoPerf \
+        'cudnnConvolutionBwdDataAlgoPerf_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionBwdDataAlgoPerf_v7 \
+        'cudnnConvolutionBwdDataAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionBwdFilterAlgo 'miopenConvBwdWeightsAlgorithm_t'
+    ctypedef int ConvolutionBwdFilterPreference \
+        'cudnnConvolutionBwdFilterPreference_t'
+    ctypedef struct ConvolutionBwdFilterAlgoPerf \
+        'cudnnConvolutionBwdFilterAlgoPerf_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionBwdFilterAlgoPerf_v7 \
+        'cudnnConvolutionBwdFilterAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionFwdAlgo 'miopenConvolutionFwdAlgorithm_t'
+    ctypedef int ConvolutionFwdPreference 'cudnnConvolutionFwdPreference_t'
+    ctypedef struct ConvolutionFwdAlgoPerf 'cudnnConvolutionFwdAlgoPerf_t':
+        int algo
+        int status
+        float time
+        size_t memory
+    ctypedef struct ConvolutionFwdAlgoPerf_v7 \
+        'cudnnConvolutionFwdAlgoPerf_v7_t':  # NOQA: E125
+        int algo
+        int status
+        float time
+        size_t memory
+        int determinism
+        int mathType
+    ctypedef int ConvolutionMode 'miopenConvolutionMode_t'
+    ctypedef int DataType 'miopenDataType_t'
+    ctypedef int MathType 'cudnnMathType_t'
+    ctypedef int DirectionMode 'miopenRNNDirectionMode_t'
+    ctypedef int NanPropagation 'miopenNanPropagation_t'
+    ctypedef int PoolingMode 'miopenPoolingMode_t'
+    ctypedef int RNNInputMode 'miopenRNNInputMode_t'
+    ctypedef int CTCLossAlgo 'miopenCTCLossAlgo_t'
+    ctypedef int RNNMode 'miopenRNNMode_t'
+    ctypedef int RNNAlgo 'miopenRNNAlgo_t'
+    ctypedef int RNNDataLayout 'cudnnRNNDataLayout_t'
+    ctypedef int RNNPaddingMode 'cudnnRNNPaddingMode_t'
+    ctypedef int SoftmaxAlgorithm 'miopenSoftmaxAlgorithm_t'
+    ctypedef int SoftmaxMode 'miopenSoftmaxMode_t'
+    ctypedef int Status 'miopenStatus_t'
+    ctypedef int TensorFormat 'cudnnTensorFormat_t'
+    ctypedef int OpTensorOp 'miopenTensorOp_t'
+	
+    ctypedef int ReduceTensorOp 'miopenReduceTensorOp_t'
+    ctypedef int ReduceTensorIndices 'miopenReduceTensorIndices_t'
+    ctypedef int IndicesType 'miopenIndicesType_t'
+    ctypedef int ErrQueryMode 'cudnnErrQueryMode_t'
+    ctypedef int FusedOps 'cudnnFusedOps_t'
+    ctypedef int FusedOpsConstParamLabel 'cudnnFusedOpsConstParamLabel_t'
+    ctypedef int FusedOpsPointerPlaceHolder 'cudnnFusedOpsPointerPlaceHolder_t'
+    ctypedef int FusedOpsVariantParamLabel 'cudnnFusedOpsVariantParamLabel_t'
+    ctypedef struct RuntimeTag 'cudnnRuntimeTag_t'
+
+    ctypedef void* ActivationDescriptor 'miopenActivationDescriptor_t'
+    ctypedef void* ConvolutionDescriptor 'miopenConvolutionDescriptor_t'
+    ctypedef void* DropoutDescriptor 'miopenDropoutDescriptor_t'
+    ctypedef void* FilterDescriptor 'cudnnFilterDescriptor_t'
+    ctypedef void* Handle 'miopenHandle_t'
+    ctypedef void* PoolingDescriptor 'miopenPoolingDescriptor_t'
+    ctypedef void* CTCLossDescriptor 'miopenCTCLossDescriptor_t'
+    ctypedef void* RNNDescriptor 'miopenRNNDescriptor_t'
+    ctypedef void* RNNDataDescriptor 'miopenRNNDataDescriptor_t'
+    ctypedef void* PersistentRNNPlan 'cudnnPersistentRNNPlan_t'
+    ctypedef void* TensorDescriptor 'miopenTensorDescriptor_t'
+    ctypedef void* OpTensorDescriptor 'miopenTensorDescriptor_t'
+    ctypedef void* ReduceTensorDescriptor 'miopenReduceTensorDescriptor_t'
+    ctypedef void* SpatialTransformerDescriptor \
+        'cudnnSpatialTransformerDescriptor_t'
+    ctypedef void* SamplerType 'cudnnSamplerType_t'
+    ctypedef void* FusedOpsConstParamPack 'cudnnFusedOpsConstParamPack_t'
+    ctypedef void* FusedOpsVariantParamPack 'cudnnFusedOpsVariantParamPack_t'
+    ctypedef void* FusedOpsPlan 'cudnnFusedOpsPlan_t'
+
+    # Error handling
+    const char* miopenGetErrorString(Status status)
+
+    # Version
+    size_t miopenGetVersion()
+
+    # Runtime error checking
+    int cudnnQueryRuntimeError(Handle handle, Status *rstatus,
+                               ErrQueryMode mode, RuntimeTag *tag)
+
+    # Initialization and CUDA cooperation
+    int miopenCreate(Handle* handle)
+    int miopenDestroy(Handle handle)
+    int miopenSetStream(Handle handle, driver.Stream stream)
+    int miopenGetStream(Handle handle, driver.Stream* stream)
+
+    # Tensor manipulation
+    int miopenCreateTensorDescriptor(TensorDescriptor* descriptor)
+    int miopenSet4dTensorDescriptor(
+        TensorDescriptor tensorDesc, 
+        DataType dataType, int n, int c, int h, int w)
+    int miopenSet4dTensorDescriptorEx(
+        TensorDescriptor tensorDesc, DataType dataType,
+        int n, int c, int h, int w,
+        int nStride, int cStride, int hStride, int wStride)
+    int miopenGet4dTensorDescriptor(
+        TensorDescriptor tensorDesc, DataType* dataType,
+        int* n, int* c, int* h, int* w,
+        int* nStride, int* cStride, int* hStride, int* wStride)
+    int cudnnSetTensorNdDescriptor(
+        TensorDescriptor tensorDesc, DataType dataType, int nbDims,
+        int* dimA, int* strideA)
+    int miopenDestroyTensorDescriptor(TensorDescriptor tensorDesc)
+    int cudnnAddTensor_v3(
+        Handle handle, void* alpha, TensorDescriptor bDesc,
+        void* b, void* beta, TensorDescriptor yDesc, void* y)
+
+    # Tensor operations
+    int cudnnCreateOpTensorDescriptor(OpTensorDescriptor* opTensorDesc)
+    int cudnnSetOpTensorDescriptor(
+        OpTensorDescriptor opTensorDesc, OpTensorOp opTensorOp,
+        DataType opTensorCompType, NanPropagation opTensorNanOpt)
+    int cudnnGetOpTensorDescriptor(
+        OpTensorDescriptor opTensorDesc, OpTensorOp* opTensorOp,
+        DataType* opTensorCompType, NanPropagation* opTensorNanOpt)
+    int cudnnDestroyOpTensorDescriptor(OpTensorDescriptor opTensorDesc)
+    int miopenOpTensor(
+        Handle handle, OpTensorDescriptor opTensorDesc, void* alpha1,
+        TensorDescriptor aDesc, void* A, void* alpha2,
+        TensorDescriptor bDesc, void* B, void* beta,
+        TensorDescriptor cDesc, void* C)
+
+    # Tensor reductions
+    int miopenCreateReduceTensorDescriptor(
+        ReduceTensorDescriptor* reduceTensorDesc)
+    int miopenSetReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc, ReduceTensorOp reduceTensorOp,
+        DataType reduceTensorCompType, NanPropagation reduceTensorNanOpt,
+        ReduceTensorIndices reduceTensorIndices,
+        IndicesType reduceTensorIndicesType)
+    int miopenGetReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc,
+        ReduceTensorOp* reduceTensorOp, DataType* reduceTensorCompType,
+        NanPropagation* reduceTensorNanOpt,
+        ReduceTensorIndices* reduceTensorIndices,
+        IndicesType* reduceTensorIndicesType)
+    int miopenDestroyReduceTensorDescriptor(
+        ReduceTensorDescriptor reduceTensorDesc)
+    int miopenGetReductionIndicesSize(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc,
+        TensorDescriptor aDesc, TensorDescriptor cDesc, size_t* sizeInBytes)
+    int miopenGetReductionWorkspaceSize(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc,
+        TensorDescriptor aDesc, TensorDescriptor cDesc, size_t* sizeInBytes)
+    int miopenReduceTensor(
+        Handle handle, ReduceTensorDescriptor reduceTensorDesc, void* indices,
+        size_t indicesSizeInBytes, void* workspace,
+        size_t workspaceSizeInBytes, void* alpha, TensorDescriptor aDesc,
+        void* A, void* beta, TensorDescriptor cDesc, void* c)
+    int miopenSetTensor(
+        Handle handle, TensorDescriptor yDesc, void* y, void* valuePtr)
+    int miopenScaleTensor(
+        Handle handle, TensorDescriptor yDesc, void* y, void* alpha)
+
+    # Filter manipulation
+    int cudnnCreateFilterDescriptor(FilterDescriptor* filterDesc)
+    int cudnnSetFilter4dDescriptor_v4(
+        FilterDescriptor filterDesc, DataType dataType,
+        TensorFormat format, int k, int c, int h, int w)
+    int cudnnSetFilterNdDescriptor_v4(
+        FilterDescriptor filterDesc, DataType dataType,
+        TensorFormat format, int nbDims, const int filterDimA[])
+    int cudnnGetFilterNdDescriptor_v4(
+        FilterDescriptor wDesc, int nbDimsRequested, DataType* dataType,
+        TensorFormat* format, int* nbDims, int filterDimA[])
+    int cudnnDestroyFilterDescriptor(FilterDescriptor filterDesc)
+
+    # Convolution
+    int miopenCreateConvolutionDescriptor(ConvolutionDescriptor* convDesc)
+    int cudnnSetConvolutionMathType(
+        ConvolutionDescriptor convDesc, MathType mathType)
+    int cudnnGetConvolutionMathType(
+        ConvolutionDescriptor convDesc, MathType *mathType)
+    int miopenSetConvolutionGroupCount(
+        ConvolutionDescriptor convDesc, int groupCount)
+    int miopenGetConvolutionGroupCount(
+        ConvolutionDescriptor convDesc, int *groupCount)
+    int cudnnSetConvolution2dDescriptor_v4(
+        ConvolutionDescriptor convDesc, int pad_h, int pad_w, int u,
+        int v, int dilation_h, int dilation_w, ConvolutionMode mode)
+    int cudnnSetConvolution2dDescriptor_v5(
+        ConvolutionDescriptor convDesc, int pad_h, int pad_w, int u,
+        int v, int dilation_h, int dilation_w, ConvolutionMode mode,
+        DataType computeType)
+    int cudnnSetConvolutionNdDescriptor_v3(
+        ConvolutionDescriptor convDesc, int arrayLength, int* padA,
+        int* filterStrideA, int* dilationA, ConvolutionMode mode,
+        DataType dataType)
+    int miopenDestroyConvolutionDescriptor(ConvolutionDescriptor conDesc)
+    int cudnnFindConvolutionForwardAlgorithm(
+        Handle handle, TensorDescriptor xDesc, FilterDescriptor wDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor yDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionFwdAlgoPerf* perfResults)
+    int cudnnFindConvolutionForwardAlgorithmEx(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        FilterDescriptor wDesc, void* w, ConvolutionDescriptor convDesc,
+        TensorDescriptor yDesc, void* y, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionForwardAlgorithmEx_v7(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        FilterDescriptor wDesc, void* w, ConvolutionDescriptor convDesc,
+        TensorDescriptor yDesc, void* y, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnGetConvolutionForwardAlgorithm_v6(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc, ConvolutionFwdPreference preference,
+        size_t memoryLimitInbytes, ConvolutionFwdAlgo* algo)
+    int cudnnGetConvolutionForwardAlgorithm_v7(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionFwdAlgoPerf_v7* perfResults)
+    int miopenConvolutionForwardGetWorkSpaceSize(
+        Handle handle, TensorDescriptor srcDesc,
+        FilterDescriptor filterDesc, ConvolutionDescriptor convDesc,
+        TensorDescriptor destDesc,
+        size_t* sizeInBytes)
+    int cudnnConvolutionForward(
+        Handle handle, void* alpha, TensorDescriptor srcDesc,
+        void* srcData, FilterDescriptor filterDesc, void* filterData,
+        ConvolutionDescriptor convDesc, ConvolutionFwdAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        TensorDescriptor destDesc, void* destData)
+    int cudnnConvolutionBackwardBias(
+        Handle handle, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor destDesc, void* destData)
+    int cudnnFindConvolutionBackwardFilterAlgorithm(
+        Handle handle, TensorDescriptor xDesc, TensorDescriptor dyDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor dwDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdFilterAlgoPerf* perfResults)
+    int cudnnFindConvolutionBackwardFilterAlgorithmEx(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        FilterDescriptor dwDesc, void* dw, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdFilterAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
+        Handle handle, TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        FilterDescriptor dwDesc, void* dw, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdFilterAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnGetConvolutionBackwardFilterAlgorithm_v6(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor filterDesc,
+        ConvolutionBwdFilterPreference preference,
+        size_t memoryLimitInbytes, ConvolutionBwdFilterAlgo* algo)
+    int cudnnGetConvolutionBackwardFilterAlgorithm_v7(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor gradDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdFilterAlgoPerf_v7* perfResults)
+    int cudnnGetConvolutionBackwardFilterWorkspaceSize(
+        Handle handle, TensorDescriptor srcDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor filterDesc,
+        ConvolutionBwdFilterAlgo algo, size_t* sizeInBytes)
+    int cudnnConvolutionBackwardFilter_v3(
+        Handle handle, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor diffDesc, void* diffData,
+        ConvolutionDescriptor convDesc, ConvolutionBwdFilterAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        FilterDescriptor gradDesc, void* gradData)
+    int cudnnGetConvolutionBackwardDataAlgorithm_v6(
+        Handle handle, FilterDescriptor filterDesc,
+        TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor gradDesc,
+        ConvolutionBwdDataPreference preference,
+        size_t memoryLimitInbytes, ConvolutionBwdDataAlgo* algo)
+    int cudnnGetConvolutionBackwardDataAlgorithm_v7(
+        Handle handle, TensorDescriptor filterDesc, TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor gradDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdDataAlgoPerf_v7* perfResults)
+    int cudnnFindConvolutionBackwardDataAlgorithm(
+        Handle handle, TensorDescriptor wDesc, TensorDescriptor dyDesc,
+        ConvolutionDescriptor convDesc, FilterDescriptor dxDesc,
+        int requestedAlgoCount, int* returnedAlgoCount,
+        ConvolutionBwdDataAlgoPerf* perfResults)
+    int cudnnFindConvolutionBackwardDataAlgorithmEx(
+        Handle handle, FilterDescriptor wDesc, void* w,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        TensorDescriptor dxDesc, void* dx, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdDataAlgoPerf* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
+        Handle handle, FilterDescriptor wDesc, void* w,
+        TensorDescriptor dyDesc, void* dy, ConvolutionDescriptor convDesc,
+        TensorDescriptor dxDesc, void* dx, int requestedAlgoCount,
+        int* returnedAlgoCount, ConvolutionBwdDataAlgoPerf_v7* perfResults,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int miopenConvolutionBackwardDataGetWorkSpaceSize(
+        Handle handle, FilterDescriptor filterDesc,
+        TensorDescriptor diffDesc,
+        ConvolutionDescriptor convDesc, TensorDescriptor gradDesc,
+        size_t* sizeInBytes)
+    int cudnnConvolutionBackwardData_v3(
+        Handle handle, void* alpha,
+        FilterDescriptor filterDesc, void* filterData,
+        TensorDescriptor diffDesc, void* diffData,
+        ConvolutionDescriptor convDesc, ConvolutionBwdDataAlgo algo,
+        void* workSpace, size_t workSpaceSizeInBytes, void* beta,
+        TensorDescriptor gradDesc, void* gradData)
+
+    # Pooling
+    int miopenCreatePoolingDescriptor(PoolingDescriptor* desc)
+    int cudnnSetPooling2dDescriptor_v4(
+        PoolingDescriptor poolingDesc, PoolingMode mode,
+        NanPropagation maxpoolingNanOpt, int windowHeight, int windowWidth,
+        int verticalPadding, int horizontalPadding, int verticalStride,
+        int horizontalStride)
+    int cudnnSetPoolingNdDescriptor_v4(
+        PoolingDescriptor poolingDesc, PoolingMode mode,
+        NanPropagation maxpoolingNanOpt, int nbDims,
+        int* windowDimA, int* paddingA, int* strideA)
+    int miopenDestroyPoolingDescriptor(PoolingDescriptor poolingDesc)
+    int cudnnPoolingForward(
+        Handle handle, PoolingDescriptor poolingDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor dstDesc, void* dstData)
+    int cudnnPoolingBackward(
+        Handle handle, PoolingDescriptor poolingDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData,
+        TensorDescriptor destDesc, void* destData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+
+    # Batch Normalization
+    int miopenDeriveBNTensorDescriptor(
+        TensorDescriptor derivedBnDesc, TensorDescriptor xDesc,
+        BatchNormMode mode)
+    int miopenBatchNormalizationForwardTraining(
+        Handle handle, BatchNormMode mode,
+        void* alpha, void* beta, TensorDescriptor xDesc,
+        void* x, TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc, void* bnScale,
+        void* bnBias, double exponentialAverageFactor,
+        void* resultRunningMean, void* resultRunningVariance,
+        double epsilon, void* resultSaveMean,
+        void* resultSaveInvVariance)
+    int miopenBatchNormalizationForwardInference(
+        Handle handle, BatchNormMode mode,
+        void* alpha, void* beta, TensorDescriptor xDesc,
+        void* x, TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc, void* bnScale,
+        void* bnBias, void* estimatedMean, void* estimatedVariance,
+        double epsilon)
+    int miopenBatchNormalizationBackward(
+        Handle handle, BatchNormMode mode,
+        void* alphaDataDiff, void* betaDataDiff,
+        void* alphaParamDiff, void* betaParamDiff,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor dyDesc, void* dy,
+        TensorDescriptor dxDesc, void* dx,
+        TensorDescriptor dBnScaleBiasDesc, void* bnScale,
+        void* dBnScaleResult, void* dBnBiasResult,
+        double epsilon, void* savedMean, void* savedInvVariance)
+
+    int cudnnBatchNormalizationForwardTrainingEx(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnOps,
+        void* alpha, void* beta,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor zDesc, void* z,
+        TensorDescriptor yDesc, void* y,
+        TensorDescriptor bnScaleBiasMeanVarDesc,
+        void* bnScale, void* bnBias,
+        double exponentialAverageFactor,
+        void* resultRunningMean, void* resultRunningVariance,
+        double epsilon,
+        void* resultSaveMean, void* resultSaveInvVariance,
+        ActivationDescriptor activationDesc,
+        void* workspace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnOps,
+        TensorDescriptor xDesc,
+        TensorDescriptor zDesc,
+        TensorDescriptor yDesc,
+        TensorDescriptor bnScaleBiasMeanVarDesc,
+        ActivationDescriptor activationDesc,
+        size_t* sizeInBytes)
+    int cudnnBatchNormalizationBackwardEx(
+        Handle handle,
+        BatchNormMode mode, BatchNormOps bnops,
+        void* alphaDataDiff, void* betaDataDiff,
+        void* alphaParamDiff, void* betaParamDiff,
+        TensorDescriptor xDesc, void* x,
+        TensorDescriptor yDesc, void* y,
+        TensorDescriptor dyDesc, void* dy,
+        TensorDescriptor dzDesc, void* dz,
+        TensorDescriptor dxDesc, void* dx,
+        TensorDescriptor dBnScaleBiasDesc,
+        void* bnScaleData, void* bnBiasData,
+        void* dBnScaleData, void* dBnBiasData,
+        double epsilon,
+        void* savedMean, void* savedInvVariance,
+        ActivationDescriptor activationDesc,
+        void* workspace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnGetBatchNormalizationBackwardExWorkspaceSize(
+        Handle handle,
+        BatchNormMode mode,
+        BatchNormOps bnOps,
+        TensorDescriptor xDesc,
+        TensorDescriptor yDesc,
+        TensorDescriptor dyDesc,
+        TensorDescriptor dzDesc,
+        TensorDescriptor dxDesc,
+        TensorDescriptor dBnScaleBiasDesc,
+        ActivationDescriptor activationDesc,
+        size_t* sizeInBytes)
+    int cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
+        Handle handle,
+        BatchNormMode mode,
+        BatchNormOps bnOps,
+        ActivationDescriptor activationDesc,
+        TensorDescriptor xDesc,
+        size_t* sizeInBytes)
+
+    # Activation
+    int miopenCreateActivationDescriptor(
+        ActivationDescriptor* activationDesc)
+    int cudnnSetActivationDescriptor(
+        ActivationDescriptor activationDesc, ActivationMode mode,
+        NanPropagation reluNanOpt, double reluCeiling)
+    int miopenDestroyActivationDescriptor(
+        ActivationDescriptor activationDesc)
+    int miopenSoftmaxForward(
+        Handle handle, 
+        void* alpha, TensorDescriptor srcDesc, void* srcData,
+        void* beta, TensorDescriptor dstDesc, void* dstData)
+    int miopenSoftmaxBackward(
+        Handle handle, 
+        void* alpha, TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+    int cudnnActivationForward_v4(
+        Handle handle, ActivationDescriptor activationDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData, void* beta,
+        TensorDescriptor dstDesc, void* dstData)
+    int cudnnActivationBackward_v4(
+        Handle handle, ActivationDescriptor activationDesc, void* alpha,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor srcDiffDesc, void* srcDiffData,
+        TensorDescriptor destDesc, void* destData, void* beta,
+        TensorDescriptor destDiffDesc, void* destDiffData)
+
+    # Dropout
+    int miopenCreateDropoutDescriptor(DropoutDescriptor* desc)
+    int miopenDestroyDropoutDescriptor(DropoutDescriptor dropoutDesc)
+    int miopenDropoutGetStatesSize(Handle handle, size_t* sizeInBytes)
+    int miopenDropoutGetReserveSpaceSize(
+        TensorDescriptor xDesc, size_t* sizeInBytes)
+    int cudnnSetDropoutDescriptor(
+        DropoutDescriptor dropoutDesc, Handle handle, float dropout,
+        void* states, size_t stateSizeInBytes, unsigned long long seed)
+    int cudnnDropoutForward(
+        Handle handle, DropoutDescriptor dropoutDesc,
+        TensorDescriptor srcDesc, void* srcData,
+        TensorDescriptor dstDesc, void* dstData,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnDropoutBackward(
+        Handle handle, DropoutDescriptor dropoutDesc,
+        TensorDescriptor dydesc, void* dy, TensorDescriptor dxdesc,
+        void* dx, void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    # CTC
+    int miopenCreateCTCLossDescriptor(CTCLossDescriptor* ctcLossDesc)
+    int miopenDestroyCTCLossDescriptor(CTCLossDescriptor ctcLossDesc)
+    int cudnnSetCTCLossDescriptor(
+        CTCLossDescriptor ctcLossDesc, DataType dataType)
+    int cudnnGetCTCLossDescriptor(
+        CTCLossDescriptor ctcLossDesc, DataType* dataType)
+    int miopenGetCTCLossWorkspaceSize(
+        Handle handle, TensorDescriptor probsDesc,
+        TensorDescriptor gradientsDesc, int* labels,
+        int* labelLengths, int* inputLengths, CTCLossAlgo algo,
+        CTCLossDescriptor ctcLossDesc, size_t* sizeInBytes)
+    int miopenCTCLoss(
+        Handle handle, TensorDescriptor probsDesc,
+        void* probs, int* labels, int* labelLengths, int* inputLengths,
+        void* costs, TensorDescriptor gradientsDesc, void* gradients,
+        CTCLossAlgo algo, CTCLossDescriptor ctcLossDesc,
+        void* workspace, size_t workSpaceSizeInBytes)
+    # RNN
+    int miopenCreateRNNDescriptor(RNNDescriptor* rnnDesc)
+    int miopenDestroyRNNDescriptor(RNNDescriptor rnnDesc)
+    int cudnnCreatePersistentRNNPlan(
+        RNNDescriptor rnnDesc,
+        const int minibatch, DataType dataType,
+        PersistentRNNPlan* plan)
+    int cudnnSetPersistentRNNPlan(
+        RNNDescriptor rnnDesc, PersistentRNNPlan plan)
+    int cudnnDestroyPersistentRNNPlan(PersistentRNNPlan plan)
+    int cudnnSetRNNDescriptor_v5(
+        RNNDescriptor rnnDesc, int hiddenSize,
+        int numLayers, DropoutDescriptor dropoutDesc, RNNInputMode inputMode,
+        DirectionMode direction, RNNMode mode, DataType dataType)
+    int cudnnSetRNNDescriptor_v6(
+        Handle handle, RNNDescriptor rnnDesc, int hiddenSize,
+        int numLayers, DropoutDescriptor dropoutDesc, RNNInputMode inputMode,
+        DirectionMode direction, RNNMode mode, RNNAlgo algo, DataType dataType)
+    int cudnnSetRNNPaddingMode(
+        RNNDescriptor rnnDesc, RNNPaddingMode paddingMode)
+    int cudnnGetRNNPaddingMode(
+        RNNDescriptor rnnDesc, RNNPaddingMode* paddingMode)
+    int cudnnCreateRNNDataDescriptor(RNNDataDescriptor* RNNDataDesc)
+    int cudnnDestroyRNNDataDescriptor(RNNDataDescriptor RNNDataDesc)
+    int cudnnSetRNNDataDescriptor(
+        RNNDataDescriptor RNNDataDesc, DataType dataType, RNNDataLayout layout,
+        int maxSeqLength, int batchSize, int vectorSize,
+        const int seqLengthArray[], void *paddingFill)
+    int cudnnGetRNNDataDescriptor(
+        RNNDataDescriptor RNNDataDesc, DataType* dataType,
+        RNNDataLayout* layout, int* maxSeqLength, int* batchSize,
+        int* vectorSize, int arrayLengthRequested, int seqLengthArray[],
+        void* paddingFill)
+    int miopenGetRNNWorkspaceSize(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, size_t* sizeInBytes)
+    int miopenGetRNNTrainingReserveSize(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, size_t* sizeInBytes)
+    int miopenGetRNNParamsSize(
+        Handle handle, RNNDescriptor rnnDesc, TensorDescriptor xDesc,
+        size_t* sizeInBytes, DataType dataType)
+    int cudnnGetRNNLinLayerMatrixParams(
+        Handle handle, RNNDescriptor rnnDesc, int layer,
+        TensorDescriptor xDesc, FilterDescriptor wDesc, void* w,
+        int linLayerID, FilterDescriptor linLayerMatDesc,
+        void** linLayerMat)
+    int cudnnGetRNNLinLayerBiasParams(
+        Handle handle, RNNDescriptor rnnDesc, int layer,
+        TensorDescriptor xDesc, FilterDescriptor wDesc, void* w,
+        int linLayerID, FilterDescriptor linLayerBiasDesc,
+        void** linLayerBias)
+    int miopenRNNForwardInference(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc,
+        void* x, TensorDescriptor hxDesc, void* hx, TensorDescriptor cxDesc,
+        void* cx, FilterDescriptor wDesc, void* w, TensorDescriptor* yDesc,
+        void* y, TensorDescriptor hyDesc, void* hy, TensorDescriptor cyDesc,
+        void* cy, void* workspace, size_t workSpaceSizeInBytes)
+    int miopenRNNForwardTraining(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, void* x,
+        TensorDescriptor hxDesc, void* hx, TensorDescriptor cxDesc, void* cx,
+        FilterDescriptor wDesc, void* w, TensorDescriptor* yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy, TensorDescriptor cyDesc, void* cy,
+        void* workspace, size_t workSpaceSizeInBytes, void* reserveSpace,
+        size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardData(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* yDesc, void* y,
+        TensorDescriptor* dyDesc, void* dy,
+        TensorDescriptor dhyDesc, void* dhy,
+        TensorDescriptor dcyDesc, void* dcy,
+        FilterDescriptor wDesc, void* w,
+        TensorDescriptor hxDesc, void* hx,
+        TensorDescriptor cxDesc, void* cx,
+        TensorDescriptor* dxDesc, void* dx,
+        TensorDescriptor dhxDesc, void* dhx,
+        TensorDescriptor dcxDesc, void* dcx, void* workspace,
+        size_t workSpaceSizeInBytes, void* reserveSpace,
+        size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardWeights(
+        Handle handle, RNNDescriptor rnnDesc, int seqLength,
+        TensorDescriptor* xDesc, void* x, TensorDescriptor hxDesc, void* hx,
+        TensorDescriptor* yDesc, void* y,
+        void* workspace, size_t workSpaceSizeInBytes, FilterDescriptor dwDesc,
+        void* dw, void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    int cudnnRNNForwardInferenceEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        FilterDescriptor wDesc, const void* w,
+        RNNDataDescriptor yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy,
+        TensorDescriptor cyDesc, void* cy,
+        RNNDataDescriptor kDesc, const void* keys,
+        RNNDataDescriptor cDesc, void* cAttn,
+        RNNDataDescriptor iDesc, void* iAttn,
+        RNNDataDescriptor qDesc, void* queries,
+        void* workSpace, size_t workSpaceSizeInBytes)
+    int cudnnRNNForwardTrainingEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        FilterDescriptor wDesc, const void* w,
+        RNNDataDescriptor yDesc, void* y,
+        TensorDescriptor hyDesc, void* hy,
+        TensorDescriptor cyDesc, void* cy,
+        RNNDataDescriptor kDesc, const void* keys,
+        RNNDataDescriptor cDesc, void* cAttn,
+        RNNDataDescriptor iDesc, void* iAttn,
+        RNNDataDescriptor qDesc, void* queries,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardDataEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor yDesc, const void* y,
+        RNNDataDescriptor dyDesc, const void* dy,
+        RNNDataDescriptor dcDesc, const void* dcAttn,
+        TensorDescriptor dhyDesc, const void* dhy,
+        TensorDescriptor dcyDesc, const void* dcy,
+        FilterDescriptor wDesc, const void* w,
+        TensorDescriptor hxDesc, const void* hx,
+        TensorDescriptor cxDesc, const void* cx,
+        RNNDataDescriptor dxDesc, void* dx,
+        TensorDescriptor dhxDesc, void* dhx,
+        TensorDescriptor dcxDesc, void* dcx,
+        RNNDataDescriptor dkDesc, void* dkeys,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+    int cudnnRNNBackwardWeightsEx(
+        Handle handle, RNNDescriptor rnnDesc,
+        RNNDataDescriptor xDesc, const void* x,
+        TensorDescriptor hxDesc, const void* hx,
+        RNNDataDescriptor yDesc, const void* y,
+        void* workSpace, size_t workSpaceSizeInBytes,
+        FilterDescriptor dwDesc, void* dw,
+        void* reserveSpace, size_t reserveSpaceSizeInBytes)
+
+    # Spatial Transformer
+    int cudnnCreateSpatialTransformerDescriptor(
+        SpatialTransformerDescriptor* stDesc)
+    int cudnnDestroySpatialTransformerDescriptor(
+        SpatialTransformerDescriptor stDesc)
+    int cudnnSetSpatialTransformerNdDescriptor(
+        SpatialTransformerDescriptor stDesc, SamplerType samplerType,
+        DataType dataType, int nbDims, int dimA[])
+    int cudnnSpatialTfGridGeneratorForward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* theta, void* grid)
+    int cudnnSpatialTfGridGeneratorBackward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* dgrid, void* dtheta)
+    int cudnnSpatialTfSamplerForward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* alpha, TensorDescriptor xDesc, void* x,
+        void* grid, void* beta, TensorDescriptor yDesc, void* y)
+    int cudnnSpatialTfSamplerBackward(
+        Handle handle, SpatialTransformerDescriptor stDesc,
+        void* alpha, TensorDescriptor xDesc, void* x, void* beta,
+        TensorDescriptor dxDesc, void* dx, void* alphaDgrid,
+        TensorDescriptor dyDesc, void* dy, void* grid,
+        void* betaDgrid, void* dgrid)
+
+    # Fused Ops
+    int cudnnCreateFusedOpsConstParamPack(
+        FusedOpsConstParamPack* constPack, int ops)
+    int cudnnDestroyFusedOpsConstParamPack(FusedOpsConstParamPack constPack)
+    int cudnnSetFusedOpsConstParamPackAttribute(
+        FusedOpsConstParamPack constPack, FusedOpsConstParamLabel paramLabel,
+        const void *param)
+    int cudnnGetFusedOpsConstParamPackAttribute(
+        const FusedOpsConstParamPack constPack,
+        FusedOpsConstParamLabel paramLabel, void *param, int *isNULL)
+    int cudnnCreateFusedOpsVariantParamPack(
+        FusedOpsVariantParamPack *varPack, FusedOps ops)
+    int cudnnDestroyFusedOpsVariantParamPack(FusedOpsVariantParamPack varPack)
+    int cudnnSetFusedOpsVariantParamPackAttribute(
+        FusedOpsVariantParamPack varPack, FusedOpsVariantParamLabel paramLabel,
+        void *ptr)
+    int cudnnGetFusedOpsVariantParamPackAttribute(
+        const FusedOpsVariantParamPack varPack,
+        FusedOpsVariantParamLabel paramLabel, void *ptr)
+    int cudnnCreateFusedOpsPlan(FusedOpsPlan *plan, FusedOps ops)
+    int cudnnDestroyFusedOpsPlan(FusedOpsPlan plan)
+    int cudnnMakeFusedOpsPlan(
+        Handle handle, FusedOpsPlan plan,
+        const FusedOpsConstParamPack constPack, size_t *workspaceSizeInBytes)
+    int cudnnFusedOpsExecute(
+        Handle handle, const FusedOpsPlan plan,
+        FusedOpsVariantParamPack varPack)
+
+    # Build-time version
+    int CUDNN_VERSION
+
+    # Constants
+    double _CUDNN_BN_MIN_EPSILON 'CUDNN_BN_MIN_EPSILON'
+
+
+cdef class CuDNNAlgoPerf:
+
+    def __init__(self, algo, status, time, memory, determinism, mathType):
+        self.algo = algo
+        self.status = status
+        self.time = time
+        self.memory = memory
+        self.determinism = determinism
+        self.mathType = mathType
+
+
+###############################################################################
+# Error handling
+###############################################################################
+
+class CuDNNError(RuntimeError):
+
+    def __init__(self, int status):
+        self.status = status
+        msg = cudnnGetErrorString(<Status>status)
+        super(CuDNNError, self).__init__(
+            'cuDNN Error: {}'.format(msg.decode()))
+        self._infos = []
+
+    def add_info(self, info):
+        assert isinstance(info, str)
+        self._infos.append(info)
+
+    def add_infos(self, infos):
+        assert isinstance(infos, list)
+        self._infos.extend(infos)
+
+    def __str__(self):
+        base = super(CuDNNError, self).__str__()
+        return base + ''.join(
+            '\n  ' + info for info in self._infos)
+
+    def __reduce__(self):
+        return (type(self), (self.status,))
+
+
+@cython.profile(False)
+cpdef inline check_status(int status):
+    if status != 0:
+        raise CuDNNError(status)
+
+
+###############################################################################
+# Build-time version
+###############################################################################
+
+def get_build_version():
+    return CUDNN_VERSION
+
+
+###############################################################################
+# Version
+###############################################################################
+
+cpdef size_t getVersion() except? 0:
+    return cudnnGetVersion()
+
+
+###############################################################################
+# Runtime error checking
+###############################################################################
+
+cpdef queryRuntimeError(intptr_t handle, int mode):
+    cdef Status rstatus
+    with nogil:
+        status = cudnnQueryRuntimeError(<Handle>handle, &rstatus,
+                                        <ErrQueryMode>mode, <RuntimeTag*>0)
+    check_status(status)
+    return rstatus
+
+
+###############################################################################
+# Initialization and CUDA cooperation
+###############################################################################
+
+cpdef intptr_t create() except? 0:
+    cdef Handle handle
+    with nogil:
+        status = miopenCreate(&handle)
+    check_status(status)
+    return <intptr_t>handle
+
+
+cpdef destroy(intptr_t handle):
+    with nogil:
+        status = miopenDestroy(<Handle>handle)
+    check_status(status)
+
+
+cpdef setStream(intptr_t handle, size_t stream):
+    # TODO(leofang): The support of stream capture is not mentioned at all in
+    # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
+    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
+        raise NotImplementedError(
+            'calling cuDNN API during stream capture is currently '
+            'unsupported')
+
+    status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
+    check_status(status)
+
+
+cpdef size_t getStream(intptr_t handle) except? 0:
+    cdef driver.Stream stream
+    status = miopenGetStream(<Handle>handle, &stream)
+    check_status(status)
+    return <size_t>stream
+
+
+cdef _setStream(intptr_t handle):
+    """Set current stream"""
+    setStream(handle, stream_module.get_current_stream_ptr())
+
+###############################################################################
+# Tensor manipulation
+###############################################################################
+
+cpdef size_t createTensorDescriptor() except? 0:
+    cdef TensorDescriptor descriptor
+    status = miopenCreateTensorDescriptor(&descriptor)
+    check_status(status)
+    return <size_t>descriptor
+
+
+cpdef setTensor4dDescriptor(size_t tensorDesc, int format, int dataType,
+                            int n, int c, int h, int w):
+    status = miopenSet4dTensorDescriptor(
+        <TensorDescriptor>tensorDesc,
+        <DataType>dataType, n, c, h, w)
+    check_status(status)
+
+
+cpdef setTensor4dDescriptorEx(size_t tensorDesc, int dataType,
+                              int n, int c, int h, int w, int nStride,
+                              int cStride, int hStride, int wStride):
+    status = miopenSet4dTensorDescriptorEx(
+        <TensorDescriptor>tensorDesc, <DataType>dataType, n, c, h, w,
+        nStride, cStride, hStride, wStride)
+    check_status(status)
+
+
+cpdef tuple getTensor4dDescriptor(size_t tensorDesc):
+    cdef DataType dataType
+    cdef int n, c, h, w, nStride, cStride, hStride, wStride
+    status = miopenGet4dTensorDescriptor(
+        <TensorDescriptor>tensorDesc, &dataType,
+        &n, &c, &h, &w, &nStride, &cStride, &hStride, &wStride)
+    check_status(status)
+    return dataType, n, c, h, w, nStride, cStride, hStride, wStride
+
+
+cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
+                            size_t dimA, size_t strideA):
+    status = cudnnSetTensorNdDescriptor(
+        <TensorDescriptor>tensorDesc, <DataType>dataType, nbDims,
+        <int*>dimA, <int*>strideA)
+    check_status(status)
+
+
+cpdef destroyTensorDescriptor(size_t tensorDesc):
+    status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+    check_status(status)
+
+
+cpdef addTensor_v3(intptr_t handle, size_t alpha, size_t bDesc,
+                   size_t b, size_t beta, size_t yDesc, size_t y):
+    _setStream(handle)
+    with nogil:
+        status = cudnnAddTensor_v3(
+            <Handle>handle, <void*>alpha, <TensorDescriptor>bDesc,
+            <void*>b, <void*>beta, <TensorDescriptor>yDesc, <void*>y)
+    check_status(status)
+
+
+###############################################################################
+# Tensor operations
+###############################################################################
+
+cpdef size_t createOpTensorDescriptor() except? 0:
+    cdef OpTensorDescriptor opTensorDesc
+    status = cudnnCreateOpTensorDescriptor(&opTensorDesc)
+    check_status(status)
+    return <size_t>opTensorDesc
+
+
+cpdef setOpTensorDescriptor(size_t opTensorDesc, int opTensorOp,
+                            int opTensorCompType, int opTensorNanOpt):
+    status = cudnnSetOpTensorDescriptor(
+        <OpTensorDescriptor>opTensorDesc, <OpTensorOp>opTensorOp,
+        <DataType>opTensorCompType, <NanPropagation>opTensorNanOpt)
+    check_status(status)
+
+
+cpdef getOpTensorDescriptor(size_t opTensorDesc):
+    cdef OpTensorOp opTensorOp
+    cdef DataType opTensorCompType
+    cdef NanPropagation opTensorNanOpt
+    status = cudnnGetOpTensorDescriptor(
+        <OpTensorDescriptor>opTensorDesc, &opTensorOp, &opTensorCompType,
+        &opTensorNanOpt)
+    check_status(status)
+    return opTensorOp, opTensorCompType, opTensorNanOpt
+
+
+cpdef destroyOpTensorDescriptor(size_t opTensorDesc):
+    status = cudnnDestroyOpTensorDescriptor(<OpTensorDescriptor>opTensorDesc)
+    check_status(status)
+
+
+cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
+               size_t aDesc, size_t A, size_t alpha2, size_t bDesc,
+               size_t B, size_t beta, size_t cDesc, size_t C):
+    _setStream(handle)
+    with nogil:
+        status = cudnnOpTensor(
+            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
+            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
+            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
+            <TensorDescriptor>cDesc, <void*>C)
+    check_status(status)
+
+
+###############################################################################
+# Tensor reductions
+###############################################################################
+
+cpdef size_t createReduceTensorDescriptor() except? 0:
+    cdef ReduceTensorDescriptor reduceTensorDesc
+    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
+    check_status(status)
+    return <size_t>reduceTensorDesc
+
+cpdef setReduceTensorDescriptor(
+        size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
+        int reduceTensorNanOpt, int reduceTensorIndices,
+        int reduceTensorIndicesType):
+    status = cudnnSetReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc,
+        <ReduceTensorOp>reduceTensorOp,
+        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
+        <ReduceTensorIndices>reduceTensorIndices,
+        <IndicesType>reduceTensorIndicesType)
+    check_status(status)
+
+
+cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
+    cdef ReduceTensorOp redOp
+    cdef DataType redCompType
+    cdef NanPropagation redNanOpt
+    cdef ReduceTensorIndices redIndices
+    cdef IndicesType redIndicesType
+    status = cudnnGetReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
+        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
+    check_status(status)
+    return redOp, redCompType, redNanOpt, redIndices, redIndicesType
+
+
+cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
+    status = cudnnDestroyReduceTensorDescriptor(
+        <ReduceTensorDescriptor>reduceTensorDesc)
+    check_status(status)
+
+
+cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
+                                     size_t aDesc, size_t cDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetReductionIndicesSize(
+        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef size_t getReductionWorkspaceSize(intptr_t handle,
+                                       size_t reduceTensorDesc,
+                                       size_t aDesc, size_t cDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetReductionWorkspaceSize(
+        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
+                   size_t indicesSizeInBytes, size_t workspace,
+                   size_t workspaceSizeInBytes, size_t alpha, size_t aDesc,
+                   size_t A, size_t beta, size_t cDesc, size_t C):
+    _setStream(handle)
+    with nogil:
+        status = cudnnReduceTensor(
+            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
+            <void*>indices, indicesSizeInBytes, <void*>workspace,
+            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
+            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
+    check_status(status)
+
+
+cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSetTensor(
+            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
+            <void*>valuePtr)
+    check_status(status)
+
+
+cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
+    _setStream(handle)
+    with nogil:
+        status = cudnnScaleTensor(
+            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
+            <void*>alpha)
+    check_status(status)
+
+
+###############################################################################
+# Filter manipulation
+###############################################################################
+
+cpdef size_t createFilterDescriptor() except? 0:
+    cdef FilterDescriptor desc
+    status = cudnnCreateFilterDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setFilter4dDescriptor_v4(
+        size_t filterDesc, int dataType,
+        int format, int k, int c, int h, int w):
+    status = cudnnSetFilter4dDescriptor_v4(
+        <FilterDescriptor>filterDesc, <DataType> dataType,
+        <TensorFormat> format, k, c, h, w)
+    check_status(status)
+
+
+cpdef setFilterNdDescriptor_v4(
+        size_t filterDesc, int dataType,
+        int format, int nbDims, size_t filterDimA):
+    status = cudnnSetFilterNdDescriptor_v4(
+        <FilterDescriptor>filterDesc, <DataType>dataType,
+        <TensorFormat>format, nbDims, <int*>filterDimA)
+    check_status(status)
+
+
+cpdef getFilterNdDescriptor(size_t wDesc, int nbDimsRequested):
+    cdef DataType dataType
+    cdef TensorFormat format
+    cdef int nbDims
+    cdef vector.vector[int] filterDimA
+    filterDimA.resize(nbDimsRequested)
+
+    status = cudnnGetFilterNdDescriptor_v4(
+        <FilterDescriptor>wDesc, nbDimsRequested, &dataType,
+        &format, &nbDims, filterDimA.data())
+    check_status(status)
+    return dataType, format, nbDims, tuple(filterDimA)
+
+
+cpdef destroyFilterDescriptor(size_t filterDesc):
+    status = cudnnDestroyFilterDescriptor(<FilterDescriptor>filterDesc)
+    check_status(status)
+
+
+###############################################################################
+# Convolution
+###############################################################################
+
+cpdef size_t createConvolutionDescriptor() except? 0:
+    cdef ConvolutionDescriptor desc
+    status = miopenCreateConvolutionDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setConvolutionMathType(size_t convDesc, size_t mathType):
+    status = cudnnSetConvolutionMathType(
+        <ConvolutionDescriptor>convDesc, <MathType>mathType)
+    check_status(status)
+
+
+cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
+    cdef MathType mathType
+    status = cudnnGetConvolutionMathType(
+        <ConvolutionDescriptor>convDesc, &mathType)
+    check_status(status)
+    return <size_t>mathType
+
+
+cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
+    status = miopenSetConvolutionGroupCount(
+        <ConvolutionDescriptor>convDesc, groupCount)
+    check_status(status)
+
+
+cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
+    cdef int groupCount
+    status = cudnnGetConvolutionGroupCount(
+        <ConvolutionDescriptor>convDesc, &groupCount)
+    check_status(status)
+    return groupCount
+
+
+cpdef setConvolution2dDescriptor_v4(
+        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
+        int dilation_w, int mode):
+    status = cudnnSetConvolution2dDescriptor_v4(
+        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
+        dilation_w, <ConvolutionMode>mode)
+    check_status(status)
+
+
+cpdef setConvolution2dDescriptor_v5(
+        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
+        int dilation_w, int mode, size_t computeType):
+    status = cudnnSetConvolution2dDescriptor_v5(
+        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
+        dilation_w, <ConvolutionMode>mode, <DataType>computeType)
+    check_status(status)
+
+
+cpdef setConvolutionNdDescriptor_v3(
+        size_t convDesc, int arrayLength, size_t padA, size_t filterStrideA,
+        size_t dilationA, int mode, int dataType):
+    status = cudnnSetConvolutionNdDescriptor_v3(
+        <ConvolutionDescriptor>convDesc, arrayLength, <int*>padA,
+        <int*>filterStrideA, <int*>dilationA, <ConvolutionMode>mode,
+        <DataType>dataType)
+    check_status(status)
+
+
+cpdef destroyConvolutionDescriptor(size_t convDesc):
+    status = miopenDestroyConvolutionDescriptor(
+        <ConvolutionDescriptor>convDesc)
+    check_status(status)
+
+
+cpdef findConvolutionForwardAlgorithm(
+        intptr_t handle, size_t xDesc, size_t wDesc, size_t convDesc,
+        size_t yDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithm(
+        <Handle> handle, <TensorDescriptor>xDesc, <FilterDescriptor>wDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>yDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionForwardAlgorithmEx(
+        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
+        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithmEx(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
+        workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionForwardAlgorithmEx_v7(
+        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
+        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionForwardAlgorithmEx_v7(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
+        workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionForwardAlgorithm_v6(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int preference, size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionFwdAlgo algo
+    status = cudnnGetConvolutionForwardAlgorithm_v6(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>destDesc, <ConvolutionFwdPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionForwardAlgorithm_v7(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionForwardAlgorithm_v7(
+        <Handle> handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>destDesc, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionForwardWorkspaceSize(
+        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
+        size_t destDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenConvolutionForwardGetWorkSpaceSize(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionDescriptor> convDesc,
+        <TensorDescriptor>destDesc, &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionForward(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t filterDesc, size_t filterData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t destDesc, size_t destData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionForward(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <FilterDescriptor>filterDesc, <void*>filterData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <TensorDescriptor>destDesc, <void*>destData)
+    check_status(status)
+
+
+cpdef convolutionBackwardBias(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t beta, size_t destDesc, size_t destData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardBias(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>destDesc, <void*>destData)
+    check_status(status)
+
+
+cpdef findConvolutionBackwardFilterAlgorithm(
+        intptr_t handle, size_t xDesc, size_t dyDesc, size_t convDesc,
+        size_t dwDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithm(
+        <Handle> handle, <TensorDescriptor>xDesc, <TensorDescriptor>dyDesc,
+        <ConvolutionDescriptor>convDesc, <FilterDescriptor>dwDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionBackwardFilterAlgorithmEx(
+        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithmEx(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>dwDesc, <void*>dw,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionBackwardFilterAlgorithmEx_v7(
+        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
+        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>dwDesc, <void*>dw,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionBackwardFilterAlgorithm_v6(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t filterDesc, int preference,
+        size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionBwdFilterAlgo algo
+    status = cudnnGetConvolutionBackwardFilterAlgorithm_v6(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <FilterDescriptor>filterDesc,
+        <ConvolutionBwdFilterPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionBackwardFilterAlgorithm_v7(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionBackwardFilterAlgorithm_v7(
+        <Handle>handle, <TensorDescriptor>srcDesc, <TensorDescriptor>diffDesc,
+        <ConvolutionDescriptor>convDesc, <FilterDescriptor>gradDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionBackwardFilterWorkspaceSize(
+        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
+        size_t filterDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = cudnnGetConvolutionBackwardFilterWorkspaceSize(
+        <Handle>handle, <TensorDescriptor>srcDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor> convDesc,
+        <FilterDescriptor>filterDesc, <ConvolutionBwdFilterAlgo>algo,
+        &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionBackwardFilter_v3(
+        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
+        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t gradDesc, size_t gradData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardFilter_v3(
+            <Handle>handle, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>diffDesc, <void*>diffData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionBwdFilterAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <FilterDescriptor>gradDesc, <void*>gradData)
+    check_status(status)
+
+
+cpdef findConvolutionBackwardDataAlgorithm(
+        intptr_t handle, size_t wDesc, size_t dyDesc, size_t convDesc,
+        size_t dxDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithm(
+        <Handle> handle, <FilterDescriptor>wDesc, <TensorDescriptor>dyDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>dxDesc,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return perfResults
+
+
+cpdef list findConvolutionBackwardDataAlgorithmEx(
+        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dxDesc, size_t dx,
+        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithmEx(
+        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>dxDesc, <void*>dx,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
+            for p in perfResults]
+
+
+cpdef list findConvolutionBackwardDataAlgorithmEx_v7(
+        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
+        size_t convDesc, size_t dxDesc, size_t dx,
+        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
+        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
+        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>dxDesc, <void*>dx,
+        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
+        <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef int getConvolutionBackwardDataAlgorithm_v6(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, size_t preference,
+        size_t memoryLimitInbytes) except? -1:
+    cdef ConvolutionBwdDataAlgo algo
+    status = cudnnGetConvolutionBackwardDataAlgorithm_v6(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>gradDesc, <ConvolutionBwdDataPreference>preference,
+        memoryLimitInbytes, &algo)
+    check_status(status)
+    return algo
+
+
+cpdef list getConvolutionBackwardDataAlgorithm_v7(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int requestedAlgoCount):
+    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
+    cdef int returnedAlgoCount
+    perfResults.resize(requestedAlgoCount)
+    status = cudnnGetConvolutionBackwardDataAlgorithm_v7(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
+        <TensorDescriptor>gradDesc, requestedAlgoCount,
+        &returnedAlgoCount, perfResults.data())
+    check_status(status)
+    perfResults.resize(returnedAlgoCount)
+    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
+                          p.determinism, p.mathType)
+            for p in perfResults]
+
+
+cpdef Py_ssize_t getConvolutionBackwardDataWorkspaceSize(
+        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
+        size_t gradDesc, int algo) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenConvolutionBackwardDataGetWorkSpaceSize(
+        <Handle>handle, <FilterDescriptor>filterDesc,
+        <TensorDescriptor>diffDesc,
+        <ConvolutionDescriptor>convDesc, <TensorDescriptor>gradDesc,
+        &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef convolutionBackwardData_v3(
+        intptr_t handle, size_t alpha, size_t filterDesc, size_t filterData,
+        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
+        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
+        size_t gradDesc, size_t gradData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnConvolutionBackwardData_v3(
+            <Handle>handle, <void*>alpha,
+            <FilterDescriptor>filterDesc, <void*>filterData,
+            <TensorDescriptor>diffDesc, <void*>diffData,
+            <ConvolutionDescriptor>convDesc, <ConvolutionBwdDataAlgo>algo,
+            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
+            <TensorDescriptor>gradDesc, <void*>gradData)
+    check_status(status)
+
+###############################################################################
+# Pooling
+###############################################################################
+
+cpdef size_t createPoolingDescriptor() except? 0:
+    cdef PoolingDescriptor desc
+    status = miopenCreatePoolingDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef setPooling2dDescriptor_v4(
+        size_t poolingDesc, int mode, int maxpoolingNanOpt, int windowHeight,
+        int windowWidth, int verticalPadding, int horizontalPadding,
+        int verticalStride, int horizontalStride):
+    status = cudnnSetPooling2dDescriptor_v4(
+        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
+        <NanPropagation>maxpoolingNanOpt, windowHeight, windowWidth,
+        verticalPadding, horizontalPadding, verticalStride, horizontalStride)
+    check_status(status)
+
+
+cpdef setPoolingNdDescriptor_v4(
+        size_t poolingDesc, int mode, int maxpoolingNanOpt, int nbDims,
+        size_t windowDimA, size_t paddingA, size_t strideA):
+    status = cudnnSetPoolingNdDescriptor_v4(
+        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
+        <NanPropagation>maxpoolingNanOpt, nbDims,
+        <int*>windowDimA, <int*>paddingA, <int*>strideA)
+    check_status(status)
+
+
+cpdef destroyPoolingDescriptor(size_t poolingDesc):
+    status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+    check_status(status)
+
+
+cpdef poolingForward(
+        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnPoolingForward(
+            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef poolingBackward(
+        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
+        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
+        size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnPoolingBackward(
+            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
+            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+###############################################################################
+# Batch Normalization
+###############################################################################
+
+CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
+
+cpdef deriveBNTensorDescriptor(
+        size_t derivedBnDesc, size_t xDesc, int mode):
+    status = miopenDeriveBNTensorDescriptor(
+        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
+        <BatchNormMode> mode)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardTraining(
+        intptr_t handle, int mode,
+        size_t alpha, size_t beta, size_t xDesc,
+        size_t x, size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
+        size_t bnBias, double exponentialAverageFactor,
+        size_t resultRunningMean, size_t resultRunningVariance,
+        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationForwardTraining(
+            <Handle>handle, <BatchNormMode> mode,
+            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+            <void*>x, <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+            <void*>bnBias, exponentialAverageFactor,
+            <void*>resultRunningMean, <void*>resultRunningVariance,
+            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardInference(
+        intptr_t handle, int mode,
+        size_t alpha, size_t beta, size_t xDesc,
+        size_t x, size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
+        size_t bnBias, size_t estimatedMean, size_t estimatedVariance,
+        double epsilon):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationForwardInference(
+            <Handle>handle, <BatchNormMode> mode,
+            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
+            <void*>x, <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
+            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
+            epsilon)
+    check_status(status)
+
+
+cpdef batchNormalizationBackward(
+        intptr_t handle, int mode,
+        size_t alphaDataDiff, size_t betaDataDiff,
+        size_t alphaParamDiff, size_t betaParamDiff,
+        size_t xDesc, size_t x, size_t dyDesc,
+        size_t dy, size_t dxDesc, size_t dx,
+        size_t dBnScaleBiasDesc, size_t bnScale,
+        size_t dBnScaleResult, size_t dBnBiasResult,
+        double epsilon, size_t savedMean, size_t savedInvVariance):
+    _setStream(handle)
+    with nogil:
+        status = miopenBatchNormalizationBackward(
+            <Handle>handle, <BatchNormMode>mode,
+            <void*>alphaDataDiff, <void*>betaDataDiff,
+            <void*>alphaParamDiff, <void*>betaParamDiff,
+            <TensorDescriptor>xDesc, <void*>x,
+            <TensorDescriptor>dyDesc, <void*>dy,
+            <TensorDescriptor>dxDesc, <void*>dx,
+            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
+            <void*>dBnScaleResult, <void*>dBnBiasResult,
+            epsilon, <void*>savedMean, <void*>savedInvVariance)
+    check_status(status)
+
+
+cpdef batchNormalizationForwardTrainingEx(
+        intptr_t handle, int mode, int bnOps,
+        size_t alpha, size_t beta,
+        size_t xDesc, size_t x,
+        size_t zDesc, size_t z,
+        size_t yDesc, size_t y,
+        size_t bnScaleBiasMeanVarDesc,
+        size_t bnScale, size_t bnBias,
+        double exponentialAverageFactor,
+        size_t resultRunningMean, size_t resultRunningVariance,
+        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance,
+        size_t activationDesc,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnBatchNormalizationForwardTrainingEx(
+            <Handle>handle, <BatchNormMode> mode, <BatchNormOps> bnOps,
+            <void*>alpha, <void*>beta,
+            <TensorDescriptor>xDesc, <void*>x,
+            <TensorDescriptor>zDesc, <void*>z,
+            <TensorDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>bnScaleBiasMeanVarDesc,
+            <void*>bnScale, <void*>bnBias,
+            exponentialAverageFactor,
+            <void*>resultRunningMean, <void*>resultRunningVariance,
+            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance,
+            <ActivationDescriptor>activationDesc,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef size_t getBatchNormalizationForwardTrainingExWorkspaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t xDesc,
+        size_t zDesc,
+        size_t yDesc,
+        size_t bnScaleBiasMeanVarDesc,
+        size_t activationDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode, <BatchNormOps> bnOps,
+        <TensorDescriptor> xDesc,
+        <TensorDescriptor> zDesc,
+        <TensorDescriptor> yDesc,
+        <TensorDescriptor> bnScaleBiasMeanVarDesc,
+        <ActivationDescriptor> activationDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef batchNormalizationBackwardEx(
+        intptr_t handle, int mode, int bnops,
+        size_t alphaDataDiff, size_t betaDataDiff,
+        size_t alphaParamDiff, size_t betaParamDiff,
+        size_t xDesc, size_t x,
+        size_t yDesc, size_t y,
+        size_t dyDesc, size_t dy,
+        size_t dzDesc, size_t dz,
+        size_t dxDesc, size_t dx,
+        size_t dBnScaleBiasDesc,
+        size_t bnScaleData, size_t bnBiasData,
+        size_t dBnScaleData, size_t dBnBiasData,
+        double epsilon,
+        size_t savedMean, size_t savedInvVariance,
+        size_t activationDesc,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnBatchNormalizationBackwardEx(
+            <Handle> handle,
+            <BatchNormMode> mode, <BatchNormOps> bnops,
+            <void*> alphaDataDiff, <void*> betaDataDiff,
+            <void*> alphaParamDiff, <void*> betaParamDiff,
+            <TensorDescriptor> xDesc, <void*> x,
+            <TensorDescriptor> yDesc, <void*> y,
+            <TensorDescriptor> dyDesc, <void*> dy,
+            <TensorDescriptor> dzDesc, <void*> dz,
+            <TensorDescriptor> dxDesc, <void*> dx,
+            <TensorDescriptor> dBnScaleBiasDesc,
+            <void*> bnScaleData, <void*> bnBiasData,
+            <void*> dBnScaleData, <void*> dBnBiasData,
+            epsilon,
+            <void*> savedMean, <void*> savedInvVariance,
+            <ActivationDescriptor> activationDesc,
+            <void*> workSpace, workSpaceSizeInBytes,
+            <void*> reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef size_t getBatchNormalizationBackwardExWorkspaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t xDesc,
+        size_t yDesc,
+        size_t dyDesc,
+        size_t dzDesc,
+        size_t dxDesc,
+        size_t dBnScaleBiasDesc,
+        size_t activationDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationBackwardExWorkspaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode,
+        <BatchNormOps> bnOps,
+        <TensorDescriptor> xDesc,
+        <TensorDescriptor> yDesc,
+        <TensorDescriptor> dyDesc,
+        <TensorDescriptor> dzDesc,
+        <TensorDescriptor> dxDesc,
+        <TensorDescriptor> dBnScaleBiasDesc,
+        <ActivationDescriptor> activationDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
+        intptr_t handle, int mode, int bnOps,
+        size_t activationDesc,
+        size_t xDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
+        <Handle> handle,
+        <BatchNormMode> mode,
+        <BatchNormOps> bnOps,
+        <ActivationDescriptor> activationDesc,
+        <TensorDescriptor> xDesc,
+        &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+###############################################################################
+# Activation
+###############################################################################
+
+cpdef size_t createActivationDescriptor() except? 0:
+    cdef ActivationDescriptor activationDesc
+    status = miopenCreateActivationDescriptor(&activationDesc)
+    check_status(status)
+    return <size_t>activationDesc
+
+
+cpdef setActivationDescriptor(
+        size_t activationDesc, int mode, int reluNanOpt, double reluCeiling):
+    status = cudnnSetActivationDescriptor(
+        <ActivationDescriptor>activationDesc, <ActivationMode>mode,
+        <NanPropagation>reluNanOpt, reluCeiling)
+    check_status(status)
+
+
+cpdef destroyActivationDescriptor(size_t activationDesc):
+    status = miopenDestroyActivationDescriptor(
+        <ActivationDescriptor>activationDesc)
+    check_status(status)
+
+
+cpdef softmaxForward(
+        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = miopenSoftmaxForward(
+            <Handle>handle, 
+            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef softmaxBackward(
+        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData, size_t beta,
+        size_t destDiffDesc, size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = miopenSoftmaxBackward(
+            <Handle>handle, 
+            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+
+cpdef activationForward_v4(
+        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnActivationForward_v4(
+            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
+            <TensorDescriptor>dstDesc, <void*>dstData)
+    check_status(status)
+
+
+cpdef activationBackward_v4(
+        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
+        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
+        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
+        size_t destDiffData):
+    _setStream(handle)
+    with nogil:
+        status = cudnnActivationBackward_v4(
+            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
+            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
+            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
+    check_status(status)
+
+
+###############################################################################
+# Dropout
+###############################################################################
+
+cpdef size_t createDropoutDescriptor() except? 0:
+    cdef DropoutDescriptor desc
+    status = miopenCreateDropoutDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyDropoutDescriptor(size_t dropoutDesc):
+    status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+    check_status(status)
+
+
+cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
+    cdef size_t sizeInBytes
+    status = miopenDropoutGetStatesSize(
+        <Handle>handle, &sizeInBytes)
+    check_status(status)
+    return <Py_ssize_t>sizeInBytes
+
+
+cpdef setDropoutDescriptor(
+        size_t dropoutDesc, intptr_t handle, float dropout,
+        size_t states, size_t stateSizeInBytes, unsigned long long seed):
+    status = cudnnSetDropoutDescriptor(
+        <DropoutDescriptor>dropoutDesc, <Handle>handle, dropout,
+        <void*>states, stateSizeInBytes, seed)
+    check_status(status)
+
+
+cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = miopenDropoutGetReserveSpaceSize(
+        <TensorDescriptor>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef dropoutForward(
+        intptr_t handle, size_t dropoutDesc,
+        size_t srcDesc, size_t srcData,
+        size_t dstDesc, size_t dstData,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnDropoutForward(
+            <Handle>handle, <DropoutDescriptor>dropoutDesc,
+            <TensorDescriptor>srcDesc, <void*>srcData,
+            <TensorDescriptor>dstDesc, <void*>dstData,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef dropoutBackward(
+        intptr_t handle, size_t dropoutDesc,
+        size_t dyDesc, size_t dyData,
+        size_t dxDesc, size_t dxData,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnDropoutBackward(
+            <Handle>handle, <DropoutDescriptor>dropoutDesc,
+            <TensorDescriptor>dyDesc, <void*>dyData,
+            <TensorDescriptor>dxDesc, <void*>dxData,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# CTC
+###############################################################################
+cpdef size_t createCTCLossDescriptor() except? 0:
+    cdef CTCLossDescriptor desc
+    status = miopenCreateCTCLossDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
+    status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+    check_status(status)
+
+cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
+    status = cudnnSetCTCLossDescriptor(
+        <CTCLossDescriptor>ctcLossDesc, <DataType>dataType)
+    check_status(status)
+
+cpdef getCTCLossDescriptor(size_t ctcLossDesc):
+    cdef DataType compType
+    status = cudnnGetCTCLossDescriptor(
+        <CTCLossDescriptor>ctcLossDesc, &compType)
+    check_status(status)
+    return compType
+
+cpdef size_t getCTCLossWorkspaceSize(
+        intptr_t handle, size_t probsDesc, size_t gradientsDesc,
+        size_t labels, size_t labelLengths, size_t inputLengths,
+        int algo, size_t ctcLossDesc) except? 0:
+    cdef size_t sizeInBytes
+    status = miopenGetCTCLossWorkspaceSize(
+        <Handle>handle, <TensorDescriptor>probsDesc,
+        <TensorDescriptor>gradientsDesc,
+        <int*>labels, <int*>labelLengths, <int*>inputLengths,
+        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+cpdef CTCLoss(
+        intptr_t handle, size_t probsDesc,
+        size_t probs, size_t labels, size_t labelLengths, size_t inputLengths,
+        size_t costs, size_t gradientsDesc, size_t gradients,
+        int algo, size_t ctcLossDesc,
+        size_t workspace, size_t workSpaceSizeInBytes):
+    status = miopenCTCLoss(
+        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
+        <int*>labels, <int*>labelLengths, <int*>inputLengths,
+        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
+        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
+        <void*>workspace, <size_t>workSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# RNN
+###############################################################################
+
+cpdef size_t createRNNDescriptor() except? 0:
+    cdef RNNDescriptor desc
+    status = miopenCreateRNNDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyRNNDescriptor(size_t rnnDesc):
+    status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+    check_status(status)
+
+
+cpdef size_t createPersistentRNNPlan(size_t rnnDesc, int minibatch,
+                                     int dataType) except? 0:
+    cdef PersistentRNNPlan plan
+    status = cudnnCreatePersistentRNNPlan(
+        <RNNDescriptor>rnnDesc,
+        <int>minibatch, <DataType>dataType, &plan)
+    check_status(status)
+    return <size_t>plan
+
+
+cpdef setPersistentRNNPlan(size_t rnnDesc, size_t plan):
+    status = cudnnSetPersistentRNNPlan(
+        <RNNDescriptor>rnnDesc, <PersistentRNNPlan>plan)
+    check_status(status)
+
+
+cpdef destroyPersistentRNNPlan(size_t plan):
+    status = cudnnDestroyPersistentRNNPlan(<PersistentRNNPlan>plan)
+    check_status(status)
+
+
+cpdef setRNNDescriptor_v5(
+        size_t rnnDesc, int hiddenSize, int numLayers,
+        size_t dropoutDesc, int inputMode, int direction, int mode,
+        int dataType):
+    status = cudnnSetRNNDescriptor_v5(
+        <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
+        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
+        <DirectionMode>direction, <RNNMode>mode, <DataType>dataType)
+    check_status(status)
+
+
+cpdef setRNNDescriptor_v6(
+        intptr_t handle, size_t rnnDesc, int hiddenSize, int numLayers,
+        size_t dropoutDesc, int inputMode, int direction, int mode,
+        int algo, int dataType):
+    status = cudnnSetRNNDescriptor_v6(
+        <Handle>handle, <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
+        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
+        <DirectionMode>direction, <RNNMode>mode, <RNNAlgo>algo,
+        <DataType>dataType)
+    check_status(status)
+
+
+cpdef setRNNPaddingMode(
+        size_t rnnDesc, int paddingMode):
+    status = cudnnSetRNNPaddingMode(
+        <RNNDescriptor>rnnDesc, <RNNPaddingMode>paddingMode)
+    check_status(status)
+
+
+cpdef getRNNPaddingMode(size_t rnnDesc):
+    cdef RNNPaddingMode paddingMode
+    status = cudnnGetRNNPaddingMode(
+        <RNNDescriptor>rnnDesc, &paddingMode)
+    check_status(status)
+    return paddingMode
+
+
+cpdef size_t createRNNDataDescriptor() except? 0:
+    cdef RNNDataDescriptor desc
+    status = cudnnCreateRNNDataDescriptor(&desc)
+    check_status(status)
+    return <size_t>desc
+
+
+cpdef destroyRNNDataDescriptor(size_t RNNDataDesc):
+    status = cudnnDestroyRNNDataDescriptor(<RNNDataDescriptor>RNNDataDesc)
+    check_status(status)
+
+
+cpdef setRNNDataDescriptor(
+        size_t RNNDataDesc, int dataType, size_t layout,
+        int maxSeqLength, int batchSize, int vectorSize,
+        size_t seqLengthArray, size_t paddingFill):
+    status = cudnnSetRNNDataDescriptor(
+        <RNNDataDescriptor>RNNDataDesc, <DataType>dataType,
+        <RNNDataLayout>layout, maxSeqLength, batchSize, vectorSize,
+        <const int*>seqLengthArray, <void*>paddingFill)
+    check_status(status)
+
+
+cpdef getRNNDataDescriptor(
+        size_t RNNDataDesc, size_t dataType,
+        size_t layout, size_t maxSeqLength, size_t batchSize,
+        size_t vectorSize, int arrayLengthRequested, size_t seqLengthArray,
+        size_t paddingFill):
+    status = cudnnGetRNNDataDescriptor(
+        <RNNDataDescriptor>RNNDataDesc, <DataType*>dataType,
+        <RNNDataLayout*>layout, <int*>maxSeqLength, <int*>batchSize,
+        <int*>vectorSize, arrayLengthRequested, <int*>seqLengthArray,
+        <void*>paddingFill)
+    check_status(status)
+
+
+cpdef getRNNWorkspaceSize(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNWorkspaceSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+        <TensorDescriptor*>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNTrainingReserveSize(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNTrainingReserveSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+        <TensorDescriptor*>xDesc, &sizeInBytes)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNParamsSize(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
+    cdef size_t sizeInBytes
+    status = miopenGetRNNParamsSize(
+        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
+        &sizeInBytes, <DataType>dataType)
+    check_status(status)
+    return sizeInBytes
+
+
+cpdef getRNNLinLayerMatrixParams(
+        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
+        size_t w, int linLayerID, size_t linLayerMatDesc, size_t linLayerMat):
+    status = cudnnGetRNNLinLayerMatrixParams(
+        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
+        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
+        linLayerID, <FilterDescriptor>linLayerMatDesc, <void**>linLayerMat)
+    check_status(status)
+
+
+cpdef getRNNLinLayerBiasParams(
+        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
+        size_t w, int linLayerID, size_t linLayerBiasDesc,
+        size_t linLayerBias):
+    status = cudnnGetRNNLinLayerBiasParams(
+        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
+        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
+        linLayerID, <FilterDescriptor>linLayerBiasDesc, <void**>linLayerBias)
+    check_status(status)
+
+
+cpdef RNNForwardInference(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc,
+        size_t x, size_t hxDesc, size_t hx, size_t cxDesc,
+        size_t cx, size_t wDesc, size_t w, size_t yDesc,
+        size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = miopenRNNForwardInference(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <void*>workspace, workSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardTraining(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
+        size_t wDesc, size_t w, size_t yDesc, size_t y,
+        size_t hyDesc, size_t hy, size_t cyDesc, size_t cy,
+        size_t workspace, size_t workSpaceSizeInBytes, size_t reserveSpace,
+        size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = miopenRNNForwardTraining(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*> hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <void*>workspace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardData(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t yDesc, size_t y,
+        size_t dyDesc, size_t dy, size_t dhyDesc, size_t dhy,
+        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w,
+        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
+        size_t dxDesc, size_t dx, size_t dhxDesc, size_t dhx,
+        size_t dcxDesc, size_t dcx, size_t workspace,
+        size_t workSpaceSizeInBytes, size_t reserveSpace,
+        size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardData(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <TensorDescriptor*>dyDesc, <void*>dy,
+            <TensorDescriptor>dhyDesc, <void*>dhy,
+            <TensorDescriptor>dcyDesc, <void*>dcy,
+            <FilterDescriptor>wDesc, <void*>w,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor>cxDesc, <void*>cx,
+            <TensorDescriptor*>dxDesc, <void*>dx,
+            <TensorDescriptor>dhxDesc, <void*>dhx,
+            <TensorDescriptor>dcxDesc, <void*>dcx,
+            <void*>workspace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardWeights(
+        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
+        size_t workspace, size_t workSpaceSizeInBytes, size_t dwDesc,
+        size_t dw, size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardWeights(
+            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
+            <TensorDescriptor*>xDesc, <void*>x,
+            <TensorDescriptor>hxDesc, <void*>hx,
+            <TensorDescriptor*>yDesc, <void*>y,
+            <void*>workspace, workSpaceSizeInBytes,
+            <FilterDescriptor>dwDesc, <void*>dw,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardInferenceEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
+        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
+        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
+        size_t workSpace, size_t workSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNForwardInferenceEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <RNNDataDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <RNNDataDescriptor>kDesc, <const void*>keys,
+            <RNNDataDescriptor>cDesc, <void*>cAttn,
+            <RNNDataDescriptor>iDesc, <void*>iAttn,
+            <RNNDataDescriptor>qDesc, <void*>queries,
+            <void*>workSpace, workSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNForwardTrainingEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
+        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
+        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
+        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNForwardTrainingEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <RNNDataDescriptor>yDesc, <void*>y,
+            <TensorDescriptor>hyDesc, <void*>hy,
+            <TensorDescriptor>cyDesc, <void*>cy,
+            <RNNDataDescriptor>kDesc, <const void*>keys,
+            <RNNDataDescriptor>cDesc, <void*>cAttn,
+            <RNNDataDescriptor>iDesc, <void*>iAttn,
+            <RNNDataDescriptor>qDesc, <void*>queries,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardDataEx(
+        intptr_t handle, size_t rnnDesc, size_t yDesc, size_t y, size_t dyDesc,
+        size_t dy, size_t dcDesc, size_t dcAttn, size_t dhyDesc, size_t dhy,
+        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w, size_t hxDesc,
+        size_t hx, size_t cxDesc, size_t cx, size_t dxDesc, size_t dx,
+        size_t dhxDesc, size_t dhx, size_t dcxDesc, size_t dcx,
+        size_t dkDesc, size_t dkeys,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardDataEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>yDesc, <const void*>y,
+            <RNNDataDescriptor>dyDesc, <const void*>dy,
+            <RNNDataDescriptor>dcDesc, <const void*>dcAttn,
+            <TensorDescriptor>dhyDesc, <const void*>dhy,
+            <TensorDescriptor>dcyDesc, <const void*>dcy,
+            <FilterDescriptor>wDesc, <const void*>w,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <TensorDescriptor>cxDesc, <const void*>cx,
+            <RNNDataDescriptor>dxDesc, <void*>dx,
+            <TensorDescriptor>dhxDesc, <void*>dhx,
+            <TensorDescriptor>dcxDesc, <void*>dcx,
+            <RNNDataDescriptor>dkDesc, <void*>dkeys,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+cpdef RNNBackwardWeightsEx(
+        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x,
+        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
+        size_t workSpace, size_t workSpaceSizeInBytes,
+        size_t dwDesc, size_t dw,
+        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
+    _setStream(handle)
+    with nogil:
+        status = cudnnRNNBackwardWeightsEx(
+            <Handle>handle, <RNNDescriptor>rnnDesc,
+            <RNNDataDescriptor>xDesc, <const void*>x,
+            <TensorDescriptor>hxDesc, <const void*>hx,
+            <RNNDataDescriptor>yDesc, <const void*>y,
+            <void*>workSpace, workSpaceSizeInBytes,
+            <FilterDescriptor>dwDesc, <void*>dw,
+            <void*>reserveSpace, reserveSpaceSizeInBytes)
+    check_status(status)
+
+
+###############################################################################
+# Spatial Transformer
+###############################################################################
+
+cpdef size_t createSpatialTransformerDescriptor() except? 0:
+    cdef SpatialTransformerDescriptor stDesc
+    status = cudnnCreateSpatialTransformerDescriptor(&stDesc)
+    check_status(status)
+    return <size_t>stDesc
+
+
+cpdef destroySpatialTransformerDescriptor(size_t stDesc):
+    status = cudnnDestroySpatialTransformerDescriptor(
+        <SpatialTransformerDescriptor>stDesc)
+    check_status(status)
+
+
+cpdef setSpatialTransformerDescriptor(
+        size_t stDesc, size_t samplerType, int dataType,
+        int nbDims, size_t dimA):
+    status = cudnnSetSpatialTransformerNdDescriptor(
+        <SpatialTransformerDescriptor>stDesc, <SamplerType>samplerType,
+        <DataType>dataType, nbDims, <int*>dimA)
+    check_status(status)
+
+
+cpdef spatialTfGridGeneratorForward(
+        intptr_t handle, size_t stDesc, size_t theta, size_t grid):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfGridGeneratorForward(
+            <Handle>handle, <SpatialTransformerDescriptor> stDesc,
+            <void*>theta, <void*>grid)
+    check_status(status)
+
+
+cpdef spatialTfGridGeneratorBackward(
+        intptr_t handle, size_t stDesc, size_t dgrid, size_t dtheta):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfGridGeneratorBackward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>dgrid, <void*>dtheta)
+    check_status(status)
+
+
+cpdef spatialTfSamplerForward(
+        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
+        size_t x, size_t grid, size_t beta, size_t yDesc, size_t y):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfSamplerForward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>grid,
+            <void*>beta, <TensorDescriptor>yDesc, <void*>y)
+    check_status(status)
+
+
+cpdef spatialTfSamplerBackward(
+        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
+        size_t x, size_t beta, size_t dxDesc, size_t dx, size_t alphaDgrid,
+        size_t dyDesc, size_t dy, size_t grid, size_t betaDgrid, size_t dgrid):
+    _setStream(handle)
+    with nogil:
+        status = cudnnSpatialTfSamplerBackward(
+            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
+            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>beta,
+            <TensorDescriptor>dxDesc, <void*>dx, <void*>alphaDgrid,
+            <TensorDescriptor>dyDesc, <void*>dy, <void*>grid,
+            <void*>betaDgrid, <void*>dgrid)
+    check_status(status)
+
+###############################################################################
+# Fused Ops
+###############################################################################
+
+cpdef createFusedOpsConstParamPack(int ops):
+    cdef FusedOpsConstParamPack constPack
+    with nogil:
+        status = cudnnCreateFusedOpsConstParamPack(&constPack, <FusedOps>ops)
+    check_status(status)
+    return <size_t>constPack
+
+cpdef destroyFusedOpsConstParamPack(size_t constPack):
+    with nogil:
+        status = cudnnDestroyFusedOpsConstParamPack(
+            <FusedOpsConstParamPack>constPack)
+    check_status(status)
+
+cpdef setFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
+                                         size_t param):
+    with nogil:
+        status = cudnnSetFusedOpsConstParamPackAttribute(
+            <FusedOpsConstParamPack>constPack,
+            <FusedOpsConstParamLabel>paramLabel, <const void*>param)
+    check_status(status)
+
+cpdef getFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
+                                         size_t param):
+    cdef int isNULL = 0
+    with nogil:
+        status = cudnnGetFusedOpsConstParamPackAttribute(
+            <const FusedOpsConstParamPack>constPack,
+            <FusedOpsConstParamLabel>paramLabel, <void*>param, &isNULL)
+    check_status(status)
+    return isNULL
+
+cpdef createFusedOpsVariantParamPack(int ops):
+    cdef FusedOpsVariantParamPack varPack
+    with nogil:
+        status = cudnnCreateFusedOpsVariantParamPack(&varPack, <FusedOps>ops)
+    check_status(status)
+    return <size_t>varPack
+
+cpdef destroyFusedOpsVariantParamPack(size_t varPack):
+    with nogil:
+        status = cudnnDestroyFusedOpsVariantParamPack(
+            <FusedOpsVariantParamPack>varPack)
+    check_status(status)
+
+cpdef setFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
+                                           size_t ptr):
+    with nogil:
+        status = cudnnSetFusedOpsVariantParamPackAttribute(
+            <FusedOpsVariantParamPack>varPack,
+            <FusedOpsVariantParamLabel>paramLabel, <void*>ptr)
+    check_status(status)
+
+cpdef getFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
+                                           size_t ptr):
+    with nogil:
+        status = cudnnGetFusedOpsVariantParamPackAttribute(
+            <const FusedOpsVariantParamPack>varPack,
+            <FusedOpsVariantParamLabel> paramLabel, <void*>ptr)
+    check_status(status)
+
+cpdef createFusedOpsPlan(int ops):
+    cdef FusedOpsPlan plan
+    with nogil:
+        status = cudnnCreateFusedOpsPlan(&plan, <FusedOps>ops)
+    check_status(status)
+    return <size_t>plan
+
+cpdef destroyFusedOpsPlan(size_t plan):
+    with nogil:
+        status = cudnnDestroyFusedOpsPlan(<FusedOpsPlan>plan)
+    check_status(status)
+
+cpdef makeFusedOpsPlan(intptr_t handle, size_t plan, size_t constPack):
+    cdef size_t workspaceSizeInBytes
+    _setStream(handle)
+    with nogil:
+        status = cudnnMakeFusedOpsPlan(<Handle>handle, <FusedOpsPlan>plan,
+                                       <const FusedOpsConstParamPack>constPack,
+                                       &workspaceSizeInBytes)
+    check_status(status)
+    return workspaceSizeInBytes
+
+cpdef fusedOpsExecute(intptr_t handle, size_t plan, size_t varPack):
+    _setStream(handle)
+    with nogil:
+        status = cudnnFusedOpsExecute(<Handle>handle, <const FusedOpsPlan>plan,
+                                      <FusedOpsVariantParamPack>varPack)
+    check_status(status)
+

From 0c0f0bed5b73c9fac35af5df808f4619a9b4e2ef Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Mon, 27 Nov 2023 21:47:19 +0000
Subject: [PATCH 42/49] update miopen.pyx

---
 cupy_backends/cuda/libs/miopen.pyx | 1802 ----------------------------
 1 file changed, 1802 deletions(-)

diff --git a/cupy_backends/cuda/libs/miopen.pyx b/cupy_backends/cuda/libs/miopen.pyx
index c7c3811c885..cd68ca9f693 100644
--- a/cupy_backends/cuda/libs/miopen.pyx
+++ b/cupy_backends/cuda/libs/miopen.pyx
@@ -739,1805 +739,3 @@ cdef extern from '../../cupy_cudnn.h' nogil:
     # Constants
     double _CUDNN_BN_MIN_EPSILON 'CUDNN_BN_MIN_EPSILON'
 
-
-cdef class CuDNNAlgoPerf:
-
-    def __init__(self, algo, status, time, memory, determinism, mathType):
-        self.algo = algo
-        self.status = status
-        self.time = time
-        self.memory = memory
-        self.determinism = determinism
-        self.mathType = mathType
-
-
-###############################################################################
-# Error handling
-###############################################################################
-
-class CuDNNError(RuntimeError):
-
-    def __init__(self, int status):
-        self.status = status
-        msg = cudnnGetErrorString(<Status>status)
-        super(CuDNNError, self).__init__(
-            'cuDNN Error: {}'.format(msg.decode()))
-        self._infos = []
-
-    def add_info(self, info):
-        assert isinstance(info, str)
-        self._infos.append(info)
-
-    def add_infos(self, infos):
-        assert isinstance(infos, list)
-        self._infos.extend(infos)
-
-    def __str__(self):
-        base = super(CuDNNError, self).__str__()
-        return base + ''.join(
-            '\n  ' + info for info in self._infos)
-
-    def __reduce__(self):
-        return (type(self), (self.status,))
-
-
-@cython.profile(False)
-cpdef inline check_status(int status):
-    if status != 0:
-        raise CuDNNError(status)
-
-
-###############################################################################
-# Build-time version
-###############################################################################
-
-def get_build_version():
-    return CUDNN_VERSION
-
-
-###############################################################################
-# Version
-###############################################################################
-
-cpdef size_t getVersion() except? 0:
-    return cudnnGetVersion()
-
-
-###############################################################################
-# Runtime error checking
-###############################################################################
-
-cpdef queryRuntimeError(intptr_t handle, int mode):
-    cdef Status rstatus
-    with nogil:
-        status = cudnnQueryRuntimeError(<Handle>handle, &rstatus,
-                                        <ErrQueryMode>mode, <RuntimeTag*>0)
-    check_status(status)
-    return rstatus
-
-
-###############################################################################
-# Initialization and CUDA cooperation
-###############################################################################
-
-cpdef intptr_t create() except? 0:
-    cdef Handle handle
-    with nogil:
-        status = miopenCreate(&handle)
-    check_status(status)
-    return <intptr_t>handle
-
-
-cpdef destroy(intptr_t handle):
-    with nogil:
-        status = miopenDestroy(<Handle>handle)
-    check_status(status)
-
-
-cpdef setStream(intptr_t handle, size_t stream):
-    # TODO(leofang): The support of stream capture is not mentioned at all in
-    # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
-        raise NotImplementedError(
-            'calling cuDNN API during stream capture is currently '
-            'unsupported')
-
-    status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
-    check_status(status)
-
-
-cpdef size_t getStream(intptr_t handle) except? 0:
-    cdef driver.Stream stream
-    status = miopenGetStream(<Handle>handle, &stream)
-    check_status(status)
-    return <size_t>stream
-
-
-cdef _setStream(intptr_t handle):
-    """Set current stream"""
-    setStream(handle, stream_module.get_current_stream_ptr())
-
-###############################################################################
-# Tensor manipulation
-###############################################################################
-
-cpdef size_t createTensorDescriptor() except? 0:
-    cdef TensorDescriptor descriptor
-    status = miopenCreateTensorDescriptor(&descriptor)
-    check_status(status)
-    return <size_t>descriptor
-
-
-cpdef setTensor4dDescriptor(size_t tensorDesc, int format, int dataType,
-                            int n, int c, int h, int w):
-    status = miopenSet4dTensorDescriptor(
-        <TensorDescriptor>tensorDesc,
-        <DataType>dataType, n, c, h, w)
-    check_status(status)
-
-
-cpdef setTensor4dDescriptorEx(size_t tensorDesc, int dataType,
-                              int n, int c, int h, int w, int nStride,
-                              int cStride, int hStride, int wStride):
-    status = miopenSet4dTensorDescriptorEx(
-        <TensorDescriptor>tensorDesc, <DataType>dataType, n, c, h, w,
-        nStride, cStride, hStride, wStride)
-    check_status(status)
-
-
-cpdef tuple getTensor4dDescriptor(size_t tensorDesc):
-    cdef DataType dataType
-    cdef int n, c, h, w, nStride, cStride, hStride, wStride
-    status = miopenGet4dTensorDescriptor(
-        <TensorDescriptor>tensorDesc, &dataType,
-        &n, &c, &h, &w, &nStride, &cStride, &hStride, &wStride)
-    check_status(status)
-    return dataType, n, c, h, w, nStride, cStride, hStride, wStride
-
-
-cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
-                            size_t dimA, size_t strideA):
-    status = cudnnSetTensorNdDescriptor(
-        <TensorDescriptor>tensorDesc, <DataType>dataType, nbDims,
-        <int*>dimA, <int*>strideA)
-    check_status(status)
-
-
-cpdef destroyTensorDescriptor(size_t tensorDesc):
-    status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
-    check_status(status)
-
-
-cpdef addTensor_v3(intptr_t handle, size_t alpha, size_t bDesc,
-                   size_t b, size_t beta, size_t yDesc, size_t y):
-    _setStream(handle)
-    with nogil:
-        status = cudnnAddTensor_v3(
-            <Handle>handle, <void*>alpha, <TensorDescriptor>bDesc,
-            <void*>b, <void*>beta, <TensorDescriptor>yDesc, <void*>y)
-    check_status(status)
-
-
-###############################################################################
-# Tensor operations
-###############################################################################
-
-cpdef size_t createOpTensorDescriptor() except? 0:
-    cdef OpTensorDescriptor opTensorDesc
-    status = cudnnCreateOpTensorDescriptor(&opTensorDesc)
-    check_status(status)
-    return <size_t>opTensorDesc
-
-
-cpdef setOpTensorDescriptor(size_t opTensorDesc, int opTensorOp,
-                            int opTensorCompType, int opTensorNanOpt):
-    status = cudnnSetOpTensorDescriptor(
-        <OpTensorDescriptor>opTensorDesc, <OpTensorOp>opTensorOp,
-        <DataType>opTensorCompType, <NanPropagation>opTensorNanOpt)
-    check_status(status)
-
-
-cpdef getOpTensorDescriptor(size_t opTensorDesc):
-    cdef OpTensorOp opTensorOp
-    cdef DataType opTensorCompType
-    cdef NanPropagation opTensorNanOpt
-    status = cudnnGetOpTensorDescriptor(
-        <OpTensorDescriptor>opTensorDesc, &opTensorOp, &opTensorCompType,
-        &opTensorNanOpt)
-    check_status(status)
-    return opTensorOp, opTensorCompType, opTensorNanOpt
-
-
-cpdef destroyOpTensorDescriptor(size_t opTensorDesc):
-    status = cudnnDestroyOpTensorDescriptor(<OpTensorDescriptor>opTensorDesc)
-    check_status(status)
-
-
-cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
-               size_t aDesc, size_t A, size_t alpha2, size_t bDesc,
-               size_t B, size_t beta, size_t cDesc, size_t C):
-    _setStream(handle)
-    with nogil:
-        status = cudnnOpTensor(
-            <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
-            <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
-            <TensorDescriptor>bDesc, <void*>B, <void*>beta,
-            <TensorDescriptor>cDesc, <void*>C)
-    check_status(status)
-
-
-###############################################################################
-# Tensor reductions
-###############################################################################
-
-cpdef size_t createReduceTensorDescriptor() except? 0:
-    cdef ReduceTensorDescriptor reduceTensorDesc
-    status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
-    check_status(status)
-    return <size_t>reduceTensorDesc
-
-cpdef setReduceTensorDescriptor(
-        size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
-        int reduceTensorNanOpt, int reduceTensorIndices,
-        int reduceTensorIndicesType):
-    status = cudnnSetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc,
-        <ReduceTensorOp>reduceTensorOp,
-        <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
-        <ReduceTensorIndices>reduceTensorIndices,
-        <IndicesType>reduceTensorIndicesType)
-    check_status(status)
-
-
-cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
-    cdef ReduceTensorOp redOp
-    cdef DataType redCompType
-    cdef NanPropagation redNanOpt
-    cdef ReduceTensorIndices redIndices
-    cdef IndicesType redIndicesType
-    status = cudnnGetReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
-        &redCompType, &redNanOpt, &redIndices, &redIndicesType)
-    check_status(status)
-    return redOp, redCompType, redNanOpt, redIndices, redIndicesType
-
-
-cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    status = cudnnDestroyReduceTensorDescriptor(
-        <ReduceTensorDescriptor>reduceTensorDesc)
-    check_status(status)
-
-
-cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
-                                     size_t aDesc, size_t cDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetReductionIndicesSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef size_t getReductionWorkspaceSize(intptr_t handle,
-                                       size_t reduceTensorDesc,
-                                       size_t aDesc, size_t cDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetReductionWorkspaceSize(
-        <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-        <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
-                   size_t indicesSizeInBytes, size_t workspace,
-                   size_t workspaceSizeInBytes, size_t alpha, size_t aDesc,
-                   size_t A, size_t beta, size_t cDesc, size_t C):
-    _setStream(handle)
-    with nogil:
-        status = cudnnReduceTensor(
-            <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
-            <void*>indices, indicesSizeInBytes, <void*>workspace,
-            workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
-            <void*>A, <void*>beta, <TensorDescriptor>cDesc, <void*>C)
-    check_status(status)
-
-
-cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSetTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
-            <void*>valuePtr)
-    check_status(status)
-
-
-cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
-    _setStream(handle)
-    with nogil:
-        status = cudnnScaleTensor(
-            <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
-            <void*>alpha)
-    check_status(status)
-
-
-###############################################################################
-# Filter manipulation
-###############################################################################
-
-cpdef size_t createFilterDescriptor() except? 0:
-    cdef FilterDescriptor desc
-    status = cudnnCreateFilterDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setFilter4dDescriptor_v4(
-        size_t filterDesc, int dataType,
-        int format, int k, int c, int h, int w):
-    status = cudnnSetFilter4dDescriptor_v4(
-        <FilterDescriptor>filterDesc, <DataType> dataType,
-        <TensorFormat> format, k, c, h, w)
-    check_status(status)
-
-
-cpdef setFilterNdDescriptor_v4(
-        size_t filterDesc, int dataType,
-        int format, int nbDims, size_t filterDimA):
-    status = cudnnSetFilterNdDescriptor_v4(
-        <FilterDescriptor>filterDesc, <DataType>dataType,
-        <TensorFormat>format, nbDims, <int*>filterDimA)
-    check_status(status)
-
-
-cpdef getFilterNdDescriptor(size_t wDesc, int nbDimsRequested):
-    cdef DataType dataType
-    cdef TensorFormat format
-    cdef int nbDims
-    cdef vector.vector[int] filterDimA
-    filterDimA.resize(nbDimsRequested)
-
-    status = cudnnGetFilterNdDescriptor_v4(
-        <FilterDescriptor>wDesc, nbDimsRequested, &dataType,
-        &format, &nbDims, filterDimA.data())
-    check_status(status)
-    return dataType, format, nbDims, tuple(filterDimA)
-
-
-cpdef destroyFilterDescriptor(size_t filterDesc):
-    status = cudnnDestroyFilterDescriptor(<FilterDescriptor>filterDesc)
-    check_status(status)
-
-
-###############################################################################
-# Convolution
-###############################################################################
-
-cpdef size_t createConvolutionDescriptor() except? 0:
-    cdef ConvolutionDescriptor desc
-    status = miopenCreateConvolutionDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setConvolutionMathType(size_t convDesc, size_t mathType):
-    status = cudnnSetConvolutionMathType(
-        <ConvolutionDescriptor>convDesc, <MathType>mathType)
-    check_status(status)
-
-
-cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
-    cdef MathType mathType
-    status = cudnnGetConvolutionMathType(
-        <ConvolutionDescriptor>convDesc, &mathType)
-    check_status(status)
-    return <size_t>mathType
-
-
-cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    status = miopenSetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, groupCount)
-    check_status(status)
-
-
-cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
-    cdef int groupCount
-    status = cudnnGetConvolutionGroupCount(
-        <ConvolutionDescriptor>convDesc, &groupCount)
-    check_status(status)
-    return groupCount
-
-
-cpdef setConvolution2dDescriptor_v4(
-        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
-        int dilation_w, int mode):
-    status = cudnnSetConvolution2dDescriptor_v4(
-        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
-        dilation_w, <ConvolutionMode>mode)
-    check_status(status)
-
-
-cpdef setConvolution2dDescriptor_v5(
-        size_t convDesc, int pad_h, int pad_w, int u, int v, int dilation_h,
-        int dilation_w, int mode, size_t computeType):
-    status = cudnnSetConvolution2dDescriptor_v5(
-        <ConvolutionDescriptor>convDesc, pad_h, pad_w, u, v, dilation_h,
-        dilation_w, <ConvolutionMode>mode, <DataType>computeType)
-    check_status(status)
-
-
-cpdef setConvolutionNdDescriptor_v3(
-        size_t convDesc, int arrayLength, size_t padA, size_t filterStrideA,
-        size_t dilationA, int mode, int dataType):
-    status = cudnnSetConvolutionNdDescriptor_v3(
-        <ConvolutionDescriptor>convDesc, arrayLength, <int*>padA,
-        <int*>filterStrideA, <int*>dilationA, <ConvolutionMode>mode,
-        <DataType>dataType)
-    check_status(status)
-
-
-cpdef destroyConvolutionDescriptor(size_t convDesc):
-    status = miopenDestroyConvolutionDescriptor(
-        <ConvolutionDescriptor>convDesc)
-    check_status(status)
-
-
-cpdef findConvolutionForwardAlgorithm(
-        intptr_t handle, size_t xDesc, size_t wDesc, size_t convDesc,
-        size_t yDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithm(
-        <Handle> handle, <TensorDescriptor>xDesc, <FilterDescriptor>wDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>yDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionForwardAlgorithmEx(
-        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
-        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionFwdAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithmEx(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
-        workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionForwardAlgorithmEx_v7(
-        intptr_t handle, size_t xDesc, size_t x, size_t wDesc, size_t w,
-        size_t convDesc, size_t yDesc, size_t y, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionForwardAlgorithmEx_v7(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <FilterDescriptor>wDesc, <void*>w, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>yDesc, <void*>y, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data(), <void*>workSpace,
-        workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionForwardAlgorithm_v6(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int preference, size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionFwdAlgo algo
-    status = cudnnGetConvolutionForwardAlgorithm_v6(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>destDesc, <ConvolutionFwdPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionForwardAlgorithm_v7(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionFwdAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionForwardAlgorithm_v7(
-        <Handle> handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>destDesc, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionForwardWorkspaceSize(
-        intptr_t handle, size_t srcDesc, size_t filterDesc, size_t convDesc,
-        size_t destDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenConvolutionForwardGetWorkSpaceSize(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionDescriptor> convDesc,
-        <TensorDescriptor>destDesc, &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionForward(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t filterDesc, size_t filterData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t destDesc, size_t destData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionForward(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
-    check_status(status)
-
-
-cpdef convolutionBackwardBias(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t beta, size_t destDesc, size_t destData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardBias(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>destDesc, <void*>destData)
-    check_status(status)
-
-
-cpdef findConvolutionBackwardFilterAlgorithm(
-        intptr_t handle, size_t xDesc, size_t dyDesc, size_t convDesc,
-        size_t dwDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithm(
-        <Handle> handle, <TensorDescriptor>xDesc, <TensorDescriptor>dyDesc,
-        <ConvolutionDescriptor>convDesc, <FilterDescriptor>dwDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionBackwardFilterAlgorithmEx(
-        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithmEx(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>dwDesc, <void*>dw,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionBackwardFilterAlgorithmEx_v7(
-        intptr_t handle, size_t xDesc, size_t x, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dwDesc, size_t dw, int requestedAlgoCount,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardFilterAlgorithmEx_v7(
-        <Handle> handle, <TensorDescriptor>xDesc, <void*>x,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>dwDesc, <void*>dw,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionBackwardFilterAlgorithm_v6(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t filterDesc, int preference,
-        size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionBwdFilterAlgo algo
-    status = cudnnGetConvolutionBackwardFilterAlgorithm_v6(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <FilterDescriptor>filterDesc,
-        <ConvolutionBwdFilterPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionBackwardFilterAlgorithm_v7(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdFilterAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionBackwardFilterAlgorithm_v7(
-        <Handle>handle, <TensorDescriptor>srcDesc, <TensorDescriptor>diffDesc,
-        <ConvolutionDescriptor>convDesc, <FilterDescriptor>gradDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionBackwardFilterWorkspaceSize(
-        intptr_t handle, size_t srcDesc, size_t diffDesc, size_t convDesc,
-        size_t filterDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = cudnnGetConvolutionBackwardFilterWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>srcDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor> convDesc,
-        <FilterDescriptor>filterDesc, <ConvolutionBwdFilterAlgo>algo,
-        &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionBackwardFilter_v3(
-        intptr_t handle, size_t alpha, size_t srcDesc, size_t srcData,
-        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t gradDesc, size_t gradData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardFilter_v3(
-            <Handle>handle, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>diffDesc, <void*>diffData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionBwdFilterAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <FilterDescriptor>gradDesc, <void*>gradData)
-    check_status(status)
-
-
-cpdef findConvolutionBackwardDataAlgorithm(
-        intptr_t handle, size_t wDesc, size_t dyDesc, size_t convDesc,
-        size_t dxDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithm(
-        <Handle> handle, <FilterDescriptor>wDesc, <TensorDescriptor>dyDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>dxDesc,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return perfResults
-
-
-cpdef list findConvolutionBackwardDataAlgorithmEx(
-        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dxDesc, size_t dx,
-        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithmEx(
-        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>dxDesc, <void*>dx,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory, -1, -1)
-            for p in perfResults]
-
-
-cpdef list findConvolutionBackwardDataAlgorithmEx_v7(
-        intptr_t handle, size_t wDesc, size_t w, size_t dyDesc, size_t dy,
-        size_t convDesc, size_t dxDesc, size_t dx,
-        int requestedAlgoCount, size_t workSpace, size_t workSpaceSizeInBytes):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnFindConvolutionBackwardDataAlgorithmEx_v7(
-        <Handle> handle, <FilterDescriptor>wDesc, <void*>w,
-        <TensorDescriptor>dyDesc, <void*>dy, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>dxDesc, <void*>dx,
-        requestedAlgoCount, &returnedAlgoCount, perfResults.data(),
-        <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef int getConvolutionBackwardDataAlgorithm_v6(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, size_t preference,
-        size_t memoryLimitInbytes) except? -1:
-    cdef ConvolutionBwdDataAlgo algo
-    status = cudnnGetConvolutionBackwardDataAlgorithm_v6(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>gradDesc, <ConvolutionBwdDataPreference>preference,
-        memoryLimitInbytes, &algo)
-    check_status(status)
-    return algo
-
-
-cpdef list getConvolutionBackwardDataAlgorithm_v7(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int requestedAlgoCount):
-    cdef vector.vector[ConvolutionBwdDataAlgoPerf_v7] perfResults
-    cdef int returnedAlgoCount
-    perfResults.resize(requestedAlgoCount)
-    status = cudnnGetConvolutionBackwardDataAlgorithm_v7(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc, <ConvolutionDescriptor>convDesc,
-        <TensorDescriptor>gradDesc, requestedAlgoCount,
-        &returnedAlgoCount, perfResults.data())
-    check_status(status)
-    perfResults.resize(returnedAlgoCount)
-    return [CuDNNAlgoPerf(p.algo, p.status, p.time, p.memory,
-                          p.determinism, p.mathType)
-            for p in perfResults]
-
-
-cpdef Py_ssize_t getConvolutionBackwardDataWorkspaceSize(
-        intptr_t handle, size_t filterDesc, size_t diffDesc, size_t convDesc,
-        size_t gradDesc, int algo) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenConvolutionBackwardDataGetWorkSpaceSize(
-        <Handle>handle, <FilterDescriptor>filterDesc,
-        <TensorDescriptor>diffDesc,
-        <ConvolutionDescriptor>convDesc, <TensorDescriptor>gradDesc,
-        &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef convolutionBackwardData_v3(
-        intptr_t handle, size_t alpha, size_t filterDesc, size_t filterData,
-        size_t diffDesc, size_t diffData, size_t convDesc, int algo,
-        size_t workSpace, size_t workSpaceSizeInBytes, size_t beta,
-        size_t gradDesc, size_t gradData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnConvolutionBackwardData_v3(
-            <Handle>handle, <void*>alpha,
-            <FilterDescriptor>filterDesc, <void*>filterData,
-            <TensorDescriptor>diffDesc, <void*>diffData,
-            <ConvolutionDescriptor>convDesc, <ConvolutionBwdDataAlgo>algo,
-            <void*>workSpace, workSpaceSizeInBytes, <void*>beta,
-            <TensorDescriptor>gradDesc, <void*>gradData)
-    check_status(status)
-
-###############################################################################
-# Pooling
-###############################################################################
-
-cpdef size_t createPoolingDescriptor() except? 0:
-    cdef PoolingDescriptor desc
-    status = miopenCreatePoolingDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef setPooling2dDescriptor_v4(
-        size_t poolingDesc, int mode, int maxpoolingNanOpt, int windowHeight,
-        int windowWidth, int verticalPadding, int horizontalPadding,
-        int verticalStride, int horizontalStride):
-    status = cudnnSetPooling2dDescriptor_v4(
-        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
-        <NanPropagation>maxpoolingNanOpt, windowHeight, windowWidth,
-        verticalPadding, horizontalPadding, verticalStride, horizontalStride)
-    check_status(status)
-
-
-cpdef setPoolingNdDescriptor_v4(
-        size_t poolingDesc, int mode, int maxpoolingNanOpt, int nbDims,
-        size_t windowDimA, size_t paddingA, size_t strideA):
-    status = cudnnSetPoolingNdDescriptor_v4(
-        <PoolingDescriptor>poolingDesc, <PoolingMode>mode,
-        <NanPropagation>maxpoolingNanOpt, nbDims,
-        <int*>windowDimA, <int*>paddingA, <int*>strideA)
-    check_status(status)
-
-
-cpdef destroyPoolingDescriptor(size_t poolingDesc):
-    status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
-    check_status(status)
-
-
-cpdef poolingForward(
-        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnPoolingForward(
-            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef poolingBackward(
-        intptr_t handle, size_t poolingDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
-        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
-        size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnPoolingBackward(
-            <Handle>handle, <PoolingDescriptor>poolingDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
-            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-###############################################################################
-# Batch Normalization
-###############################################################################
-
-CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
-
-cpdef deriveBNTensorDescriptor(
-        size_t derivedBnDesc, size_t xDesc, int mode):
-    status = miopenDeriveBNTensorDescriptor(
-        <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
-        <BatchNormMode> mode)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardTraining(
-        intptr_t handle, int mode,
-        size_t alpha, size_t beta, size_t xDesc,
-        size_t x, size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
-        size_t bnBias, double exponentialAverageFactor,
-        size_t resultRunningMean, size_t resultRunningVariance,
-        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationForwardTraining(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardInference(
-        intptr_t handle, int mode,
-        size_t alpha, size_t beta, size_t xDesc,
-        size_t x, size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc, size_t bnScale,
-        size_t bnBias, size_t estimatedMean, size_t estimatedVariance,
-        double epsilon):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationForwardInference(
-            <Handle>handle, <BatchNormMode> mode,
-            <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
-            <void*>x, <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc, <void*>bnScale,
-            <void*>bnBias, <void*>estimatedMean, <void*>estimatedVariance,
-            epsilon)
-    check_status(status)
-
-
-cpdef batchNormalizationBackward(
-        intptr_t handle, int mode,
-        size_t alphaDataDiff, size_t betaDataDiff,
-        size_t alphaParamDiff, size_t betaParamDiff,
-        size_t xDesc, size_t x, size_t dyDesc,
-        size_t dy, size_t dxDesc, size_t dx,
-        size_t dBnScaleBiasDesc, size_t bnScale,
-        size_t dBnScaleResult, size_t dBnBiasResult,
-        double epsilon, size_t savedMean, size_t savedInvVariance):
-    _setStream(handle)
-    with nogil:
-        status = miopenBatchNormalizationBackward(
-            <Handle>handle, <BatchNormMode>mode,
-            <void*>alphaDataDiff, <void*>betaDataDiff,
-            <void*>alphaParamDiff, <void*>betaParamDiff,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>dyDesc, <void*>dy,
-            <TensorDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dBnScaleBiasDesc, <void*>bnScale,
-            <void*>dBnScaleResult, <void*>dBnBiasResult,
-            epsilon, <void*>savedMean, <void*>savedInvVariance)
-    check_status(status)
-
-
-cpdef batchNormalizationForwardTrainingEx(
-        intptr_t handle, int mode, int bnOps,
-        size_t alpha, size_t beta,
-        size_t xDesc, size_t x,
-        size_t zDesc, size_t z,
-        size_t yDesc, size_t y,
-        size_t bnScaleBiasMeanVarDesc,
-        size_t bnScale, size_t bnBias,
-        double exponentialAverageFactor,
-        size_t resultRunningMean, size_t resultRunningVariance,
-        double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance,
-        size_t activationDesc,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnBatchNormalizationForwardTrainingEx(
-            <Handle>handle, <BatchNormMode> mode, <BatchNormOps> bnOps,
-            <void*>alpha, <void*>beta,
-            <TensorDescriptor>xDesc, <void*>x,
-            <TensorDescriptor>zDesc, <void*>z,
-            <TensorDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>bnScaleBiasMeanVarDesc,
-            <void*>bnScale, <void*>bnBias,
-            exponentialAverageFactor,
-            <void*>resultRunningMean, <void*>resultRunningVariance,
-            epsilon, <void*>resultSaveMean, <void*>resultSaveInvVariance,
-            <ActivationDescriptor>activationDesc,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef size_t getBatchNormalizationForwardTrainingExWorkspaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t xDesc,
-        size_t zDesc,
-        size_t yDesc,
-        size_t bnScaleBiasMeanVarDesc,
-        size_t activationDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationForwardTrainingExWorkspaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode, <BatchNormOps> bnOps,
-        <TensorDescriptor> xDesc,
-        <TensorDescriptor> zDesc,
-        <TensorDescriptor> yDesc,
-        <TensorDescriptor> bnScaleBiasMeanVarDesc,
-        <ActivationDescriptor> activationDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef batchNormalizationBackwardEx(
-        intptr_t handle, int mode, int bnops,
-        size_t alphaDataDiff, size_t betaDataDiff,
-        size_t alphaParamDiff, size_t betaParamDiff,
-        size_t xDesc, size_t x,
-        size_t yDesc, size_t y,
-        size_t dyDesc, size_t dy,
-        size_t dzDesc, size_t dz,
-        size_t dxDesc, size_t dx,
-        size_t dBnScaleBiasDesc,
-        size_t bnScaleData, size_t bnBiasData,
-        size_t dBnScaleData, size_t dBnBiasData,
-        double epsilon,
-        size_t savedMean, size_t savedInvVariance,
-        size_t activationDesc,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnBatchNormalizationBackwardEx(
-            <Handle> handle,
-            <BatchNormMode> mode, <BatchNormOps> bnops,
-            <void*> alphaDataDiff, <void*> betaDataDiff,
-            <void*> alphaParamDiff, <void*> betaParamDiff,
-            <TensorDescriptor> xDesc, <void*> x,
-            <TensorDescriptor> yDesc, <void*> y,
-            <TensorDescriptor> dyDesc, <void*> dy,
-            <TensorDescriptor> dzDesc, <void*> dz,
-            <TensorDescriptor> dxDesc, <void*> dx,
-            <TensorDescriptor> dBnScaleBiasDesc,
-            <void*> bnScaleData, <void*> bnBiasData,
-            <void*> dBnScaleData, <void*> dBnBiasData,
-            epsilon,
-            <void*> savedMean, <void*> savedInvVariance,
-            <ActivationDescriptor> activationDesc,
-            <void*> workSpace, workSpaceSizeInBytes,
-            <void*> reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef size_t getBatchNormalizationBackwardExWorkspaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t xDesc,
-        size_t yDesc,
-        size_t dyDesc,
-        size_t dzDesc,
-        size_t dxDesc,
-        size_t dBnScaleBiasDesc,
-        size_t activationDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationBackwardExWorkspaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode,
-        <BatchNormOps> bnOps,
-        <TensorDescriptor> xDesc,
-        <TensorDescriptor> yDesc,
-        <TensorDescriptor> dyDesc,
-        <TensorDescriptor> dzDesc,
-        <TensorDescriptor> dxDesc,
-        <TensorDescriptor> dBnScaleBiasDesc,
-        <ActivationDescriptor> activationDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
-        intptr_t handle, int mode, int bnOps,
-        size_t activationDesc,
-        size_t xDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = cudnnGetBatchNormalizationTrainingExReserveSpaceSize(
-        <Handle> handle,
-        <BatchNormMode> mode,
-        <BatchNormOps> bnOps,
-        <ActivationDescriptor> activationDesc,
-        <TensorDescriptor> xDesc,
-        &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-###############################################################################
-# Activation
-###############################################################################
-
-cpdef size_t createActivationDescriptor() except? 0:
-    cdef ActivationDescriptor activationDesc
-    status = miopenCreateActivationDescriptor(&activationDesc)
-    check_status(status)
-    return <size_t>activationDesc
-
-
-cpdef setActivationDescriptor(
-        size_t activationDesc, int mode, int reluNanOpt, double reluCeiling):
-    status = cudnnSetActivationDescriptor(
-        <ActivationDescriptor>activationDesc, <ActivationMode>mode,
-        <NanPropagation>reluNanOpt, reluCeiling)
-    check_status(status)
-
-
-cpdef destroyActivationDescriptor(size_t activationDesc):
-    status = miopenDestroyActivationDescriptor(
-        <ActivationDescriptor>activationDesc)
-    check_status(status)
-
-
-cpdef softmaxForward(
-        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = miopenSoftmaxForward(
-            <Handle>handle, 
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef softmaxBackward(
-        intptr_t handle, int algorithm, int mode, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData, size_t beta,
-        size_t destDiffDesc, size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = miopenSoftmaxBackward(
-            <Handle>handle, 
-            <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-
-cpdef activationForward_v4(
-        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnActivationForward_v4(
-            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
-            <TensorDescriptor>dstDesc, <void*>dstData)
-    check_status(status)
-
-
-cpdef activationBackward_v4(
-        intptr_t handle, size_t activationDesc, size_t alpha, size_t srcDesc,
-        size_t srcData, size_t srcDiffDesc, size_t srcDiffData,
-        size_t destDesc, size_t destData, size_t beta, size_t destDiffDesc,
-        size_t destDiffData):
-    _setStream(handle)
-    with nogil:
-        status = cudnnActivationBackward_v4(
-            <Handle>handle, <ActivationDescriptor>activationDesc, <void*>alpha,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>srcDiffDesc, <void*>srcDiffData,
-            <TensorDescriptor>destDesc, <void*>destData, <void*>beta,
-            <TensorDescriptor>destDiffDesc, <void*>destDiffData)
-    check_status(status)
-
-
-###############################################################################
-# Dropout
-###############################################################################
-
-cpdef size_t createDropoutDescriptor() except? 0:
-    cdef DropoutDescriptor desc
-    status = miopenCreateDropoutDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
-    check_status(status)
-
-
-cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
-    cdef size_t sizeInBytes
-    status = miopenDropoutGetStatesSize(
-        <Handle>handle, &sizeInBytes)
-    check_status(status)
-    return <Py_ssize_t>sizeInBytes
-
-
-cpdef setDropoutDescriptor(
-        size_t dropoutDesc, intptr_t handle, float dropout,
-        size_t states, size_t stateSizeInBytes, unsigned long long seed):
-    status = cudnnSetDropoutDescriptor(
-        <DropoutDescriptor>dropoutDesc, <Handle>handle, dropout,
-        <void*>states, stateSizeInBytes, seed)
-    check_status(status)
-
-
-cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = miopenDropoutGetReserveSpaceSize(
-        <TensorDescriptor>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef dropoutForward(
-        intptr_t handle, size_t dropoutDesc,
-        size_t srcDesc, size_t srcData,
-        size_t dstDesc, size_t dstData,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnDropoutForward(
-            <Handle>handle, <DropoutDescriptor>dropoutDesc,
-            <TensorDescriptor>srcDesc, <void*>srcData,
-            <TensorDescriptor>dstDesc, <void*>dstData,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef dropoutBackward(
-        intptr_t handle, size_t dropoutDesc,
-        size_t dyDesc, size_t dyData,
-        size_t dxDesc, size_t dxData,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnDropoutBackward(
-            <Handle>handle, <DropoutDescriptor>dropoutDesc,
-            <TensorDescriptor>dyDesc, <void*>dyData,
-            <TensorDescriptor>dxDesc, <void*>dxData,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# CTC
-###############################################################################
-cpdef size_t createCTCLossDescriptor() except? 0:
-    cdef CTCLossDescriptor desc
-    status = miopenCreateCTCLossDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
-    check_status(status)
-
-cpdef setCTCLossDescriptor(size_t ctcLossDesc, int dataType):
-    status = cudnnSetCTCLossDescriptor(
-        <CTCLossDescriptor>ctcLossDesc, <DataType>dataType)
-    check_status(status)
-
-cpdef getCTCLossDescriptor(size_t ctcLossDesc):
-    cdef DataType compType
-    status = cudnnGetCTCLossDescriptor(
-        <CTCLossDescriptor>ctcLossDesc, &compType)
-    check_status(status)
-    return compType
-
-cpdef size_t getCTCLossWorkspaceSize(
-        intptr_t handle, size_t probsDesc, size_t gradientsDesc,
-        size_t labels, size_t labelLengths, size_t inputLengths,
-        int algo, size_t ctcLossDesc) except? 0:
-    cdef size_t sizeInBytes
-    status = miopenGetCTCLossWorkspaceSize(
-        <Handle>handle, <TensorDescriptor>probsDesc,
-        <TensorDescriptor>gradientsDesc,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-cpdef CTCLoss(
-        intptr_t handle, size_t probsDesc,
-        size_t probs, size_t labels, size_t labelLengths, size_t inputLengths,
-        size_t costs, size_t gradientsDesc, size_t gradients,
-        int algo, size_t ctcLossDesc,
-        size_t workspace, size_t workSpaceSizeInBytes):
-    status = miopenCTCLoss(
-        <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
-        <int*>labels, <int*>labelLengths, <int*>inputLengths,
-        <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
-        <CTCLossAlgo>algo, <CTCLossDescriptor>ctcLossDesc,
-        <void*>workspace, <size_t>workSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# RNN
-###############################################################################
-
-cpdef size_t createRNNDescriptor() except? 0:
-    cdef RNNDescriptor desc
-    status = miopenCreateRNNDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyRNNDescriptor(size_t rnnDesc):
-    status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
-    check_status(status)
-
-
-cpdef size_t createPersistentRNNPlan(size_t rnnDesc, int minibatch,
-                                     int dataType) except? 0:
-    cdef PersistentRNNPlan plan
-    status = cudnnCreatePersistentRNNPlan(
-        <RNNDescriptor>rnnDesc,
-        <int>minibatch, <DataType>dataType, &plan)
-    check_status(status)
-    return <size_t>plan
-
-
-cpdef setPersistentRNNPlan(size_t rnnDesc, size_t plan):
-    status = cudnnSetPersistentRNNPlan(
-        <RNNDescriptor>rnnDesc, <PersistentRNNPlan>plan)
-    check_status(status)
-
-
-cpdef destroyPersistentRNNPlan(size_t plan):
-    status = cudnnDestroyPersistentRNNPlan(<PersistentRNNPlan>plan)
-    check_status(status)
-
-
-cpdef setRNNDescriptor_v5(
-        size_t rnnDesc, int hiddenSize, int numLayers,
-        size_t dropoutDesc, int inputMode, int direction, int mode,
-        int dataType):
-    status = cudnnSetRNNDescriptor_v5(
-        <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
-        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
-        <DirectionMode>direction, <RNNMode>mode, <DataType>dataType)
-    check_status(status)
-
-
-cpdef setRNNDescriptor_v6(
-        intptr_t handle, size_t rnnDesc, int hiddenSize, int numLayers,
-        size_t dropoutDesc, int inputMode, int direction, int mode,
-        int algo, int dataType):
-    status = cudnnSetRNNDescriptor_v6(
-        <Handle>handle, <RNNDescriptor>rnnDesc, hiddenSize, numLayers,
-        <DropoutDescriptor>dropoutDesc, <RNNInputMode>inputMode,
-        <DirectionMode>direction, <RNNMode>mode, <RNNAlgo>algo,
-        <DataType>dataType)
-    check_status(status)
-
-
-cpdef setRNNPaddingMode(
-        size_t rnnDesc, int paddingMode):
-    status = cudnnSetRNNPaddingMode(
-        <RNNDescriptor>rnnDesc, <RNNPaddingMode>paddingMode)
-    check_status(status)
-
-
-cpdef getRNNPaddingMode(size_t rnnDesc):
-    cdef RNNPaddingMode paddingMode
-    status = cudnnGetRNNPaddingMode(
-        <RNNDescriptor>rnnDesc, &paddingMode)
-    check_status(status)
-    return paddingMode
-
-
-cpdef size_t createRNNDataDescriptor() except? 0:
-    cdef RNNDataDescriptor desc
-    status = cudnnCreateRNNDataDescriptor(&desc)
-    check_status(status)
-    return <size_t>desc
-
-
-cpdef destroyRNNDataDescriptor(size_t RNNDataDesc):
-    status = cudnnDestroyRNNDataDescriptor(<RNNDataDescriptor>RNNDataDesc)
-    check_status(status)
-
-
-cpdef setRNNDataDescriptor(
-        size_t RNNDataDesc, int dataType, size_t layout,
-        int maxSeqLength, int batchSize, int vectorSize,
-        size_t seqLengthArray, size_t paddingFill):
-    status = cudnnSetRNNDataDescriptor(
-        <RNNDataDescriptor>RNNDataDesc, <DataType>dataType,
-        <RNNDataLayout>layout, maxSeqLength, batchSize, vectorSize,
-        <const int*>seqLengthArray, <void*>paddingFill)
-    check_status(status)
-
-
-cpdef getRNNDataDescriptor(
-        size_t RNNDataDesc, size_t dataType,
-        size_t layout, size_t maxSeqLength, size_t batchSize,
-        size_t vectorSize, int arrayLengthRequested, size_t seqLengthArray,
-        size_t paddingFill):
-    status = cudnnGetRNNDataDescriptor(
-        <RNNDataDescriptor>RNNDataDesc, <DataType*>dataType,
-        <RNNDataLayout*>layout, <int*>maxSeqLength, <int*>batchSize,
-        <int*>vectorSize, arrayLengthRequested, <int*>seqLengthArray,
-        <void*>paddingFill)
-    check_status(status)
-
-
-cpdef getRNNWorkspaceSize(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNWorkspaceSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNTrainingReserveSize(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNTrainingReserveSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-        <TensorDescriptor*>xDesc, &sizeInBytes)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNParamsSize(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
-    cdef size_t sizeInBytes
-    status = miopenGetRNNParamsSize(
-        <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
-        &sizeInBytes, <DataType>dataType)
-    check_status(status)
-    return sizeInBytes
-
-
-cpdef getRNNLinLayerMatrixParams(
-        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
-        size_t w, int linLayerID, size_t linLayerMatDesc, size_t linLayerMat):
-    status = cudnnGetRNNLinLayerMatrixParams(
-        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
-        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
-        linLayerID, <FilterDescriptor>linLayerMatDesc, <void**>linLayerMat)
-    check_status(status)
-
-
-cpdef getRNNLinLayerBiasParams(
-        intptr_t handle, size_t rnnDesc, int layer, size_t xDesc, size_t wDesc,
-        size_t w, int linLayerID, size_t linLayerBiasDesc,
-        size_t linLayerBias):
-    status = cudnnGetRNNLinLayerBiasParams(
-        <Handle>handle, <RNNDescriptor>rnnDesc, layer,
-        <TensorDescriptor>xDesc, <FilterDescriptor>wDesc, <void*>w,
-        linLayerID, <FilterDescriptor>linLayerBiasDesc, <void**>linLayerBias)
-    check_status(status)
-
-
-cpdef RNNForwardInference(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc,
-        size_t x, size_t hxDesc, size_t hx, size_t cxDesc,
-        size_t cx, size_t wDesc, size_t w, size_t yDesc,
-        size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = miopenRNNForwardInference(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardTraining(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
-        size_t wDesc, size_t w, size_t yDesc, size_t y,
-        size_t hyDesc, size_t hy, size_t cyDesc, size_t cy,
-        size_t workspace, size_t workSpaceSizeInBytes, size_t reserveSpace,
-        size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = miopenRNNForwardTraining(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*> hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardData(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t yDesc, size_t y,
-        size_t dyDesc, size_t dy, size_t dhyDesc, size_t dhy,
-        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w,
-        size_t hxDesc, size_t hx, size_t cxDesc, size_t cx,
-        size_t dxDesc, size_t dx, size_t dhxDesc, size_t dhx,
-        size_t dcxDesc, size_t dcx, size_t workspace,
-        size_t workSpaceSizeInBytes, size_t reserveSpace,
-        size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardData(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <TensorDescriptor*>dyDesc, <void*>dy,
-            <TensorDescriptor>dhyDesc, <void*>dhy,
-            <TensorDescriptor>dcyDesc, <void*>dcy,
-            <FilterDescriptor>wDesc, <void*>w,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor>cxDesc, <void*>cx,
-            <TensorDescriptor*>dxDesc, <void*>dx,
-            <TensorDescriptor>dhxDesc, <void*>dhx,
-            <TensorDescriptor>dcxDesc, <void*>dcx,
-            <void*>workspace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardWeights(
-        intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
-        size_t workspace, size_t workSpaceSizeInBytes, size_t dwDesc,
-        size_t dw, size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardWeights(
-            <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
-            <TensorDescriptor*>xDesc, <void*>x,
-            <TensorDescriptor>hxDesc, <void*>hx,
-            <TensorDescriptor*>yDesc, <void*>y,
-            <void*>workspace, workSpaceSizeInBytes,
-            <FilterDescriptor>dwDesc, <void*>dw,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardInferenceEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
-        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
-        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
-        size_t workSpace, size_t workSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNForwardInferenceEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <RNNDataDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <RNNDataDescriptor>kDesc, <const void*>keys,
-            <RNNDataDescriptor>cDesc, <void*>cAttn,
-            <RNNDataDescriptor>iDesc, <void*>iAttn,
-            <RNNDataDescriptor>qDesc, <void*>queries,
-            <void*>workSpace, workSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNForwardTrainingEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t wDesc, size_t w,
-        size_t yDesc, size_t y, size_t hyDesc, size_t hy, size_t cyDesc,
-        size_t cy, size_t kDesc, size_t keys, size_t cDesc, size_t cAttn,
-        size_t iDesc, size_t iAttn, size_t qDesc, size_t queries,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNForwardTrainingEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <RNNDataDescriptor>yDesc, <void*>y,
-            <TensorDescriptor>hyDesc, <void*>hy,
-            <TensorDescriptor>cyDesc, <void*>cy,
-            <RNNDataDescriptor>kDesc, <const void*>keys,
-            <RNNDataDescriptor>cDesc, <void*>cAttn,
-            <RNNDataDescriptor>iDesc, <void*>iAttn,
-            <RNNDataDescriptor>qDesc, <void*>queries,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardDataEx(
-        intptr_t handle, size_t rnnDesc, size_t yDesc, size_t y, size_t dyDesc,
-        size_t dy, size_t dcDesc, size_t dcAttn, size_t dhyDesc, size_t dhy,
-        size_t dcyDesc, size_t dcy, size_t wDesc, size_t w, size_t hxDesc,
-        size_t hx, size_t cxDesc, size_t cx, size_t dxDesc, size_t dx,
-        size_t dhxDesc, size_t dhx, size_t dcxDesc, size_t dcx,
-        size_t dkDesc, size_t dkeys,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardDataEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>yDesc, <const void*>y,
-            <RNNDataDescriptor>dyDesc, <const void*>dy,
-            <RNNDataDescriptor>dcDesc, <const void*>dcAttn,
-            <TensorDescriptor>dhyDesc, <const void*>dhy,
-            <TensorDescriptor>dcyDesc, <const void*>dcy,
-            <FilterDescriptor>wDesc, <const void*>w,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <TensorDescriptor>cxDesc, <const void*>cx,
-            <RNNDataDescriptor>dxDesc, <void*>dx,
-            <TensorDescriptor>dhxDesc, <void*>dhx,
-            <TensorDescriptor>dcxDesc, <void*>dcx,
-            <RNNDataDescriptor>dkDesc, <void*>dkeys,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-cpdef RNNBackwardWeightsEx(
-        intptr_t handle, size_t rnnDesc, size_t xDesc, size_t x,
-        size_t hxDesc, size_t hx, size_t yDesc, size_t y,
-        size_t workSpace, size_t workSpaceSizeInBytes,
-        size_t dwDesc, size_t dw,
-        size_t reserveSpace, size_t reserveSpaceSizeInBytes):
-    _setStream(handle)
-    with nogil:
-        status = cudnnRNNBackwardWeightsEx(
-            <Handle>handle, <RNNDescriptor>rnnDesc,
-            <RNNDataDescriptor>xDesc, <const void*>x,
-            <TensorDescriptor>hxDesc, <const void*>hx,
-            <RNNDataDescriptor>yDesc, <const void*>y,
-            <void*>workSpace, workSpaceSizeInBytes,
-            <FilterDescriptor>dwDesc, <void*>dw,
-            <void*>reserveSpace, reserveSpaceSizeInBytes)
-    check_status(status)
-
-
-###############################################################################
-# Spatial Transformer
-###############################################################################
-
-cpdef size_t createSpatialTransformerDescriptor() except? 0:
-    cdef SpatialTransformerDescriptor stDesc
-    status = cudnnCreateSpatialTransformerDescriptor(&stDesc)
-    check_status(status)
-    return <size_t>stDesc
-
-
-cpdef destroySpatialTransformerDescriptor(size_t stDesc):
-    status = cudnnDestroySpatialTransformerDescriptor(
-        <SpatialTransformerDescriptor>stDesc)
-    check_status(status)
-
-
-cpdef setSpatialTransformerDescriptor(
-        size_t stDesc, size_t samplerType, int dataType,
-        int nbDims, size_t dimA):
-    status = cudnnSetSpatialTransformerNdDescriptor(
-        <SpatialTransformerDescriptor>stDesc, <SamplerType>samplerType,
-        <DataType>dataType, nbDims, <int*>dimA)
-    check_status(status)
-
-
-cpdef spatialTfGridGeneratorForward(
-        intptr_t handle, size_t stDesc, size_t theta, size_t grid):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfGridGeneratorForward(
-            <Handle>handle, <SpatialTransformerDescriptor> stDesc,
-            <void*>theta, <void*>grid)
-    check_status(status)
-
-
-cpdef spatialTfGridGeneratorBackward(
-        intptr_t handle, size_t stDesc, size_t dgrid, size_t dtheta):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfGridGeneratorBackward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>dgrid, <void*>dtheta)
-    check_status(status)
-
-
-cpdef spatialTfSamplerForward(
-        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
-        size_t x, size_t grid, size_t beta, size_t yDesc, size_t y):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfSamplerForward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>grid,
-            <void*>beta, <TensorDescriptor>yDesc, <void*>y)
-    check_status(status)
-
-
-cpdef spatialTfSamplerBackward(
-        intptr_t handle, size_t stDesc, size_t alpha, size_t xDesc,
-        size_t x, size_t beta, size_t dxDesc, size_t dx, size_t alphaDgrid,
-        size_t dyDesc, size_t dy, size_t grid, size_t betaDgrid, size_t dgrid):
-    _setStream(handle)
-    with nogil:
-        status = cudnnSpatialTfSamplerBackward(
-            <Handle>handle, <SpatialTransformerDescriptor>stDesc,
-            <void*>alpha, <TensorDescriptor>xDesc, <void*>x, <void*>beta,
-            <TensorDescriptor>dxDesc, <void*>dx, <void*>alphaDgrid,
-            <TensorDescriptor>dyDesc, <void*>dy, <void*>grid,
-            <void*>betaDgrid, <void*>dgrid)
-    check_status(status)
-
-###############################################################################
-# Fused Ops
-###############################################################################
-
-cpdef createFusedOpsConstParamPack(int ops):
-    cdef FusedOpsConstParamPack constPack
-    with nogil:
-        status = cudnnCreateFusedOpsConstParamPack(&constPack, <FusedOps>ops)
-    check_status(status)
-    return <size_t>constPack
-
-cpdef destroyFusedOpsConstParamPack(size_t constPack):
-    with nogil:
-        status = cudnnDestroyFusedOpsConstParamPack(
-            <FusedOpsConstParamPack>constPack)
-    check_status(status)
-
-cpdef setFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
-                                         size_t param):
-    with nogil:
-        status = cudnnSetFusedOpsConstParamPackAttribute(
-            <FusedOpsConstParamPack>constPack,
-            <FusedOpsConstParamLabel>paramLabel, <const void*>param)
-    check_status(status)
-
-cpdef getFusedOpsConstParamPackAttribute(size_t constPack, int paramLabel,
-                                         size_t param):
-    cdef int isNULL = 0
-    with nogil:
-        status = cudnnGetFusedOpsConstParamPackAttribute(
-            <const FusedOpsConstParamPack>constPack,
-            <FusedOpsConstParamLabel>paramLabel, <void*>param, &isNULL)
-    check_status(status)
-    return isNULL
-
-cpdef createFusedOpsVariantParamPack(int ops):
-    cdef FusedOpsVariantParamPack varPack
-    with nogil:
-        status = cudnnCreateFusedOpsVariantParamPack(&varPack, <FusedOps>ops)
-    check_status(status)
-    return <size_t>varPack
-
-cpdef destroyFusedOpsVariantParamPack(size_t varPack):
-    with nogil:
-        status = cudnnDestroyFusedOpsVariantParamPack(
-            <FusedOpsVariantParamPack>varPack)
-    check_status(status)
-
-cpdef setFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
-                                           size_t ptr):
-    with nogil:
-        status = cudnnSetFusedOpsVariantParamPackAttribute(
-            <FusedOpsVariantParamPack>varPack,
-            <FusedOpsVariantParamLabel>paramLabel, <void*>ptr)
-    check_status(status)
-
-cpdef getFusedOpsVariantParamPackAttribute(size_t varPack, int paramLabel,
-                                           size_t ptr):
-    with nogil:
-        status = cudnnGetFusedOpsVariantParamPackAttribute(
-            <const FusedOpsVariantParamPack>varPack,
-            <FusedOpsVariantParamLabel> paramLabel, <void*>ptr)
-    check_status(status)
-
-cpdef createFusedOpsPlan(int ops):
-    cdef FusedOpsPlan plan
-    with nogil:
-        status = cudnnCreateFusedOpsPlan(&plan, <FusedOps>ops)
-    check_status(status)
-    return <size_t>plan
-
-cpdef destroyFusedOpsPlan(size_t plan):
-    with nogil:
-        status = cudnnDestroyFusedOpsPlan(<FusedOpsPlan>plan)
-    check_status(status)
-
-cpdef makeFusedOpsPlan(intptr_t handle, size_t plan, size_t constPack):
-    cdef size_t workspaceSizeInBytes
-    _setStream(handle)
-    with nogil:
-        status = cudnnMakeFusedOpsPlan(<Handle>handle, <FusedOpsPlan>plan,
-                                       <const FusedOpsConstParamPack>constPack,
-                                       &workspaceSizeInBytes)
-    check_status(status)
-    return workspaceSizeInBytes
-
-cpdef fusedOpsExecute(intptr_t handle, size_t plan, size_t varPack):
-    _setStream(handle)
-    with nogil:
-        status = cudnnFusedOpsExecute(<Handle>handle, <const FusedOpsPlan>plan,
-                                      <FusedOpsVariantParamPack>varPack)
-    check_status(status)
-

From fd2b3220dc3b7dffe7c8333e78c1154f3fe14caf Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Mon, 27 Nov 2023 21:49:34 +0000
Subject: [PATCH 43/49] do not skip tests

---
 tests/cupyx_tests/test_cudnn.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/tests/cupyx_tests/test_cudnn.py b/tests/cupyx_tests/test_cudnn.py
index 84ef7b02071..0087a1c661b 100644
--- a/tests/cupyx_tests/test_cudnn.py
+++ b/tests/cupyx_tests/test_cudnn.py
@@ -40,7 +40,6 @@
     'dtype': [numpy.float32, numpy.float64],
     'mode': modes,
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnActivation:
 
     @pytest.fixture(autouse=True)
@@ -60,7 +59,6 @@ def test_activation_backward(self):
     'dtype': [numpy.float32, numpy.float64],
     'mode': coef_modes,
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnActivationCoef:
 
     @pytest.fixture(autouse=True)
@@ -83,7 +81,6 @@ def test_activation_backward(self):
     'ratio': [0.0, 0.1, 0.2, 0.5],
     'seed': [0, 100]
 }))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestCudnnDropout:
 
     @pytest.fixture(autouse=True)
@@ -136,7 +133,6 @@ def test_dropout_seed(self):
     'bias': [True, False],
     'layout': layouts,
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionForward:
 
     @pytest.fixture(autouse=True)
@@ -224,7 +220,6 @@ def test_call(self):
     'auto_tune': [True, False],
     'deterministic': [True, False],
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionBackwardFilter:
 
     @pytest.fixture(autouse=True)
@@ -303,7 +298,6 @@ def test_call(self):
     'deterministic': [True, False],
     'bias': [True, False],
 })))
-@pytest.mark.skipif(not cudnn_enabled, reason='cuDNN is not available')
 class TestConvolutionBackwardData:
 
     @pytest.fixture(autouse=True)

From 334557c5f74df9953da504cddc7d9eb075f24d43 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Tue, 28 Nov 2023 20:27:52 +0000
Subject: [PATCH 44/49] update _feature.py with miopen lib, include

---
 install/cupy_builder/_features.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/install/cupy_builder/_features.py b/install/cupy_builder/_features.py
index 4ad926b4249..a239e483ac0 100644
--- a/install/cupy_builder/_features.py
+++ b/install/cupy_builder/_features.py
@@ -164,6 +164,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'cupyx.cusolver',
             'cupy_backends.cuda.libs.curand_hip',
             'cupy_backends.cuda.libs.nvrtc_hip',
+            'cupy_backends.cuda.libs.miopen',
         ],
         'include': [
             'hip/hip_runtime_api.h',
@@ -175,6 +176,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'roctx.h',
             'rocsolver/rocsolver.h' if rocm_version >= 560 else 'rocsolver.h',
             'hipsolver/hipsolver.h' if rocm_version >= 560 else 'hipsolver.h',
+            'miopen/miopen.h',
         ],
         'libraries': [
             'amdhip64',  # was hiprtc and hip_hcc before ROCm 3.8.0
@@ -188,6 +190,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'rocsolver',
             'rocsparse',
             'hipsolver',
+            'MIOpen',
         ],
         'check_method': build.check_hip_version,
         'version_method': build.get_hip_version,

From d396e57361ccaa5af4d862144af58d8bc4d1622b Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Tue, 28 Nov 2023 20:37:01 +0000
Subject: [PATCH 45/49] add cudnn in _features.py

---
 install/cupy_builder/_features.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/install/cupy_builder/_features.py b/install/cupy_builder/_features.py
index a239e483ac0..078460816e4 100644
--- a/install/cupy_builder/_features.py
+++ b/install/cupy_builder/_features.py
@@ -164,6 +164,7 @@ def get_features(ctx: Context) -> Dict[str, Feature]:
             'cupyx.cusolver',
             'cupy_backends.cuda.libs.curand_hip',
             'cupy_backends.cuda.libs.nvrtc_hip',
+            'cupy_backends.cuda.libs.cudnn',
             'cupy_backends.cuda.libs.miopen',
         ],
         'include': [

From 02ab1ff5871780cb949708b23f383ef536fb2055 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Tue, 28 Nov 2023 20:43:23 +0000
Subject: [PATCH 46/49] _is_hip_env replaced with hip_env

---
 cupy_backends/cuda/libs/cudnn.pyx | 100 +++++++++++++++---------------
 1 file changed, 50 insertions(+), 50 deletions(-)

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index bd4c50f3d41..2f567cc6c5e 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -759,7 +759,7 @@ class CuDNNError(RuntimeError):
 
     def __init__(self, int status):
         self.status = status
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             msg = miopenGetErrorString(<Status>status)
         else:
             msg = cudnnGetErrorString(<Status>status)
@@ -803,7 +803,7 @@ def get_build_version():
 ###############################################################################
 
 cpdef size_t getVersion() except? 0:
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         return miopenGetVersion()
     else:
         return cudnnGetVersion()
@@ -829,7 +829,7 @@ cpdef queryRuntimeError(intptr_t handle, int mode):
 cpdef intptr_t create() except? 0:
     cdef Handle handle
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenCreate(&handle)
         else:
             status = cudnnCreate(&handle)
@@ -839,7 +839,7 @@ cpdef intptr_t create() except? 0:
 
 cpdef destroy(intptr_t handle):
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenDestroy(<Handle>handle)
         else:
             status = cudnnDestroy(<Handle>handle)
@@ -849,11 +849,11 @@ cpdef destroy(intptr_t handle):
 cpdef setStream(intptr_t handle, size_t stream):
     # TODO(leofang): The support of stream capture is not mentioned at all in
     # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
+    if not runtime.hip_environment and runtime.streamIsCapturing(stream):
         raise NotImplementedError(
             'calling cuDNN API during stream capture is currently '
             'unsupported')
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
     else:
         status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
@@ -862,7 +862,7 @@ cpdef setStream(intptr_t handle, size_t stream):
 
 cpdef size_t getStream(intptr_t handle) except? 0:
     cdef driver.Stream stream
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = cudnnGetStream(<Handle>handle, &stream)
     else:
         status = miopenGetStream(<Handle>handle, &stream)
@@ -880,7 +880,7 @@ cdef _setStream(intptr_t handle):
 
 cpdef size_t createTensorDescriptor() except? 0:
     cdef TensorDescriptor descriptor
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateTensorDescriptor(&descriptor)
     else:
         status = cudnnCreateTensorDescriptor(&descriptor)
@@ -924,7 +924,7 @@ cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
 
 
 cpdef destroyTensorDescriptor(size_t tensorDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     else:
         status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
@@ -981,7 +981,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
                size_t B, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenOpTensor(
                 <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
                 <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
@@ -1002,7 +1002,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
 
 cpdef size_t createReduceTensorDescriptor() except? 0:
     cdef ReduceTensorDescriptor reduceTensorDesc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
     else:
         status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
@@ -1013,7 +1013,7 @@ cpdef setReduceTensorDescriptor(
         size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
         int reduceTensorNanOpt, int reduceTensorIndices,
         int reduceTensorIndicesType):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenSetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc,
             <ReduceTensorOp>reduceTensorOp,
@@ -1036,7 +1036,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
     cdef NanPropagation redNanOpt
     cdef ReduceTensorIndices redIndices
     cdef IndicesType redIndicesType
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
             &redCompType, &redNanOpt, &redIndices, &redIndicesType)
@@ -1049,7 +1049,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
 
 
 cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc)
     else:
@@ -1061,7 +1061,7 @@ cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
 cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
                                      size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetReductionIndicesSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
@@ -1077,7 +1077,7 @@ cpdef size_t getReductionWorkspaceSize(intptr_t handle,
                                        size_t reduceTensorDesc,
                                        size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetReductionWorkspaceSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
@@ -1097,7 +1097,7 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
                    size_t A, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenReduceTensor(
                 <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
                 <void*>indices, indicesSizeInBytes, <void*>workspace,
@@ -1115,7 +1115,7 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
 cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenSetTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
                 <void*>valuePtr)
@@ -1129,7 +1129,7 @@ cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
 cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenScaleTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
                 <void*>alpha)
@@ -1194,7 +1194,7 @@ cpdef destroyFilterDescriptor(size_t filterDesc):
 
 cpdef size_t createConvolutionDescriptor() except? 0:
     cdef ConvolutionDescriptor desc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateConvolutionDescriptor(&desc)
     else:
         status = cudnnCreateConvolutionDescriptor(&desc)
@@ -1216,7 +1216,7 @@ cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
 
 
 cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenSetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, groupCount)
     else:
@@ -1227,7 +1227,7 @@ cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
 
 cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
     cdef int groupCount
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, &groupCount)
     else:
@@ -1265,7 +1265,7 @@ cpdef setConvolutionNdDescriptor_v3(
 
 
 cpdef destroyConvolutionDescriptor(size_t convDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyConvolutionDescriptor(
             <ConvolutionDescriptor>convDesc)
     else:
@@ -1378,7 +1378,7 @@ cpdef convolutionForward(
         size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-	if runtime._is_hip_environment:
+	if runtime.hip_environment:
 		status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
 				<TensorDescriptor>srcDesc, <void*>srcData,
 				<FilterDescriptor>filterDesc, <void*>filterData,
@@ -1401,7 +1401,7 @@ cpdef convolutionBackwardBias(
         size_t beta, size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenConvolutionBackwardBias(
                 <Handle>handle, <void*>alpha,
                 <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
@@ -1651,7 +1651,7 @@ cpdef convolutionBackwardData_v3(
 
 cpdef size_t createPoolingDescriptor() except? 0:
     cdef PoolingDescriptor desc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreatePoolingDescriptor(&desc)
     else:
         status = cudnnCreatePoolingDescriptor(&desc)
@@ -1681,7 +1681,7 @@ cpdef setPoolingNdDescriptor_v4(
 
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
-	if runtime._is_hip_environment:
+	if runtime.hip_environment:
         status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     else:
         status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
@@ -1723,7 +1723,7 @@ CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
 
 cpdef deriveBNTensorDescriptor(
         size_t derivedBnDesc, size_t xDesc, int mode):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDeriveBNTensorDescriptor(
             <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
             <BatchNormMode> mode)
@@ -1744,7 +1744,7 @@ cpdef batchNormalizationForwardTraining(
         double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenBatchNormalizationForwardTraining(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
@@ -1774,7 +1774,7 @@ cpdef batchNormalizationForwardInference(
         double epsilon):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenBatchNormalizationForwardInference(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
@@ -1804,7 +1804,7 @@ cpdef batchNormalizationBackward(
         double epsilon, size_t savedMean, size_t savedInvVariance):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenBatchNormalizationBackward(
                 <Handle>handle, <BatchNormMode>mode,
                 <void*>alphaDataDiff, <void*>betaDataDiff,
@@ -1971,7 +1971,7 @@ cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
 
 cpdef size_t createActivationDescriptor() except? 0:
     cdef ActivationDescriptor activationDesc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateActivationDescriptor(&activationDesc)
     else:
         status = cudnnCreateActivationDescriptor(&activationDesc)
@@ -1988,7 +1988,7 @@ cpdef setActivationDescriptor(
 
 
 cpdef destroyActivationDescriptor(size_t activationDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyActivationDescriptor(
             <ActivationDescriptor>activationDesc)
     else:
@@ -2002,7 +2002,7 @@ cpdef softmaxForward(
         size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenSoftmaxForward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
@@ -2021,7 +2021,7 @@ cpdef softmaxBackward(
         size_t destDiffDesc, size_t destDiffData):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenSoftmaxBackward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
@@ -2070,7 +2070,7 @@ cpdef activationBackward_v4(
 
 cpdef size_t createDropoutDescriptor() except? 0:
     cdef DropoutDescriptor desc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateDropoutDescriptor(&desc)
     else:
         status = cudnnCreateDropoutDescriptor(&desc)
@@ -2079,7 +2079,7 @@ cpdef size_t createDropoutDescriptor() except? 0:
 
 
 cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     else:
         status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
@@ -2088,7 +2088,7 @@ cpdef destroyDropoutDescriptor(size_t dropoutDesc):
 
 cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDropoutGetStatesSize(
             <Handle>handle, &sizeInBytes)
     else:
@@ -2109,7 +2109,7 @@ cpdef setDropoutDescriptor(
 
 cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDropoutGetReserveSpaceSize(
             <TensorDescriptor>xDesc, &sizeInBytes)
     else:
@@ -2154,7 +2154,7 @@ cpdef dropoutBackward(
 ###############################################################################
 cpdef size_t createCTCLossDescriptor() except? 0:
     cdef CTCLossDescriptor desc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateCTCLossDescriptor(&desc)
     else:
         status = cudnnCreateCTCLossDescriptor(&desc)
@@ -2162,7 +2162,7 @@ cpdef size_t createCTCLossDescriptor() except? 0:
     return <size_t>desc
 
 cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     else:
         status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
@@ -2185,7 +2185,7 @@ cpdef size_t getCTCLossWorkspaceSize(
         size_t labels, size_t labelLengths, size_t inputLengths,
         int algo, size_t ctcLossDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetCTCLossWorkspaceSize(
             <Handle>handle, <TensorDescriptor>probsDesc,
             <TensorDescriptor>gradientsDesc,
@@ -2206,7 +2206,7 @@ cpdef CTCLoss(
         size_t costs, size_t gradientsDesc, size_t gradients,
         int algo, size_t ctcLossDesc,
         size_t workspace, size_t workSpaceSizeInBytes):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCTCLoss(
             <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
             <int*>labels, <int*>labelLengths, <int*>inputLengths,
@@ -2229,7 +2229,7 @@ cpdef CTCLoss(
 
 cpdef size_t createRNNDescriptor() except? 0:
     cdef RNNDescriptor desc
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenCreateRNNDescriptor(&desc)
     else:
         status = cudnnCreateRNNDescriptor(&desc)
@@ -2238,7 +2238,7 @@ cpdef size_t createRNNDescriptor() except? 0:
 
 
 cpdef destroyRNNDescriptor(size_t rnnDesc):
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     else:
         status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
@@ -2343,7 +2343,7 @@ cpdef getRNNDataDescriptor(
 cpdef getRNNWorkspaceSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetRNNWorkspaceSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
@@ -2358,7 +2358,7 @@ cpdef getRNNWorkspaceSize(
 cpdef getRNNTrainingReserveSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetRNNTrainingReserveSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
@@ -2373,7 +2373,7 @@ cpdef getRNNTrainingReserveSize(
 cpdef getRNNParamsSize(
         intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
     cdef size_t sizeInBytes
-    if runtime._is_hip_environment:
+    if runtime.hip_environment:
         status = miopenGetRNNParamsSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
             &sizeInBytes, <DataType>dataType)
@@ -2414,7 +2414,7 @@ cpdef RNNForwardInference(
         size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenRNNForwardInference(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,
@@ -2448,7 +2448,7 @@ cpdef RNNForwardTraining(
         size_t reserveSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        if runtime._is_hip_environment:
+        if runtime.hip_environment:
             status = miopenRNNForwardTraining(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,

From 9d2148fa08529be4ad914d2d44edafcfed8ef8a3 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 29 Nov 2023 02:32:59 +0000
Subject: [PATCH 47/49] tabs error

---
 cupy_backends/cuda/libs/cudnn.pyx | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index 2f567cc6c5e..64dc7c72615 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -1378,8 +1378,8 @@ cpdef convolutionForward(
         size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-	if runtime.hip_environment:
-		status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
+        if runtime.hip_environment:
+            status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
 				<TensorDescriptor>srcDesc, <void*>srcData,
 				<FilterDescriptor>filterDesc, <void*>filterData,
 				<ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
@@ -1681,7 +1681,7 @@ cpdef setPoolingNdDescriptor_v4(
 
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
-	if runtime.hip_environment:
+    if runtime.hip_environment:
         status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     else:
         status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)

From 8e0c0a1e27d159efe8b96c641a007d53b12a82a5 Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 29 Nov 2023 04:48:56 +0000
Subject: [PATCH 48/49] runtime.hip_env replaced with runtime._is_hip_env

---
 cupy_backends/cuda/libs/cudnn.pyx | 100 +++++++++++++++---------------
 1 file changed, 50 insertions(+), 50 deletions(-)

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index 64dc7c72615..fb082641d36 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -759,7 +759,7 @@ class CuDNNError(RuntimeError):
 
     def __init__(self, int status):
         self.status = status
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             msg = miopenGetErrorString(<Status>status)
         else:
             msg = cudnnGetErrorString(<Status>status)
@@ -803,7 +803,7 @@ def get_build_version():
 ###############################################################################
 
 cpdef size_t getVersion() except? 0:
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         return miopenGetVersion()
     else:
         return cudnnGetVersion()
@@ -829,7 +829,7 @@ cpdef queryRuntimeError(intptr_t handle, int mode):
 cpdef intptr_t create() except? 0:
     cdef Handle handle
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenCreate(&handle)
         else:
             status = cudnnCreate(&handle)
@@ -839,7 +839,7 @@ cpdef intptr_t create() except? 0:
 
 cpdef destroy(intptr_t handle):
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenDestroy(<Handle>handle)
         else:
             status = cudnnDestroy(<Handle>handle)
@@ -849,11 +849,11 @@ cpdef destroy(intptr_t handle):
 cpdef setStream(intptr_t handle, size_t stream):
     # TODO(leofang): The support of stream capture is not mentioned at all in
     # the cuDNN docs (as of CUDA 11.5), so we disable this functionality.
-    if not runtime.hip_environment and runtime.streamIsCapturing(stream):
+    if not runtime._is_hip_environment and runtime.streamIsCapturing(stream):
         raise NotImplementedError(
             'calling cuDNN API during stream capture is currently '
             'unsupported')
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
     else:
         status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
@@ -862,7 +862,7 @@ cpdef setStream(intptr_t handle, size_t stream):
 
 cpdef size_t getStream(intptr_t handle) except? 0:
     cdef driver.Stream stream
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = cudnnGetStream(<Handle>handle, &stream)
     else:
         status = miopenGetStream(<Handle>handle, &stream)
@@ -880,7 +880,7 @@ cdef _setStream(intptr_t handle):
 
 cpdef size_t createTensorDescriptor() except? 0:
     cdef TensorDescriptor descriptor
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateTensorDescriptor(&descriptor)
     else:
         status = cudnnCreateTensorDescriptor(&descriptor)
@@ -924,7 +924,7 @@ cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
 
 
 cpdef destroyTensorDescriptor(size_t tensorDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     else:
         status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
@@ -981,7 +981,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
                size_t B, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenOpTensor(
                 <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
                 <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
@@ -1002,7 +1002,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
 
 cpdef size_t createReduceTensorDescriptor() except? 0:
     cdef ReduceTensorDescriptor reduceTensorDesc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
     else:
         status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
@@ -1013,7 +1013,7 @@ cpdef setReduceTensorDescriptor(
         size_t reduceTensorDesc, int reduceTensorOp, int reduceTensorCompType,
         int reduceTensorNanOpt, int reduceTensorIndices,
         int reduceTensorIndicesType):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenSetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc,
             <ReduceTensorOp>reduceTensorOp,
@@ -1036,7 +1036,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
     cdef NanPropagation redNanOpt
     cdef ReduceTensorIndices redIndices
     cdef IndicesType redIndicesType
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
             &redCompType, &redNanOpt, &redIndices, &redIndicesType)
@@ -1049,7 +1049,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
 
 
 cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc)
     else:
@@ -1061,7 +1061,7 @@ cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
 cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
                                      size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetReductionIndicesSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
@@ -1077,7 +1077,7 @@ cpdef size_t getReductionWorkspaceSize(intptr_t handle,
                                        size_t reduceTensorDesc,
                                        size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetReductionWorkspaceSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
@@ -1097,7 +1097,7 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
                    size_t A, size_t beta, size_t cDesc, size_t C):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenReduceTensor(
                 <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
                 <void*>indices, indicesSizeInBytes, <void*>workspace,
@@ -1115,7 +1115,7 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
 cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenSetTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
                 <void*>valuePtr)
@@ -1129,7 +1129,7 @@ cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
 cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenScaleTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
                 <void*>alpha)
@@ -1194,7 +1194,7 @@ cpdef destroyFilterDescriptor(size_t filterDesc):
 
 cpdef size_t createConvolutionDescriptor() except? 0:
     cdef ConvolutionDescriptor desc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateConvolutionDescriptor(&desc)
     else:
         status = cudnnCreateConvolutionDescriptor(&desc)
@@ -1216,7 +1216,7 @@ cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
 
 
 cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenSetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, groupCount)
     else:
@@ -1227,7 +1227,7 @@ cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
 
 cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
     cdef int groupCount
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, &groupCount)
     else:
@@ -1265,7 +1265,7 @@ cpdef setConvolutionNdDescriptor_v3(
 
 
 cpdef destroyConvolutionDescriptor(size_t convDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyConvolutionDescriptor(
             <ConvolutionDescriptor>convDesc)
     else:
@@ -1378,7 +1378,7 @@ cpdef convolutionForward(
         size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
 				<TensorDescriptor>srcDesc, <void*>srcData,
 				<FilterDescriptor>filterDesc, <void*>filterData,
@@ -1401,7 +1401,7 @@ cpdef convolutionBackwardBias(
         size_t beta, size_t destDesc, size_t destData):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenConvolutionBackwardBias(
                 <Handle>handle, <void*>alpha,
                 <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
@@ -1651,7 +1651,7 @@ cpdef convolutionBackwardData_v3(
 
 cpdef size_t createPoolingDescriptor() except? 0:
     cdef PoolingDescriptor desc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreatePoolingDescriptor(&desc)
     else:
         status = cudnnCreatePoolingDescriptor(&desc)
@@ -1681,7 +1681,7 @@ cpdef setPoolingNdDescriptor_v4(
 
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     else:
         status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
@@ -1723,7 +1723,7 @@ CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
 
 cpdef deriveBNTensorDescriptor(
         size_t derivedBnDesc, size_t xDesc, int mode):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDeriveBNTensorDescriptor(
             <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
             <BatchNormMode> mode)
@@ -1744,7 +1744,7 @@ cpdef batchNormalizationForwardTraining(
         double epsilon, size_t resultSaveMean, size_t resultSaveInvVariance):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenBatchNormalizationForwardTraining(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
@@ -1774,7 +1774,7 @@ cpdef batchNormalizationForwardInference(
         double epsilon):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenBatchNormalizationForwardInference(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
@@ -1804,7 +1804,7 @@ cpdef batchNormalizationBackward(
         double epsilon, size_t savedMean, size_t savedInvVariance):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenBatchNormalizationBackward(
                 <Handle>handle, <BatchNormMode>mode,
                 <void*>alphaDataDiff, <void*>betaDataDiff,
@@ -1971,7 +1971,7 @@ cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
 
 cpdef size_t createActivationDescriptor() except? 0:
     cdef ActivationDescriptor activationDesc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateActivationDescriptor(&activationDesc)
     else:
         status = cudnnCreateActivationDescriptor(&activationDesc)
@@ -1988,7 +1988,7 @@ cpdef setActivationDescriptor(
 
 
 cpdef destroyActivationDescriptor(size_t activationDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyActivationDescriptor(
             <ActivationDescriptor>activationDesc)
     else:
@@ -2002,7 +2002,7 @@ cpdef softmaxForward(
         size_t srcData, size_t beta, size_t dstDesc, size_t dstData):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenSoftmaxForward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
@@ -2021,7 +2021,7 @@ cpdef softmaxBackward(
         size_t destDiffDesc, size_t destDiffData):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenSoftmaxBackward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
@@ -2070,7 +2070,7 @@ cpdef activationBackward_v4(
 
 cpdef size_t createDropoutDescriptor() except? 0:
     cdef DropoutDescriptor desc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateDropoutDescriptor(&desc)
     else:
         status = cudnnCreateDropoutDescriptor(&desc)
@@ -2079,7 +2079,7 @@ cpdef size_t createDropoutDescriptor() except? 0:
 
 
 cpdef destroyDropoutDescriptor(size_t dropoutDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     else:
         status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
@@ -2088,7 +2088,7 @@ cpdef destroyDropoutDescriptor(size_t dropoutDesc):
 
 cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDropoutGetStatesSize(
             <Handle>handle, &sizeInBytes)
     else:
@@ -2109,7 +2109,7 @@ cpdef setDropoutDescriptor(
 
 cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDropoutGetReserveSpaceSize(
             <TensorDescriptor>xDesc, &sizeInBytes)
     else:
@@ -2154,7 +2154,7 @@ cpdef dropoutBackward(
 ###############################################################################
 cpdef size_t createCTCLossDescriptor() except? 0:
     cdef CTCLossDescriptor desc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateCTCLossDescriptor(&desc)
     else:
         status = cudnnCreateCTCLossDescriptor(&desc)
@@ -2162,7 +2162,7 @@ cpdef size_t createCTCLossDescriptor() except? 0:
     return <size_t>desc
 
 cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     else:
         status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
@@ -2185,7 +2185,7 @@ cpdef size_t getCTCLossWorkspaceSize(
         size_t labels, size_t labelLengths, size_t inputLengths,
         int algo, size_t ctcLossDesc) except? 0:
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetCTCLossWorkspaceSize(
             <Handle>handle, <TensorDescriptor>probsDesc,
             <TensorDescriptor>gradientsDesc,
@@ -2206,7 +2206,7 @@ cpdef CTCLoss(
         size_t costs, size_t gradientsDesc, size_t gradients,
         int algo, size_t ctcLossDesc,
         size_t workspace, size_t workSpaceSizeInBytes):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCTCLoss(
             <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
             <int*>labels, <int*>labelLengths, <int*>inputLengths,
@@ -2229,7 +2229,7 @@ cpdef CTCLoss(
 
 cpdef size_t createRNNDescriptor() except? 0:
     cdef RNNDescriptor desc
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenCreateRNNDescriptor(&desc)
     else:
         status = cudnnCreateRNNDescriptor(&desc)
@@ -2238,7 +2238,7 @@ cpdef size_t createRNNDescriptor() except? 0:
 
 
 cpdef destroyRNNDescriptor(size_t rnnDesc):
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     else:
         status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
@@ -2343,7 +2343,7 @@ cpdef getRNNDataDescriptor(
 cpdef getRNNWorkspaceSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetRNNWorkspaceSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
@@ -2358,7 +2358,7 @@ cpdef getRNNWorkspaceSize(
 cpdef getRNNTrainingReserveSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetRNNTrainingReserveSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
@@ -2373,7 +2373,7 @@ cpdef getRNNTrainingReserveSize(
 cpdef getRNNParamsSize(
         intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
     cdef size_t sizeInBytes
-    if runtime.hip_environment:
+    if runtime._is_hip_environment:
         status = miopenGetRNNParamsSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
             &sizeInBytes, <DataType>dataType)
@@ -2414,7 +2414,7 @@ cpdef RNNForwardInference(
         size_t cy, size_t workspace, size_t workSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenRNNForwardInference(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,
@@ -2448,7 +2448,7 @@ cpdef RNNForwardTraining(
         size_t reserveSpaceSizeInBytes):
     _setStream(handle)
     with nogil:
-        if runtime.hip_environment:
+        if runtime._is_hip_environment:
             status = miopenRNNForwardTraining(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,

From d81e48c10a26abc0d2bf301542e2679130dbb03b Mon Sep 17 00:00:00 2001
From: bmedishe <bmedishe@amd.com>
Date: Wed, 29 Nov 2023 05:19:36 +0000
Subject: [PATCH 49/49] update cudnn.pyx debug errors

---
 cupy_backends/cuda/libs/cudnn.pyx | 105 +++++++++++++++---------------
 1 file changed, 54 insertions(+), 51 deletions(-)

diff --git a/cupy_backends/cuda/libs/cudnn.pyx b/cupy_backends/cuda/libs/cudnn.pyx
index fb082641d36..84d10d5b874 100644
--- a/cupy_backends/cuda/libs/cudnn.pyx
+++ b/cupy_backends/cuda/libs/cudnn.pyx
@@ -9,7 +9,7 @@ from cupy_backends.cuda.api cimport driver
 from cupy_backends.cuda.api cimport runtime
 from cupy_backends.cuda cimport stream as stream_module
 
-from cupy_backends.cuda.libs.miopen import *
+from cupy_backends.cuda.libs import miopen
 ###############################################################################
 # Extern
 ###############################################################################
@@ -760,7 +760,7 @@ class CuDNNError(RuntimeError):
     def __init__(self, int status):
         self.status = status
         if runtime._is_hip_environment:
-            msg = miopenGetErrorString(<Status>status)
+            msg = miopen.miopenGetErrorString(<Status>status)
         else:
             msg = cudnnGetErrorString(<Status>status)
         super(CuDNNError, self).__init__(
@@ -804,7 +804,7 @@ def get_build_version():
 
 cpdef size_t getVersion() except? 0:
     if runtime._is_hip_environment:
-        return miopenGetVersion()
+        return miopen.miopenGetVersion()
     else:
         return cudnnGetVersion()
 
@@ -827,10 +827,13 @@ cpdef queryRuntimeError(intptr_t handle, int mode):
 ###############################################################################
 
 cpdef intptr_t create() except? 0:
-    cdef Handle handle
+    IF CUPY_HIP_VERSION != 0:
+        cdef miopen.Handle handle
+    ELSE:
+        cdef Handle handle
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenCreate(&handle)
+            status = miopen.miopenCreate(&handle)
         else:
             status = cudnnCreate(&handle)
     check_status(status)
@@ -840,7 +843,7 @@ cpdef intptr_t create() except? 0:
 cpdef destroy(intptr_t handle):
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenDestroy(<Handle>handle)
+            status = miopen.miopenDestroy(<Handle>handle)
         else:
             status = cudnnDestroy(<Handle>handle)
     check_status(status)
@@ -854,7 +857,7 @@ cpdef setStream(intptr_t handle, size_t stream):
             'calling cuDNN API during stream capture is currently '
             'unsupported')
     if runtime._is_hip_environment:
-        status = miopenSetStream(<Handle>handle, <driver.Stream>stream)
+        status = miopen.miopenSetStream(<Handle>handle, <driver.Stream>stream)
     else:
         status = cudnnSetStream(<Handle>handle, <driver.Stream>stream)
     check_status(status)
@@ -865,7 +868,7 @@ cpdef size_t getStream(intptr_t handle) except? 0:
     if runtime._is_hip_environment:
         status = cudnnGetStream(<Handle>handle, &stream)
     else:
-        status = miopenGetStream(<Handle>handle, &stream)
+        status = miopen.miopenGetStream(<Handle>handle, &stream)
     check_status(status)
     return <size_t>stream
 
@@ -881,7 +884,7 @@ cdef _setStream(intptr_t handle):
 cpdef size_t createTensorDescriptor() except? 0:
     cdef TensorDescriptor descriptor
     if runtime._is_hip_environment:
-        status = miopenCreateTensorDescriptor(&descriptor)
+        status = miopen.miopenCreateTensorDescriptor(&descriptor)
     else:
         status = cudnnCreateTensorDescriptor(&descriptor)
     check_status(status)
@@ -925,7 +928,7 @@ cpdef setTensorNdDescriptor(size_t tensorDesc, int dataType, int nbDims,
 
 cpdef destroyTensorDescriptor(size_t tensorDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
+        status = miopen.miopenDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     else:
         status = cudnnDestroyTensorDescriptor(<TensorDescriptor>tensorDesc)
     check_status(status)
@@ -982,7 +985,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenOpTensor(
+            status = miopen.miopenOpTensor(
                 <Handle>handle, <OpTensorDescriptor>opTensorDesc, <void*>alpha1,
                 <TensorDescriptor>aDesc, <void*>A, <void*>alpha2,
                 <TensorDescriptor>bDesc, <void*>B, <void*>beta,
@@ -1003,7 +1006,7 @@ cpdef opTensor(intptr_t handle, size_t opTensorDesc, size_t alpha1,
 cpdef size_t createReduceTensorDescriptor() except? 0:
     cdef ReduceTensorDescriptor reduceTensorDesc
     if runtime._is_hip_environment:
-        status = miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
+        status = miopen.miopenCreateReduceTensorDescriptor(&reduceTensorDesc)
     else:
         status = cudnnCreateReduceTensorDescriptor(&reduceTensorDesc)
     check_status(status)
@@ -1014,7 +1017,7 @@ cpdef setReduceTensorDescriptor(
         int reduceTensorNanOpt, int reduceTensorIndices,
         int reduceTensorIndicesType):
     if runtime._is_hip_environment:
-        status = miopenSetReduceTensorDescriptor(
+        status = miopen.miopenSetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc,
             <ReduceTensorOp>reduceTensorOp,
             <DataType>reduceTensorCompType, <NanPropagation>reduceTensorNanOpt,
@@ -1037,7 +1040,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
     cdef ReduceTensorIndices redIndices
     cdef IndicesType redIndicesType
     if runtime._is_hip_environment:
-        status = miopenGetReduceTensorDescriptor(
+        status = miopen.miopenGetReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc, &redOp,
             &redCompType, &redNanOpt, &redIndices, &redIndicesType)
     else:
@@ -1050,7 +1053,7 @@ cpdef getReduceTensorDescriptor(size_t reduceTensorDesc):
 
 cpdef destroyReduceTensorDescriptor(size_t reduceTensorDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyReduceTensorDescriptor(
+        status = miopen.miopenDestroyReduceTensorDescriptor(
             <ReduceTensorDescriptor>reduceTensorDesc)
     else:
         status = cudnnDestroyReduceTensorDescriptor(
@@ -1062,7 +1065,7 @@ cpdef size_t getReductionIndicesSize(intptr_t handle, size_t reduceTensorDesc,
                                      size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetReductionIndicesSize(
+        status = miopen.miopenGetReductionIndicesSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc, &sizeInBytes)
     else:
@@ -1078,7 +1081,7 @@ cpdef size_t getReductionWorkspaceSize(intptr_t handle,
                                        size_t aDesc, size_t cDesc) except? 0:
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetReductionWorkspaceSize(
+        status = miopen.miopenGetReductionWorkspaceSize(
             <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
             <TensorDescriptor>aDesc, <TensorDescriptor>cDesc,
             &sizeInBytes)
@@ -1098,7 +1101,7 @@ cpdef reduceTensor(intptr_t handle, size_t reduceTensorDesc, size_t indices,
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenReduceTensor(
+            status = miopen.miopenReduceTensor(
                 <Handle>handle, <ReduceTensorDescriptor>reduceTensorDesc,
                 <void*>indices, indicesSizeInBytes, <void*>workspace,
                 workspaceSizeInBytes, <void*>alpha, <TensorDescriptor>aDesc,
@@ -1116,7 +1119,7 @@ cpdef setTensor(intptr_t handle, size_t yDesc, size_t y, size_t valuePtr):
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenSetTensor(
+            status = miopen.miopenSetTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*>y,
                 <void*>valuePtr)
         else:
@@ -1130,7 +1133,7 @@ cpdef scaleTensor(intptr_t handle, size_t yDesc, size_t y, size_t alpha):
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenScaleTensor(
+            status = miopen.miopenScaleTensor(
                 <Handle>handle, <TensorDescriptor>yDesc, <void*> y,
                 <void*>alpha)
         else:
@@ -1195,7 +1198,7 @@ cpdef destroyFilterDescriptor(size_t filterDesc):
 cpdef size_t createConvolutionDescriptor() except? 0:
     cdef ConvolutionDescriptor desc
     if runtime._is_hip_environment:
-        status = miopenCreateConvolutionDescriptor(&desc)
+        status = miopen.miopenCreateConvolutionDescriptor(&desc)
     else:
         status = cudnnCreateConvolutionDescriptor(&desc)
     check_status(status)
@@ -1217,7 +1220,7 @@ cpdef size_t getConvolutionMathType(size_t convDesc) except? 0:
 
 cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
     if runtime._is_hip_environment:
-        status = miopenSetConvolutionGroupCount(
+        status = miopen.miopenSetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, groupCount)
     else:
         status = cudnnSetConvolutionGroupCount(
@@ -1228,7 +1231,7 @@ cpdef setConvolutionGroupCount(size_t convDesc, int groupCount):
 cpdef int getConvolutionGroupCount(size_t convDesc) except? -1:
     cdef int groupCount
     if runtime._is_hip_environment:
-        status = miopenGetConvolutionGroupCount(
+        status = miopen.miopenGetConvolutionGroupCount(
             <ConvolutionDescriptor>convDesc, &groupCount)
     else:
         status = cudnnGetConvolutionGroupCount(
@@ -1266,7 +1269,7 @@ cpdef setConvolutionNdDescriptor_v3(
 
 cpdef destroyConvolutionDescriptor(size_t convDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyConvolutionDescriptor(
+        status = miopen.miopenDestroyConvolutionDescriptor(
             <ConvolutionDescriptor>convDesc)
     else:
         status = cudnnDestroyConvolutionDescriptor(
@@ -1379,7 +1382,7 @@ cpdef convolutionForward(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenConvolutionForward(<Handle>handle, <void*>alpha,
+            status = miopen.miopenConvolutionForward(<Handle>handle, <void*>alpha,
 				<TensorDescriptor>srcDesc, <void*>srcData,
 				<FilterDescriptor>filterDesc, <void*>filterData,
 				<ConvolutionDescriptor>convDesc, <ConvolutionFwdAlgo>algo,
@@ -1402,7 +1405,7 @@ cpdef convolutionBackwardBias(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenConvolutionBackwardBias(
+            status = miopen.miopenConvolutionBackwardBias(
                 <Handle>handle, <void*>alpha,
                 <TensorDescriptor>srcDesc, <void*>srcData, <void*>beta,
                 <TensorDescriptor>destDesc, <void*>destData)
@@ -1652,7 +1655,7 @@ cpdef convolutionBackwardData_v3(
 cpdef size_t createPoolingDescriptor() except? 0:
     cdef PoolingDescriptor desc
     if runtime._is_hip_environment:
-        status = miopenCreatePoolingDescriptor(&desc)
+        status = miopen.miopenCreatePoolingDescriptor(&desc)
     else:
         status = cudnnCreatePoolingDescriptor(&desc)
     check_status(status)
@@ -1682,7 +1685,7 @@ cpdef setPoolingNdDescriptor_v4(
 
 cpdef destroyPoolingDescriptor(size_t poolingDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
+        status = miopen.miopenDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     else:
         status = cudnnDestroyPoolingDescriptor(<PoolingDescriptor>poolingDesc)
     check_status(status)
@@ -1724,7 +1727,7 @@ CUDNN_BN_MIN_EPSILON = _CUDNN_BN_MIN_EPSILON
 cpdef deriveBNTensorDescriptor(
         size_t derivedBnDesc, size_t xDesc, int mode):
     if runtime._is_hip_environment:
-        status = miopenDeriveBNTensorDescriptor(
+        status = miopen.miopenDeriveBNTensorDescriptor(
             <TensorDescriptor>derivedBnDesc, <TensorDescriptor>xDesc,
             <BatchNormMode> mode)
     else:
@@ -1745,7 +1748,7 @@ cpdef batchNormalizationForwardTraining(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenBatchNormalizationForwardTraining(
+            status = miopen.miopenBatchNormalizationForwardTraining(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
                 <void*>x, <TensorDescriptor>yDesc, <void*>y,
@@ -1775,7 +1778,7 @@ cpdef batchNormalizationForwardInference(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenBatchNormalizationForwardInference(
+            status = miopen.miopenBatchNormalizationForwardInference(
                 <Handle>handle, <BatchNormMode> mode,
                 <void*>alpha, <void*>beta, <TensorDescriptor>xDesc,
                 <void*>x, <TensorDescriptor>yDesc, <void*>y,
@@ -1805,7 +1808,7 @@ cpdef batchNormalizationBackward(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenBatchNormalizationBackward(
+            status = miopen.miopenBatchNormalizationBackward(
                 <Handle>handle, <BatchNormMode>mode,
                 <void*>alphaDataDiff, <void*>betaDataDiff,
                 <void*>alphaParamDiff, <void*>betaParamDiff,
@@ -1972,7 +1975,7 @@ cpdef size_t getBatchNormalizationTrainingExReserveSpaceSize(
 cpdef size_t createActivationDescriptor() except? 0:
     cdef ActivationDescriptor activationDesc
     if runtime._is_hip_environment:
-        status = miopenCreateActivationDescriptor(&activationDesc)
+        status = miopen.miopenCreateActivationDescriptor(&activationDesc)
     else:
         status = cudnnCreateActivationDescriptor(&activationDesc)
     check_status(status)
@@ -1989,7 +1992,7 @@ cpdef setActivationDescriptor(
 
 cpdef destroyActivationDescriptor(size_t activationDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyActivationDescriptor(
+        status = miopen.miopenDestroyActivationDescriptor(
             <ActivationDescriptor>activationDesc)
     else:
         status = cudnnDestroyActivationDescriptor(
@@ -2003,7 +2006,7 @@ cpdef softmaxForward(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenSoftmaxForward(
+            status = miopen.miopenSoftmaxForward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
                 <void*>beta, <TensorDescriptor>dstDesc, <void*>dstData)
@@ -2022,7 +2025,7 @@ cpdef softmaxBackward(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenSoftmaxBackward(
+            status = miopen.miopenSoftmaxBackward(
                 <Handle>handle, <SoftmaxAlgorithm>algorithm, <SoftmaxMode>mode,
                 <void*>alpha, <TensorDescriptor>srcDesc, <void*>srcData,
                 <TensorDescriptor>srcDiffDesc, <void*>srcDiffData, <void*>beta,
@@ -2071,7 +2074,7 @@ cpdef activationBackward_v4(
 cpdef size_t createDropoutDescriptor() except? 0:
     cdef DropoutDescriptor desc
     if runtime._is_hip_environment:
-        status = miopenCreateDropoutDescriptor(&desc)
+        status = miopen.miopenCreateDropoutDescriptor(&desc)
     else:
         status = cudnnCreateDropoutDescriptor(&desc)
     check_status(status)
@@ -2080,7 +2083,7 @@ cpdef size_t createDropoutDescriptor() except? 0:
 
 cpdef destroyDropoutDescriptor(size_t dropoutDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
+        status = miopen.miopenDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     else:
         status = cudnnDestroyDropoutDescriptor(<DropoutDescriptor>dropoutDesc)
     check_status(status)
@@ -2089,7 +2092,7 @@ cpdef destroyDropoutDescriptor(size_t dropoutDesc):
 cpdef Py_ssize_t dropoutGetStatesSize(intptr_t handle) except? -1:
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenDropoutGetStatesSize(
+        status = miopen.miopenDropoutGetStatesSize(
             <Handle>handle, &sizeInBytes)
     else:
         status = cudnnDropoutGetStatesSize(
@@ -2110,7 +2113,7 @@ cpdef setDropoutDescriptor(
 cpdef size_t getDropoutReserveSpaceSize(size_t xDesc) except? 0:
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenDropoutGetReserveSpaceSize(
+        status = miopen.miopenDropoutGetReserveSpaceSize(
             <TensorDescriptor>xDesc, &sizeInBytes)
     else:
         status = cudnnDropoutGetReserveSpaceSize(
@@ -2155,7 +2158,7 @@ cpdef dropoutBackward(
 cpdef size_t createCTCLossDescriptor() except? 0:
     cdef CTCLossDescriptor desc
     if runtime._is_hip_environment:
-        status = miopenCreateCTCLossDescriptor(&desc)
+        status = miopen.miopenCreateCTCLossDescriptor(&desc)
     else:
         status = cudnnCreateCTCLossDescriptor(&desc)
     check_status(status)
@@ -2163,7 +2166,7 @@ cpdef size_t createCTCLossDescriptor() except? 0:
 
 cpdef destroyCTCLossDescriptor(size_t ctcLossDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
+        status = miopen.miopenDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     else:
         status = cudnnDestroyCTCLossDescriptor(<CTCLossDescriptor>ctcLossDesc)
     check_status(status)
@@ -2186,7 +2189,7 @@ cpdef size_t getCTCLossWorkspaceSize(
         int algo, size_t ctcLossDesc) except? 0:
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetCTCLossWorkspaceSize(
+        status = miopen.miopenGetCTCLossWorkspaceSize(
             <Handle>handle, <TensorDescriptor>probsDesc,
             <TensorDescriptor>gradientsDesc,
             <int*>labels, <int*>labelLengths, <int*>inputLengths,
@@ -2207,7 +2210,7 @@ cpdef CTCLoss(
         int algo, size_t ctcLossDesc,
         size_t workspace, size_t workSpaceSizeInBytes):
     if runtime._is_hip_environment:
-        status = miopenCTCLoss(
+        status = miopen.miopenCTCLoss(
             <Handle>handle, <TensorDescriptor>probsDesc, <void*>probs,
             <int*>labels, <int*>labelLengths, <int*>inputLengths,
             <void*>costs, <TensorDescriptor>gradientsDesc, <void*>gradients,
@@ -2230,7 +2233,7 @@ cpdef CTCLoss(
 cpdef size_t createRNNDescriptor() except? 0:
     cdef RNNDescriptor desc
     if runtime._is_hip_environment:
-        status = miopenCreateRNNDescriptor(&desc)
+        status = miopen.miopenCreateRNNDescriptor(&desc)
     else:
         status = cudnnCreateRNNDescriptor(&desc)
     check_status(status)
@@ -2239,7 +2242,7 @@ cpdef size_t createRNNDescriptor() except? 0:
 
 cpdef destroyRNNDescriptor(size_t rnnDesc):
     if runtime._is_hip_environment:
-        status = miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
+        status = miopen.miopenDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     else:
         status = cudnnDestroyRNNDescriptor(<RNNDescriptor>rnnDesc)
     check_status(status)
@@ -2344,7 +2347,7 @@ cpdef getRNNWorkspaceSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetRNNWorkspaceSize(
+        status = miopen.miopenGetRNNWorkspaceSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
     else:
@@ -2359,7 +2362,7 @@ cpdef getRNNTrainingReserveSize(
         intptr_t handle, size_t rnnDesc, int seqLength, size_t xDesc):
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetRNNTrainingReserveSize(
+        status = miopen.miopenGetRNNTrainingReserveSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
             <TensorDescriptor*>xDesc, &sizeInBytes)
     else:
@@ -2374,7 +2377,7 @@ cpdef getRNNParamsSize(
         intptr_t handle, size_t rnnDesc, size_t xDesc, int dataType):
     cdef size_t sizeInBytes
     if runtime._is_hip_environment:
-        status = miopenGetRNNParamsSize(
+        status = miopen.miopenGetRNNParamsSize(
             <Handle>handle, <RNNDescriptor>rnnDesc, <TensorDescriptor>xDesc,
             &sizeInBytes, <DataType>dataType)
     else:
@@ -2415,7 +2418,7 @@ cpdef RNNForwardInference(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenRNNForwardInference(
+            status = miopen.miopenRNNForwardInference(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,
                 <TensorDescriptor>hxDesc, <void*>hx,
@@ -2449,7 +2452,7 @@ cpdef RNNForwardTraining(
     _setStream(handle)
     with nogil:
         if runtime._is_hip_environment:
-            status = miopenRNNForwardTraining(
+            status = miopen.miopenRNNForwardTraining(
                 <Handle>handle, <RNNDescriptor>rnnDesc, seqLength,
                 <TensorDescriptor*>xDesc, <void*>x,
                 <TensorDescriptor>hxDesc, <void*>hx,