xetla/data__transformer__xe_8hpp_source.html

/*******************************************************************************

* Copyright (c) 2022-2023 Intel Corporation

*

* Licensed under the Apache License, Version 2.0 (the "License");

* you may not use this file except in compliance with the License.

* You may obtain a copy of the License at

*

*     http://www.apache.org/licenses/LICENSE-2.0

*

* Unless required by applicable law or agreed to in writing, software

* distributed under the License is distributed on an "AS IS" BASIS,

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

* See the License for the specific language governing permissions and

* limitations under the License.

*******************************************************************************/


#pragma once


#include "experimental/kernel/data_transformer/api.hpp"

#include "experimental/kernel/data_transformer/common.hpp"

#include "experimental/kernel/data_transformer/config.hpp"

#include "group/reduction/reduction_xe.hpp"


namespace gpu::xetla::kernel {


template <typename dtype_in_, typename dtype_out_, typename dtype_compute_,

        typename data_transformer_attr_, mem_layout mem_layout_in_,

        int need_fp8_op>

struct xetla_data_transformer<dtype_in_, dtype_out_, dtype_compute_,

        data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe> {

    using dtype_in = dtype_in_;

    using dtype_out = dtype_out_;

    using dtype_compute = dtype_compute_;

    using data_transformer_attr = data_transformer_attr_;


    static constexpr mem_layout mem_layout_in = mem_layout_in_;


    static constexpr bool is_col_major_in

            = mem_layout_in == mem_layout::col_major;


    static constexpr uint32_t wg_tile_m = data_transformer_attr::wg_tile_m;

    static constexpr uint32_t wg_tile_n = data_transformer_attr::wg_tile_n;

    static constexpr uint32_t sg_tile_m = data_transformer_attr::sg_tile_m;

    static constexpr uint32_t sg_tile_n = data_transformer_attr::sg_tile_n;


    static constexpr uint32_t tile_size_x = sg_tile_n;

    static constexpr uint32_t tile_size_y = sg_tile_m;


    static constexpr uint32_t wg_size_x

            = (wg_tile_n + sg_tile_n - 1) / sg_tile_n;

    static constexpr uint32_t wg_size_y

            = (wg_tile_m + sg_tile_m - 1) / sg_tile_m;


    using load_store_attr = typename arch_attr_t<

            gpu_arch::Xe>::template load_store_attr<msg_type::block_2d>;

    static constexpr uint32_t max_load_height_in_elem

            = load_store_attr::max_load_height_in_elem;

    static constexpr uint32_t max_load_width_in_bytes

            = load_store_attr::max_load_width_in_bytes;

    static constexpr uint32_t max_store_width_in_bytes

            = load_store_attr::max_store_width_in_bytes;

    static constexpr uint32_t max_trans_block_width

            = load_store_attr::max_trans_load_width_in_bytes / sizeof(dtype_in);

    static constexpr uint32_t max_load_width_in_elem

            = max_load_width_in_bytes / sizeof(dtype_in);

    static constexpr uint32_t max_store_width_in_elem

            = max_store_width_in_bytes / sizeof(dtype_out);


    static constexpr uint32_t load_size_x

            = gpu::xetla::subgroup::detail::gcd<tile_size_x,

                    max_load_width_in_elem>::value;

    static_assert(load_size_x >= 8,

            "if block_size_x less than 8, the efficiency will be low. Please "

            "choose another tile_size_x");

    static constexpr uint32_t st_size_x = max_store_width_in_elem > tile_size_x

            ? tile_size_x

            : gpu::xetla::subgroup::detail::gcd<tile_size_x,

                    max_store_width_in_elem>::value;

    static_assert(st_size_x >= 8,

            "if st_block_size_x less than 8, the efficiency will be "

            "low. ");

    static constexpr uint32_t block_size_x

            = gpu::xetla::subgroup::detail::gcd<load_size_x, st_size_x>::value;


    static constexpr uint32_t block_size_y_limit

            = is_col_major_in ? max_trans_block_width : max_load_height_in_elem;


    static constexpr uint32_t block_size_y = block_size_y_limit > tile_size_y

            ? tile_size_y

            : block_size_y_limit;


    static constexpr reg_layout in_reg_layout = reg_layout::tiled;


    using global_ld_tile_desc_t = subgroup::tile_desc_t<tile_size_x,

            tile_size_y, block_size_x, block_size_y, in_reg_layout>;

    using global_ld_t = subgroup::tile_t<dtype_in, global_ld_tile_desc_t>;

    using global_ld_payload_t = subgroup::mem_payload_t<

            mem_desc_t<dtype_in, mem_layout_in, mem_space::global>,

            global_ld_tile_desc_t,

            subgroup::msg_type_v<global_ld_tile_desc_t, mem_space::global>,

            gpu_arch::Xe>;


    using global_st_tile_desc_t = subgroup::tile_desc_t<tile_size_x,

            tile_size_y, block_size_x, block_size_y, reg_layout::tiled>;

    using global_st_t = subgroup::tile_t<dtype_out, global_st_tile_desc_t>;

    using global_st_payload_t = subgroup::mem_payload_t<

            mem_desc_t<dtype_out, mem_layout::row_major, mem_space::global>,

            global_st_tile_desc_t, msg_type::block_2d, gpu_arch::Xe>;

    using global_compute_tile_desc = subgroup::tile_desc_t<tile_size_x,

            tile_size_y, block_size_x, block_size_y, reg_layout::tiled>;

    using global_compute_t

            = subgroup::tile_t<dtype_compute, global_compute_tile_desc>;


    using wg_reduce_t

            = group::group_reduce_t<dtype_compute, tile_size_x * tile_size_y, 1,

                    reduce_op::max, wg_size_x * wg_size_y, true, gpu_arch::Xe>;


    struct arguments_t {

        dtype_in *mat_in_ptr;

        dtype_out *mat_out_ptr;

        uint32_t matrix_m;

        uint32_t matrix_n;

        uint32_t matrix_in_ld;

        uint32_t matrix_out_ld;

        dtype_compute *amax_ptr;

        dtype_compute *scale;

        uint32_t wg_ld_start_x;

        uint32_t wg_ld_start_y;

        uint32_t wg_st_start_x;

        uint32_t wg_st_start_y;

    };


    struct get_barrier_count {

        static constexpr uint32_t count

                = (wg_size_x * wg_size_y > 1) ? wg_size_x * wg_size_y : 0;

    };


    struct get_slm_size {

        static constexpr uint32_t size = (wg_size_x * wg_size_y > 1)

                ? wg_size_x * wg_size_y * sizeof(dtype_compute)

                : 0;

    };


    __XETLA_API static void call(sycl::nd_item<3> &item, arguments_t *args) {

        int tid_x = item.get_local_id(2);

        int tid_y = item.get_local_id(1);

        uint32_t sg_id = item.get_local_linear_id();


        global_ld_t mat_global_ld;

        global_ld_payload_t global_ld_payload;

        global_st_t mat_global_st;

        global_st_payload_t global_st_payload;

        global_compute_t mat_global_compute;


        //input and output starting point

        int global_ld_start_x;

        int global_ld_start_y;


        if constexpr (mem_layout_in == mem_layout::row_major) {

            global_ld_start_x = args->wg_ld_start_x + tid_x * sg_tile_n;

            global_ld_start_y = args->wg_ld_start_y + tid_y * sg_tile_m;

        } else {

            global_ld_start_x = args->wg_ld_start_x + tid_y * sg_tile_m;

            global_ld_start_y = args->wg_ld_start_y + tid_x * sg_tile_n;

        }


        int global_st_start_x = args->wg_st_start_x + tid_x * sg_tile_n;

        int global_st_start_y = args->wg_st_start_y + tid_y * sg_tile_m;


        if constexpr (mem_layout_in == mem_layout::row_major) {

            global_ld_payload.init(args->mat_in_ptr, args->matrix_n,

                    args->matrix_m, args->matrix_in_ld, global_ld_start_x,

                    global_ld_start_y);

        } else {

            global_ld_payload.init(args->mat_in_ptr, args->matrix_m,

                    args->matrix_n, args->matrix_in_ld, global_ld_start_x,

                    global_ld_start_y);

        }


        global_st_payload.init(args->mat_out_ptr, args->matrix_n,

                args->matrix_m, args->matrix_out_ld, global_st_start_x,

                global_st_start_y);


        subgroup::tile_load(mat_global_ld, global_ld_payload);


        if constexpr (need_fp8_op) {

            subgroup::elemwise_cvt(mat_global_compute, mat_global_ld);


            static constexpr uint32_t simd = 16;

            uint64_t offset = 0;


            xetla_vector<dtype_compute, 1> local_scale

                    = xetla_load_global<dtype_compute, 1,

                            data_size::default_size, cache_hint::cached,

                            cache_hint::cached>(args->scale, offset);


            mat_global_compute.reg

                    = mat_global_compute.reg * (dtype_compute)(local_scale[0]);


            subgroup::elemwise_cvt(mat_global_st, mat_global_compute);


            wg_reduce_t wg_reduce;

            wg_reduce.init(sg_id, 0, 0);


            mat_global_compute.reg = xetla_abs<dtype_compute,

                    global_compute_t::tile_desc::tile_elems>(

                    mat_global_compute.reg);


            xetla_vector<dtype_compute, 1> local_wg_max

                    = wg_reduce(mat_global_compute.reg);


            xetla_mask<simd> pred(0);

            pred[0] = 1;


            xetla_vector<dtype_compute, simd> local_max(local_wg_max[0]);

            xetla_vector<uint32_t, simd> offsets

                    = xetla_vector_gen<uint32_t, simd>(0, 1);


            xetla_tatomic_store_global<dtype_compute, simd,

                    cache_hint::uncached, cache_hint::write_back,

                    atomic_op::fmax>((uint64_t)args->amax_ptr,

                    offsets * sizeof(dtype_compute), local_max, pred);

        } else {

            subgroup::elemwise_cvt(mat_global_st, mat_global_ld);

        }


        subgroup::tile_store<cache_hint::uncached>(

                mat_global_st, global_st_payload);

    }

};


} // namespace gpu::xetla::kernel

__XETLA_API
#define __XETLA_API
Definition common.hpp:43

config.hpp
C++ API.

api.hpp
C++ API.

common.hpp
C++ API.

gpu::xetla::xetla_vector
__ESIMD_NS::simd< native_type_t< Ty >, N > xetla_vector
wrapper for xetla_vector.
Definition base_types.hpp:149

gpu::xetla::xetla_mask
__ESIMD_NS::simd_mask< N > xetla_mask
wrapper for xetla_mask.
Definition base_types.hpp:165

gpu::xetla::xetla_abs
__XETLA_API xetla_vector< T0, SZ > xetla_abs(xetla_vector< T1, SZ > src0)
Get absolute value (vector version)
Definition math_general.hpp:39

gpu::xetla::xetla_load_global
__XETLA_API xetla_vector< Ty, N *NElts > xetla_load_global(Ty *p, xetla_vector< Toffset, N > offsets, xetla_mask< N > pred=1)
Stateless scattered load.
Definition memory.hpp:245

gpu::xetla::xetla_tatomic_store_global
__XETLA_API std::enable_if_t< arch_tag==gpu_arch::Xe, void > xetla_tatomic_store_global(uint64_t base_address, xetla_vector< Toffset, N > offset, xetla_vector< Ty, N > data, xetla_mask< N > pred=1)
Tensor atomic store API.
Definition raw_send_load_store.hpp:294

gpu::xetla::kernel
Definition limitation.hpp:734

gpu::xetla::subgroup::elemwise_cvt
__XETLA_API std::enable_if_t<(T_src::register_layout !=reg_layout::linear) &&(T_dst::register_layout !=reg_layout::linear) &&is_same_layout< T_dst, T_src >::value &&(!is_floating_to_integer< T_dst, T_src >::value)> elemwise_cvt(T_dst &dst, T_src &src)
Is the element wise data conversion, the src and dst tile should have the same layout.
Definition op_function.hpp:40

gpu::xetla::subgroup::tile_load
__XETLA_API std::enable_if_t< detail::check_load_type< tile_t, payload_t >::is_global_2d_xe > tile_load(tile_t &tile, payload_t &payload)
This function loads data from 2D memory surface.
Definition load_xe.hpp:76

gpu::xetla::cache_hint::cached
@ cached

gpu::xetla::cache_hint::write_back
@ write_back

gpu::xetla::cache_hint::uncached
@ uncached

gpu::xetla::data_size::default_size
@ default_size

gpu::xetla::reg_layout
reg_layout
tile layout in register linear: linear layout with one tile tiled: 2d block stacked in raster order v...
Definition common.hpp:209

gpu::xetla::reg_layout::tiled
@ tiled

gpu::xetla::reduce_op::max
@ max

gpu::xetla::atomic_op::fmax
@ fmax
Atomic store the float max of src1 and memory data and return the old value. see

gpu::xetla::gpu_arch
gpu_arch
Definition common.hpp:73

gpu::xetla::gpu_arch::Xe
@ Xe

gpu::xetla::msg_type::block_2d
@ block_2d

gpu::xetla::mem_layout
mem_layout
Definition common.hpp:76

gpu::xetla::mem_layout::col_major
@ col_major

gpu::xetla::mem_layout::row_major
@ row_major

reduction_xe.hpp
C++ API.

gpu::xetla::arch_attr_t
Definition arch_config.hpp:72

gpu::xetla::group::group_reduce_t
This is the group reduction.
Definition reduction_api.hpp:36

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::call
static __XETLA_API void call(sycl::nd_item< 3 > &item, arguments_t *args)
Main execution function for data_transformer.
Definition data_transformer_xe.hpp:170

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::dtype_in
dtype_in_ dtype_in
Definition data_transformer_xe.hpp:43

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::dtype_out
dtype_out_ dtype_out
Definition data_transformer_xe.hpp:44

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::load_store_attr
typename arch_attr_t< gpu_arch::Xe >::template load_store_attr< msg_type::block_2d > load_store_attr
Definition data_transformer_xe.hpp:67

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::data_transformer_attr
data_transformer_attr_ data_transformer_attr
Definition data_transformer_xe.hpp:46

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::dtype_compute
dtype_compute_ dtype_compute
Definition data_transformer_xe.hpp:45

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::matrix_m
uint32_t matrix_m
Definition data_transformer_xe.hpp:138

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::scale
dtype_compute * scale
Definition data_transformer_xe.hpp:143

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::wg_ld_start_x
uint32_t wg_ld_start_x
Definition data_transformer_xe.hpp:144

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::wg_ld_start_y
uint32_t wg_ld_start_y
Definition data_transformer_xe.hpp:145

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::mat_out_ptr
dtype_out * mat_out_ptr
Definition data_transformer_xe.hpp:137

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::matrix_in_ld
uint32_t matrix_in_ld
Definition data_transformer_xe.hpp:140

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::wg_st_start_x
uint32_t wg_st_start_x
Definition data_transformer_xe.hpp:146

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::amax_ptr
dtype_compute * amax_ptr
Definition data_transformer_xe.hpp:142

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::wg_st_start_y
uint32_t wg_st_start_y
Definition data_transformer_xe.hpp:147

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::matrix_n
uint32_t matrix_n
Definition data_transformer_xe.hpp:139

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::mat_in_ptr
dtype_in * mat_in_ptr
Definition data_transformer_xe.hpp:136

gpu::xetla::kernel::xetla_data_transformer< dtype_in_, dtype_out_, dtype_compute_, data_transformer_attr_, mem_layout_in_, need_fp8_op, gpu_arch::Xe >::arguments_t::matrix_out_ld
uint32_t matrix_out_ld
Definition data_transformer_xe.hpp:141

gpu::xetla::kernel::xetla_data_transformer
Is the data_transformer functor.
Definition api.hpp:38

gpu::xetla::mem_desc_t
Definition memory_descriptor.hpp:139

gpu::xetla::subgroup::detail::gcd
Definition common.hpp:80

gpu::xetla::subgroup::mem_payload_t
Is to illustrate the memory information.
Definition api.hpp:44

gpu::xetla::subgroup::tile_desc_t
Is to illustrate the tile information about a sub matrix.
Definition api.hpp:64

gpu::xetla::subgroup::tile_t
Is a struct contains some register file.
Definition api.hpp:99

gpu::xetla::subgroup::tile_t::reg
xetla_vector< dtype, tile_desc::tile_elems > reg
Definition api.hpp:102