xetla/stream__k__op__xe_8hpp_source.html

/*******************************************************************************

* Copyright (c) 2022-2023 Intel Corporation

*

* Licensed under the Apache License, Version 2.0 (the "License");

* you may not use this file except in compliance with the License.

* You may obtain a copy of the License at

*

*     http://www.apache.org/licenses/LICENSE-2.0

*

* Unless required by applicable law or agreed to in writing, software

* distributed under the License is distributed on an "AS IS" BASIS,

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

* See the License for the specific language governing permissions and

* limitations under the License.

*******************************************************************************/


#pragma once


#include "group/epilogue/api.hpp"

#include "group/epilogue/common.hpp"

#include "group/epilogue/epilogue_policy.hpp"


namespace gpu::xetla::group {


template <typename tile_shape_, typename epilogue_t_, typename mem_desc_d_t_,

        typename mem_desc_atomic_sync_t_>

struct epilogue_stream_k_t {


    static constexpr gpu_arch arch_tag = gpu_arch::Xe;

    using epilogue_t = epilogue_t_;

    using mem_desc_d_t = mem_desc_d_t_;

    using mem_desc_c_t = typename epilogue_t::mem_desc_c_t;

    using mem_desc_atomic_sync_t = mem_desc_atomic_sync_t_;

    using tile_shape = tile_shape_;

    using epilogue_args_t = typename epilogue_t::arguments_t;


    using work_group_t = typename tile_shape::work_group_t;

    static constexpr uint32_t wg_tile_m = tile_shape::wg_tile_size_y;

    static constexpr uint32_t wg_tile_n = tile_shape::wg_tile_size_x;

    static constexpr uint32_t sg_tile_m = tile_shape::sg_tile_size_y;

    static constexpr uint32_t sg_tile_n = tile_shape::sg_tile_size_x;

    static constexpr uint32_t wg_size_x = tile_shape::wg_size_x;

    static constexpr uint32_t wg_size_y = tile_shape::wg_size_y;


    //Barrier required to synchronize all threads in workgroup for atomic sync across xecores

    static constexpr uint32_t barrier_count = 1;

    static constexpr uint32_t slm_size

            = mem_desc_c_t::is_local ? wg_tile_m * wg_tile_n : 0;

    static constexpr uint32_t N_SG = wg_size_x * wg_size_y;


    xetla_nbarrier_t<N_SG, N_SG, arch_tag> nbarrier;


    using dtype_d = typename mem_desc_d_t::dtype;

    using dtype_flag = typename mem_desc_atomic_sync_t::dtype;


    //Use special residual op for finishing SK groups to read from scratchspace buffer and reduce in GRF; They also store zeros in scratchspace buffer

    using residual_op_t

            = subgroup::elemwise_reduce_op_stream_k_t<reduce_op::sum, dtype_d>;

    using residual_op_args_t = typename residual_op_t::arguments_t;


    static constexpr mem_layout mem_layout_d = mem_desc_d_t::layout;

    static constexpr mem_space mem_space_d = mem_desc_d_t::space;

    static constexpr msg_type msg_type_d_block2d = msg_type::block_2d;

    static constexpr msg_type msg_type_d_atomic = msg_type::atomic_add;


    __XETLA_API static void update_sg_tile_tdesc(

            work_group_t &g, mem_desc_d_t &mem_desc_d) {

        int32_t sg_idx = g.get_id() % wg_size_x;

        int32_t sg_idy = g.get_id() / wg_size_x;

        int32_t tile_offset_n = sg_idx * sg_tile_n;

        int32_t tile_offset_m = sg_idy * sg_tile_m;

        mem_desc_d.update_coord(tile_offset_n, tile_offset_m);

    }


    template <typename matAcc_t>

    __XETLA_API KERNEL_FUNC void operator()(work_group_t &g, matAcc_t &matAcc,

            mem_desc_c_t mem_desc_c, mem_desc_d_t mem_desc_d,

            mem_desc_atomic_sync_t mem_desc_atomic_sync, int group_idx,

            int first_group_idx, bool tile_finished, bool tile_started,

            epilogue_args_t epilogue_args, uint32_t slm_base = 0,

            uint32_t nbarrier_base = 0) {


        static constexpr uint32_t tile_size_x = matAcc_t::tile_size_x;

        static constexpr uint32_t tile_size_y = matAcc_t::tile_size_y;

        static constexpr uint32_t block_size_x = matAcc_t::block_size_x;

        static constexpr uint32_t block_size_y = matAcc_t::block_size_y;


        using matD_tile_desc_t = subgroup::tile_desc_t<tile_size_x, tile_size_y,

                block_size_x, block_size_y, reg_layout::tiled>;


        using matD_atomic_payload_t = subgroup::mem_payload_t<mem_desc_d_t,

                matD_tile_desc_t, msg_type_d_atomic, arch_tag>;


        uint32_t nbarrier_id = nbarrier_base;

        nbarrier.init_nbarrier(nbarrier_id, nbarrier_role::producer_consumer);


        update_sg_tile_tdesc(g, mem_desc_d);


        //Addressing for atomic signal

        xetla_mask<16> pred(0);

        pred[0] = 1;

        xetla_vector<uint32_t, 16> flag_offsets

                = xetla_vector_gen<uint32_t, 16>(0, 1);

        flag_offsets

                += first_group_idx; // first_group_idx indicates the first peer of the sliced tile

        flag_offsets = flag_offsets * sizeof(dtype_flag);

        int32_t sg_id = g.get_id();

        dtype_flag *flag_pointer = mem_desc_atomic_sync.base.base;


        //SK group , Sliced Tile - SK group handles starting slice or middle slice

        if (!tile_finished) {


            //Perform atomic writes and signal to atomic counter

            matD_atomic_payload_t matD_atomic_payload(mem_desc_d);

            //Atomic store with OOB check

            subgroup::tile_store(matAcc, matD_atomic_payload);


            //Fence to guarantee write completion

            xetla_fence<memory_kind::untyped_global, fence_op::evict,

                    fence_scope::tile>();


            //Group sync to make sure fence is sent

            nbarrier.arrive();

            nbarrier.wait();


            //Signal to other peers

            if (sg_id == 0) {

                xetla_vector<dtype_flag, 16> signal_val(1);

                xetla_tatomic_store_global<dtype_flag, 16, cache_hint::uncached,

                        cache_hint::write_back, atomic_op::iadd>(

                        (uint64_t)flag_pointer, flag_offsets, signal_val, pred);

            }


        } else {


            //last SK group of corresponding sliced tile

            if (!tile_started) {


                //Number of previous peers that have contributed to this sliced tile

                uint32_t num_peers = group_idx - first_group_idx;


                //Group sync

                nbarrier.arrive();

                nbarrier.wait();


                if (sg_id == 0) {


                    xetla_vector<dtype_flag, 16> ret_val(0);

                    xetla_vector<dtype_flag, 16> old_val = num_peers;

                    xetla_vector<dtype_flag, 16> zero_val(0);


                    //Use atomic cmpxchg to test if previous peers have finished writing

                    //Exchange with value zero to clear the flag

                    while (ret_val[0] != num_peers) {


                        ret_val = xetla_atomic_global<atomic_op::cmpxchg,

                                dtype_flag, 16, data_size::default_size,

                                cache_hint::uncached, cache_hint::write_back>(

                                flag_pointer, flag_offsets, old_val, zero_val,

                                pred);

                    }

                }

                //Group sync

                nbarrier.arrive();

                nbarrier.wait();


                //Invoke stream_k residual op

                residual_op_t residual_op;

                residual_op_args_t residual_args(

                        mem_desc_d.base, mem_desc_d.shape);


                residual_op(matAcc, mem_desc_d.coord, residual_args);

            }


            //Finishing SK groups and DP Groups perform normal epilogue operations - post_op fusion + output conversion and write to output buffer

            epilogue_t epilogue;

            epilogue(g, matAcc, mem_desc_c, epilogue_args, slm_base,

                    nbarrier_base);

        }

    }

};


} // namespace gpu::xetla::group

__XETLA_API
#define __XETLA_API
Definition common.hpp:43

epilogue_policy.hpp
C++ API.

api.hpp
C++ API.

common.hpp
C++ API.

gpu::xetla::xetla_vector
__ESIMD_NS::simd< native_type_t< Ty >, N > xetla_vector
wrapper for xetla_vector.
Definition base_types.hpp:149

gpu::xetla::xetla_mask
__ESIMD_NS::simd_mask< N > xetla_mask
wrapper for xetla_mask.
Definition base_types.hpp:165

gpu::xetla::xetla_fence
__XETLA_API void xetla_fence(xetla_mask< N > pred=1)
Memory fence.
Definition memory.hpp:638

gpu::xetla::xetla_atomic_global
__XETLA_API xetla_vector< T, N > xetla_atomic_global(T *p, xetla_vector< uint32_t, N > offsets, xetla_mask< N > pred)
Stateless scattered atomic (0 src).
Definition memory.hpp:371

KERNEL_FUNC
#define KERNEL_FUNC
KERNEL_FUNC macro.
Definition common.hpp:39

gpu::xetla::nbarrier_role::producer_consumer
@ producer_consumer

gpu::xetla::xetla_tatomic_store_global
__XETLA_API std::enable_if_t< arch_tag==gpu_arch::Xe, void > xetla_tatomic_store_global(uint64_t base_address, xetla_vector< Toffset, N > offset, xetla_vector< Ty, N > data, xetla_mask< N > pred=1)
Tensor atomic store API.
Definition raw_send_load_store.hpp:294

gpu::xetla::group
Definition limitation.hpp:607

gpu::xetla::subgroup::tile_store
__XETLA_API std::enable_if_t< detail::check_store_type< tile_t, payload_t >::is_global_2d_xe > tile_store(tile_t &tile, payload_t &payload)
Is the func storing data from register file to global memory.
Definition store_xe.hpp:91

gpu::xetla::cache_hint::write_back
@ write_back

gpu::xetla::cache_hint::uncached
@ uncached

gpu::xetla::data_size::default_size
@ default_size

gpu::xetla::fence_op::evict
@ evict
no operation

gpu::xetla::reg_layout::tiled
@ tiled

gpu::xetla::fence_scope::tile
@ tile
flush out to the local scope

gpu::xetla::memory_kind::untyped_global
@ untyped_global

gpu::xetla::mem_space
mem_space
Definition common.hpp:77

gpu::xetla::atomic_op::iadd
@ iadd
Atomic signed int add of src1 from memory data and return the old value. see

gpu::xetla::atomic_op::cmpxchg
@ cmpxchg
Atomic bit-compare src1_X and memory data and replace if equal with src1_Y. Returns the old value....

gpu::xetla::gpu_arch
gpu_arch
Definition common.hpp:73

gpu::xetla::gpu_arch::Xe
@ Xe

gpu::xetla::msg_type
msg_type
Definition common.hpp:78

gpu::xetla::msg_type::atomic_add
@ atomic_add

gpu::xetla::msg_type::block_2d
@ block_2d

gpu::xetla::mem_layout
mem_layout
Definition common.hpp:76

gpu::xetla::group::epilogue_stream_k_t
Is the epilogue functor specialized for stream_k.
Definition stream_k_op_xe.hpp:34

gpu::xetla::group::epilogue_stream_k_t::nbarrier
xetla_nbarrier_t< N_SG, N_SG, arch_tag > nbarrier
Definition stream_k_op_xe.hpp:58

gpu::xetla::group::epilogue_stream_k_t::slm_size
static constexpr uint32_t slm_size
Definition stream_k_op_xe.hpp:55

gpu::xetla::group::epilogue_stream_k_t::update_sg_tile_tdesc
static __XETLA_API void update_sg_tile_tdesc(work_group_t &g, mem_desc_d_t &mem_desc_d)
Updates tile base descriptor based on the tid.
Definition stream_k_op_xe.hpp:74

gpu::xetla::group::epilogue_stream_k_t::wg_tile_m
static constexpr uint32_t wg_tile_m
Definition stream_k_op_xe.hpp:45

gpu::xetla::group::epilogue_stream_k_t::wg_size_x
static constexpr uint32_t wg_size_x
Definition stream_k_op_xe.hpp:49

gpu::xetla::group::epilogue_stream_k_t::dtype_flag
typename mem_desc_atomic_sync_t::dtype dtype_flag
Definition stream_k_op_xe.hpp:61

gpu::xetla::group::epilogue_stream_k_t::sg_tile_m
static constexpr uint32_t sg_tile_m
Definition stream_k_op_xe.hpp:47

gpu::xetla::group::epilogue_stream_k_t::mem_layout_d
static constexpr mem_layout mem_layout_d
Definition stream_k_op_xe.hpp:68

gpu::xetla::group::epilogue_stream_k_t::epilogue_args_t
typename epilogue_t::arguments_t epilogue_args_t
Definition stream_k_op_xe.hpp:42

gpu::xetla::group::epilogue_stream_k_t::msg_type_d_block2d
static constexpr msg_type msg_type_d_block2d
Definition stream_k_op_xe.hpp:70

gpu::xetla::group::epilogue_stream_k_t::mem_desc_atomic_sync_t
mem_desc_atomic_sync_t_ mem_desc_atomic_sync_t
Definition stream_k_op_xe.hpp:40

gpu::xetla::group::epilogue_stream_k_t::operator()
__XETLA_API KERNEL_FUNC void operator()(work_group_t &g, matAcc_t &matAcc, mem_desc_c_t mem_desc_c, mem_desc_d_t mem_desc_d, mem_desc_atomic_sync_t mem_desc_atomic_sync, int group_idx, int first_group_idx, bool tile_finished, bool tile_started, epilogue_args_t epilogue_args, uint32_t slm_base=0, uint32_t nbarrier_base=0)
Epilogue for stream_k.
Definition stream_k_op_xe.hpp:94

gpu::xetla::group::epilogue_stream_k_t::N_SG
static constexpr uint32_t N_SG
Definition stream_k_op_xe.hpp:56

gpu::xetla::group::epilogue_stream_k_t::mem_space_d
static constexpr mem_space mem_space_d
Definition stream_k_op_xe.hpp:69

gpu::xetla::group::epilogue_stream_k_t::mem_desc_d_t
mem_desc_d_t_ mem_desc_d_t
Definition stream_k_op_xe.hpp:38

gpu::xetla::group::epilogue_stream_k_t::sg_tile_n
static constexpr uint32_t sg_tile_n
Definition stream_k_op_xe.hpp:48

gpu::xetla::group::epilogue_stream_k_t::tile_shape
tile_shape_ tile_shape
Definition stream_k_op_xe.hpp:41

gpu::xetla::group::epilogue_stream_k_t::wg_tile_n
static constexpr uint32_t wg_tile_n
Definition stream_k_op_xe.hpp:46

gpu::xetla::group::epilogue_stream_k_t::work_group_t
typename tile_shape::work_group_t work_group_t
Definition stream_k_op_xe.hpp:44

gpu::xetla::group::epilogue_stream_k_t::arch_tag
static constexpr gpu_arch arch_tag
Definition stream_k_op_xe.hpp:36

gpu::xetla::group::epilogue_stream_k_t::mem_desc_c_t
typename epilogue_t::mem_desc_c_t mem_desc_c_t
Definition stream_k_op_xe.hpp:39

gpu::xetla::group::epilogue_stream_k_t::msg_type_d_atomic
static constexpr msg_type msg_type_d_atomic
Definition stream_k_op_xe.hpp:71

gpu::xetla::group::epilogue_stream_k_t::dtype_d
typename mem_desc_d_t::dtype dtype_d
Definition stream_k_op_xe.hpp:60

gpu::xetla::group::epilogue_stream_k_t::barrier_count
static constexpr uint32_t barrier_count
Definition stream_k_op_xe.hpp:53

gpu::xetla::group::epilogue_stream_k_t::wg_size_y
static constexpr uint32_t wg_size_y
Definition stream_k_op_xe.hpp:50

gpu::xetla::group::epilogue_stream_k_t::residual_op_args_t
typename residual_op_t::arguments_t residual_op_args_t
Definition stream_k_op_xe.hpp:66

gpu::xetla::group::epilogue_stream_k_t::epilogue_t
epilogue_t_ epilogue_t
Definition stream_k_op_xe.hpp:37

gpu::xetla::subgroup::elemwise_reduce_op_stream_k_t
Is the element-wise reduce op functor, specialized for stream_k dispatch Load partial sum from scratc...
Definition tile_op_functor.hpp:826

gpu::xetla::subgroup::mem_payload_t
Is to illustrate the memory information.
Definition api.hpp:44

gpu::xetla::subgroup::tile_desc_t
Is to illustrate the tile information about a sub matrix.
Definition api.hpp:64

gpu::xetla::xetla_nbarrier_t
xetla nbarrier definition API.
Definition raw_send_nbarrier.hpp:43

gpu::xetla::xetla_nbarrier_t::arrive
__XETLA_API void arrive()
named barrier signal from subgroup.
Definition raw_send_nbarrier.hpp:65

gpu::xetla::xetla_nbarrier_t::init_nbarrier
__XETLA_API void init_nbarrier(uint8_t nbarrier_id, nbarrier_role role=nbarrier_role::producer_consumer)
Definition raw_send_nbarrier.hpp:55

gpu::xetla::xetla_nbarrier_t::wait
__XETLA_API void wait()
named barrier wait within subgroup.
Definition raw_send_nbarrier.hpp:76