xetla/load__xe_8hpp_source.html

/*******************************************************************************

* Copyright (c) 2022-2023 Intel Corporation

*

* Licensed under the Apache License, Version 2.0 (the "License");

* you may not use this file except in compliance with the License.

* You may obtain a copy of the License at

*

*     http://www.apache.org/licenses/LICENSE-2.0

*

* Unless required by applicable law or agreed to in writing, software

* distributed under the License is distributed on an "AS IS" BASIS,

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

* See the License for the specific language governing permissions and

* limitations under the License.

*******************************************************************************/


#pragma once


#include "subgroup/tile/api.hpp"

#include "subgroup/tile/impl/op_function.hpp"

#include "subgroup/tile/impl/payload_xe.hpp"


namespace gpu::xetla::subgroup {


namespace detail {

template <typename tile_t, typename payload_t>

struct check_load_type {

    static constexpr bool is_global_2d_xe

            = (payload_t::memory_space == mem_space::global

                    && (payload_t::message_type == msg_type::block_2d)

                    && (payload_t::arch_tag == gpu_arch::Xe));


    static constexpr bool is_global_block_1d_xe

            = ((payload_t::memory_space == mem_space::global)

                    && (tile_t::tile_size_y == 1) && (tile_t::block_size_y == 1)

                    && (payload_t::message_type == msg_type::block_1d)

                    && (payload_t::arch_tag == gpu_arch::Xe));


    static constexpr bool is_global_unaligned_2d_xe

            = ((payload_t::memory_space == mem_space::global)

                    && (payload_t::message_type == msg_type::unaligned_2d)

                    && (payload_t::arch_tag == gpu_arch::Xe));


    static constexpr bool is_local_scatter_xe

            = ((payload_t::memory_space == mem_space::local)

                    && (payload_t::message_type == msg_type::scatter)

                    && (payload_t::arch_tag == gpu_arch::Xe));


    static constexpr bool is_local_block_1d_xe

            = ((payload_t::memory_space == mem_space::local)

                    && (payload_t::message_type == msg_type::block_1d)

                    && (payload_t::arch_tag == gpu_arch::Xe));

};


} // namespace detail


template <cache_hint L1 = cache_hint::cached,

        cache_hint L2 = cache_hint::cached, typename tile_t, typename payload_t>

__XETLA_API typename std::enable_if_t<

        detail::check_load_type<tile_t, payload_t>::is_global_2d_xe>

tile_load(tile_t &tile, payload_t &payload) {

    using dtype = typename tile_t::dtype;

    using load_dtype = typename payload_t::mem_dtype;

    using tile_desc = typename tile_t::tile_desc;


    static constexpr uint32_t tile_size_x = tile_desc::tile_size_x;

    static constexpr uint32_t tile_size_y = tile_desc::tile_size_y;

    static constexpr uint32_t block_size_x = tile_desc::block_size_x;

    static constexpr uint32_t block_size_y = tile_desc::block_size_y;

    static constexpr uint32_t remained_size_y = tile_desc::remained_size_y;


    static constexpr uint32_t block_elems = tile_desc::block_elems;


    static constexpr uint32_t num_block_x = tile_desc::num_block_x;

    static constexpr uint32_t num_block_y = tile_desc::num_block_y;

    static constexpr uint32_t num_block = tile_desc::num_block;


    static constexpr gpu_arch arch_tag = payload_t::arch_tag;


    static constexpr reg_layout reg_layout_ = tile_desc::register_layout;

    static constexpr bool is_vnni_reverse = payload_t::mem_dword_transpose

            && ((reg_layout_ == reg_layout::tiled)

                    || (reg_layout_ == reg_layout::transpose_tiled));

    static constexpr bool reg_transpose = tile_desc::reg_transpose;


    static constexpr bool mem_transpose = payload_t::mem_transpose;

    static constexpr bool trans = reg_transpose ^ mem_transpose;

    static constexpr uint32_t scale_factor = payload_t::scale_factor;


    static constexpr bool mem_transform = payload_t::mem_transform;


    using load_store_attr = typename arch_attr_t<

            arch_tag>::template load_store_attr<msg_type::block_2d>;

    static constexpr uint32_t elems_per_CL

            = load_store_attr::cache_line_size_in_bytes / sizeof(dtype);

    static constexpr uint32_t elems_per_reg

            = arch_attr_t<arch_tag>::template register_attr<>::reg_in_bytes

            / sizeof(dtype);

    static constexpr int32_t max_load_block_height

            = load_store_attr::max_load_height_in_elem;

    static constexpr int32_t max_block_width

            = load_store_attr::max_load_width_in_bytes / sizeof(dtype);

    static constexpr int32_t max_trans_block_width

            = load_store_attr::max_trans_load_width_in_bytes / sizeof(dtype);


    static constexpr uint32_t ld_blk_size_y_limit

            = mem_transpose ? max_trans_block_width : max_load_block_height;

    static constexpr uint32_t ld_blk_size_y = reg_transpose

            ? block_size_y

            : (block_size_y > ld_blk_size_y_limit ? ld_blk_size_y_limit

                                                  : block_size_y);


    // array len is used to make sure memory load is cache line aligned

    // disabled while register or memory transpose

    static constexpr uint8_t arr_len_candidate

            = (reg_transpose

                      || mem_transpose

                      // block elements should be integer

                      // times of register bytes

                      || ((block_size_y * block_size_x) % elems_per_reg != 0)

                      // tail blocks also need to meet above condition

                      || (((tile_size_y % block_size_y) * block_size_x)

                                      % elems_per_reg

                              != 0))

                    || (block_size_y > ld_blk_size_y_limit)

            ? 1

            : (((tile_size_x % elems_per_CL) == 0)

                            ? (((elems_per_CL % block_size_x) == 0)

                                            ? elems_per_CL / block_size_x

                                            : 1)

                            : ((tile_size_x < elems_per_CL)

                                            ? (tile_size_x / block_size_x)

                                            : 1));

    static constexpr bool is_valid_arr_len_candidate = (arr_len_candidate == 1)

            || (arr_len_candidate == 2) || (arr_len_candidate == 4);


    static constexpr uint8_t arr_len

            = is_valid_arr_len_candidate ? arr_len_candidate : 1;


    static_assert(reg_transpose || mem_transpose

                    || (!mem_transpose

                            && (block_size_x * arr_len) <= max_block_width),

            "When reg_transpose was disabled, check 2d block width "

            "restriction");

    static_assert(!reg_transpose

                    || (!mem_transpose

                            && (block_size_x * arr_len)

                                    <= max_trans_block_width)

                    || (mem_transpose

                            && (block_size_y * arr_len) <= max_block_width),

            "When reg_transpose was enabled, check 2d block width "

            "restriction");

    static_assert(!reg_transpose

                    || (!mem_transpose

                            && (block_size_y <= max_load_block_height))

                    || (mem_transpose

                            && (block_size_x) <= max_load_block_height),

            "When reg_transpose was enabled, check 2d block height "

            "restriction");

    static_assert(tile_size_x % (block_size_x * arr_len) == 0,

            "tile_size_x should be a multiple of (block_size_x * arr_len)");

    static_assert(

            (reg_transpose

                    && ((block_size_x * sizeof(dtype)) % sizeof(load_dtype)

                            == 0))

                    || ((block_size_y * sizeof(dtype)) % sizeof(load_dtype)

                            == 0),

            "check vnni limitation for DW transpose");


    auto payload_2d = payload.payloads.xetla_format<uint32_t, num_block, 16>();

#pragma unroll

    for (uint32_t i = 0; i < num_block_y; ++i) {

        constexpr uint32_t load_block_elems = block_elems * arr_len;

        auto payload_row = payload_2d.xetla_select<num_block_x, 1, 16, 1>(

                i * num_block_x, 0);

        detail::reset_tile_desc_core<num_block_x, block_size_x, ld_blk_size_y,

                scale_factor, arr_len, mem_transpose>(payload_row);

#pragma unroll

        for (uint32_t j = 0; j < num_block_x; j += arr_len) {

            xetla_tdescriptor tdesc = payload_row.row(j);

            auto reg_blk = tile.reg.xetla_select<load_block_elems, 1>(

                    (i * num_block_x + j) * block_elems);

            constexpr uint32_t ld_blk_height = (reg_transpose && trans)

                    ? detail::getNextPowerOf2<ld_blk_size_y>()

                    : ld_blk_size_y;

            constexpr uint32_t tmp_size

                    = ld_blk_height * block_size_x * arr_len;

            xetla_vector<dtype, tmp_size> reg_tmp;

#pragma unroll

            for (uint32_t ii = 0; ii < block_size_y / ld_blk_size_y; ++ii) {

                constexpr uint32_t load_elems

                        = ld_blk_size_y * block_size_x * arr_len;


                reg_tmp.xetla_format<native_type_t<load_dtype>>()

                        = xetla_tload_global<load_dtype,

                                ld_blk_height * block_size_x * arr_len

                                        / scale_factor,

                                L1, L2, trans, mem_transform, arch_tag>(tdesc);


                if constexpr (reg_transpose && trans) {

                    reg_blk.xetla_select<load_elems, 1>(ii * load_elems)

                            .xetla_format<native_type_t<load_dtype>>()

                            = reg_tmp.xetla_format<load_dtype,

                                             block_size_x / scale_factor,

                                             ld_blk_height>()

                                      .xetla_select<block_size_x / scale_factor,

                                              1, ld_blk_size_y, 1>(0, 0);

                } else {

                    reg_blk.xetla_select<tmp_size, 1>(ii * tmp_size) = reg_tmp;

                }


                if constexpr (mem_transpose) {

                    xetla_update_tdesc_offsetx(tdesc.xetla_format<uint32_t>(),

                            ld_blk_size_y / scale_factor);

                } else {

                    xetla_update_tdesc_offsety(

                            tdesc.xetla_format<uint32_t>(), ld_blk_size_y);

                }

            }

            // exceed HW limitation

            if constexpr (block_size_y % ld_blk_size_y != 0) {

                constexpr uint32_t remained_start_y

                        = block_size_y / ld_blk_size_y * ld_blk_size_y;

                constexpr uint32_t remained_start

                        = remained_start_y * block_size_x * arr_len;

                constexpr uint32_t remained_blk_size_y

                        = block_size_y % ld_blk_size_y;

                constexpr uint32_t load_elems

                        = remained_blk_size_y * block_size_x * arr_len;


                constexpr uint8_t block_width = mem_transpose

                        ? (remained_blk_size_y / scale_factor)

                        : block_size_x;

                constexpr uint8_t block_height

                        = trans ? block_size_x : remained_blk_size_y;

                constexpr uint32_t block_widthx_widthy_arrlen

                        = (block_width - 1) | ((block_height - 1) << 8);

                gpu::xetla::detail::xetla_set_block_widthx_widthy_arrlen(

                        tdesc.xetla_format<uint32_t>(),

                        block_widthx_widthy_arrlen);


                reg_blk.xetla_select<load_elems, 1>(remained_start)

                        .xetla_format<native_type_t<load_dtype>>()

                        = xetla_tload_global<load_dtype,

                                (load_elems / scale_factor), L1, L2, trans,

                                mem_transform, arch_tag>(tdesc);

            }

        }

    }

    // process tail

    if constexpr (remained_size_y > 0) {

        constexpr uint32_t remained_block_elems

                = block_size_x * remained_size_y;

        constexpr uint32_t processed_elems

                = num_block_y * num_block_x * block_elems;

        constexpr uint32_t remained_ld_blk_size_y

                = (!reg_transpose && (remained_size_y > ld_blk_size_y_limit))

                ? ld_blk_size_y_limit

                : remained_size_y;

        auto payload_row = payload_2d.xetla_select<num_block_x, 1, 16, 1>(

                num_block_y * num_block_x, 0);

        detail::reset_tile_desc_core<num_block_x, block_size_x,

                remained_ld_blk_size_y, scale_factor, arr_len, mem_transpose>(

                payload_row);

#pragma unroll

        for (uint32_t j = 0; j < num_block_x; j += arr_len) {

            xetla_tdescriptor tdesc = payload_row.row(j);

            auto reg_blk

                    = tile.reg.xetla_select<remained_block_elems * arr_len, 1>(

                            processed_elems + j * remained_block_elems);

            constexpr uint32_t ld_blk_height = (reg_transpose && trans)

                    ? detail::getNextPowerOf2<remained_ld_blk_size_y>()

                    : remained_ld_blk_size_y;

            constexpr uint32_t tmp_size

                    = ld_blk_height * block_size_x * arr_len;

            xetla_vector<dtype, tmp_size> reg_tmp;

#pragma unroll

            for (uint32_t ii = 0; ii < remained_size_y / remained_ld_blk_size_y;

                    ++ii) {

                constexpr uint32_t load_elems

                        = remained_ld_blk_size_y * block_size_x * arr_len;


                reg_tmp.xetla_format<native_type_t<load_dtype>>()

                        = xetla_tload_global<load_dtype,

                                (ld_blk_height * block_size_x * arr_len

                                        / scale_factor),

                                L1, L2, trans, mem_transform, arch_tag>(tdesc);


                if constexpr (reg_transpose && trans) {

                    reg_blk.xetla_select<load_elems, 1>(ii * load_elems)

                            .xetla_format<native_type_t<load_dtype>>()

                            = reg_tmp.xetla_format<load_dtype,

                                             block_size_x / scale_factor,

                                             ld_blk_height>()

                                      .xetla_select<block_size_x / scale_factor,

                                              1, remained_ld_blk_size_y, 1>(

                                              0, 0);

                } else {

                    reg_blk.xetla_select<tmp_size, 1>(ii * tmp_size) = reg_tmp;

                }

                if constexpr (mem_transpose) {

                    xetla_update_tdesc_offsetx(tdesc.xetla_format<uint32_t>(),

                            remained_ld_blk_size_y / scale_factor);

                } else {

                    xetla_update_tdesc_offsety(tdesc.xetla_format<uint32_t>(),

                            remained_ld_blk_size_y);

                }

            }

            constexpr uint32_t final_ld_blk_size_y

                    = remained_size_y % remained_ld_blk_size_y;

            if constexpr (final_ld_blk_size_y != 0) {

                constexpr uint32_t final_start = remained_size_y

                        / remained_ld_blk_size_y * remained_ld_blk_size_y

                        * block_size_x * arr_len;

                constexpr uint32_t final_load_elems

                        = final_ld_blk_size_y * block_size_x * arr_len;

                constexpr uint8_t block_width = mem_transpose

                        ? (final_ld_blk_size_y / scale_factor)

                        : block_size_x;

                constexpr uint8_t block_height

                        = trans ? block_size_x : final_ld_blk_size_y;

                constexpr uint32_t block_widthx_widthy_arrlen

                        = (block_width - 1) | ((block_height - 1) << 8);

                gpu::xetla::detail::xetla_set_block_widthx_widthy_arrlen(

                        tdesc.xetla_format<uint32_t>(),

                        block_widthx_widthy_arrlen);

                reg_blk.xetla_select<final_load_elems, 1>(final_start)

                        .xetla_format<native_type_t<load_dtype>>()

                        = xetla_tload_global<load_dtype,

                                final_load_elems / scale_factor, L1, L2, trans,

                                mem_transform, arch_tag>(tdesc);

            }

        }

    }


    if constexpr (is_vnni_reverse) {

        SW_BARRIER();

        vnni_reverse(tile);

    }

}


template <cache_hint L1 = cache_hint::cached,

        cache_hint L2 = cache_hint::cached, typename tile_t, typename payload_t>

__XETLA_API typename std::enable_if_t<

        detail::check_load_type<tile_t, payload_t>::is_global_block_1d_xe>

tile_load(tile_t &tile, payload_t &payload) {

    using dtype = typename tile_t::dtype;

    using load_dtype = typename payload_t::mem_dtype;


    static constexpr uint32_t tile_size_x = tile_t::tile_size_x;

    static constexpr uint32_t scale_factor = payload_t::scale_factor;

    constexpr uint32_t load_len = tile_size_x / scale_factor;


    if constexpr (load_len >= 64) {

#pragma unroll

        for (uint32_t i = 0; i < load_len / 64; i++) {

            uint32_t offset_x = i * 64 * scale_factor;

            auto reg_sub

                    = tile.reg.xetla_select<64 * scale_factor, 1>(offset_x);

            uint32_t address_offset = offset_x * sizeof(dtype);

            reg_sub.xetla_format<load_dtype>() = xetla_load_global<load_dtype,

                    64, data_size::default_size, L1, L2>(

                    payload.base_ptr, payload.base_offset + address_offset);

        }

    }

    constexpr uint32_t tail_len = load_len % 64;

    uint32_t tail_offset = load_len / 64 * 64 * scale_factor;

    detail::process_1d_tail<tail_len, 32, detail::process_flag::load, L1, L2>(

            tile, payload, tail_offset);

}


template <cache_hint L1 = cache_hint::cached,

        cache_hint L3 = cache_hint::cached, typename tile_t, typename payload_t,

        typename oob_check_tag = global_atomic_oob_check_on_tag>

__XETLA_API typename std::enable_if_t<

        detail::check_load_type<tile_t, payload_t>::is_global_unaligned_2d_xe>

tile_load(tile_t &tile, payload_t &payload,

        [[maybe_unused]] oob_check_tag tag = {}) {

    constexpr bool oob_check = std::is_same<oob_check_tag,

            global_atomic_oob_check_on_tag>::value;

    using dtype = typename payload_t::dtype;

    using tile_desc = typename payload_t::tile_desc;

    using load_dtype = typename payload_t::mem_dtype;

    constexpr uint32_t num_channel_y = payload_t::num_channel_y;

    constexpr uint32_t load_elems = num_channel_y * payload_t::num_channel_x;

    constexpr uint32_t scale_factor = payload_t::scale_factor;


#pragma unroll

    for (uint32_t i = 0; i < tile_desc::tile_size_y / tile_desc::block_size_y;

            i++) {

        uint32_t offset_y = i * tile_desc::block_size_y;

#pragma unroll

        for (uint32_t j = 0; j < tile_desc::num_block_x; j++) {

            uint32_t offset_x = j * tile_desc::block_size_x;

            auto reg_sub = tile.reg.xetla_select<tile_desc::block_elems, 1>(

                    (i * tile_desc::num_block_x + j) * tile_desc::block_elems);

            xetla_mask<load_elems> pred_x = oob_check

                    ? payload.step_x + payload.base_x + offset_x

                            < payload.width_in_elems

                    : 1;

#pragma unroll

            for (uint32_t sub_block_y = 0;

                    sub_block_y < tile_desc::block_size_y;

                    sub_block_y += num_channel_y) {

                xetla_vector<load_dtype, load_elems> reg_tmp;

                xetla_mask<load_elems> pred_y = oob_check

                        ? payload.step_y + payload.base_y + offset_y

                                        + sub_block_y

                                < payload.height_in_elems

                        : 1;


                uint32_t address_offset = payload_t::trans

                        ? offset_x * payload.pitch_in_bytes

                                + (offset_y + sub_block_y) * sizeof(dtype)

                        : offset_x * sizeof(dtype)

                                + (offset_y + sub_block_y)

                                        * payload.pitch_in_bytes;


                reg_tmp = xetla_load_global<load_dtype, 1,

                        data_size::default_size, L1, L3, load_elems>(

                        payload.base_ptr,

                        payload.channel_offset + payload.base_offset

                                + address_offset,

                        pred_x && pred_y);

                reg_tmp.xetla_merge(reg_tmp, 0, pred_x && pred_y);


                reg_sub.xetla_select<load_elems * scale_factor, 1>(

                               sub_block_y * tile_desc::block_size_x)

                        .xetla_format<load_dtype>()

                        = reg_tmp;

            }

        }

    }

    //process the tail

    if constexpr ((tile_desc::tile_size_y % tile_desc::block_size_y) != 0) {

        constexpr uint32_t remained_size_y = tile_desc::remained_size_y;

        constexpr uint32_t offset_y = tile_desc::tile_size_y - remained_size_y;

        constexpr uint32_t processed_elems = offset_y * tile_desc::tile_size_x;

        constexpr uint32_t remain_block_elems

                = remained_size_y * tile_desc::block_size_x;

#pragma unroll

        for (uint32_t j = 0; j < tile_desc::num_block_x; j++) {

            uint32_t offset_x = j * tile_desc::block_size_x;

            auto reg_sub = tile.reg.xetla_select<remain_block_elems, 1>(

                    processed_elems + j * remain_block_elems);

            xetla_mask<load_elems> pred_x = oob_check

                    ? payload.step_x + payload.base_x + offset_x

                            < payload.width_in_elems

                    : 1;

#pragma unroll

            for (uint32_t sub_block_y = 0; sub_block_y < remained_size_y;

                    sub_block_y += num_channel_y) {

                xetla_vector<load_dtype, load_elems> reg_tmp;

                xetla_mask<load_elems> pred_y = oob_check

                        ? payload.step_y + payload.base_y + offset_y

                                        + sub_block_y

                                < payload.height_in_elems

                        : 1;


                uint32_t address_offset = payload_t::trans

                        ? offset_x * payload.pitch_in_bytes

                                + (offset_y + sub_block_y) * sizeof(dtype)

                        : offset_x * sizeof(dtype)

                                + (offset_y + sub_block_y)

                                        * payload.pitch_in_bytes;


                reg_tmp = xetla_load_global<load_dtype, 1,

                        data_size::default_size, L1, L3, load_elems>(

                        payload.base_ptr,

                        payload.channel_offset + payload.base_offset

                                + address_offset,

                        pred_x && pred_y);


                reg_tmp.xetla_merge(reg_tmp, 0, pred_x && pred_y);


                reg_sub.xetla_select<load_elems * scale_factor, 1>(

                               sub_block_y * tile_desc::block_size_x)

                        .xetla_format<load_dtype>()

                        = reg_tmp;

            }

        }

    }


    if constexpr (payload_t::mem_transform) {

        SW_BARRIER();

        vnni_convert(tile);

    }

}


template <cache_hint L1 = cache_hint::cached,

        cache_hint L2 = cache_hint::cached, typename tile_t, typename payload_t>

__XETLA_API typename std::enable_if_t<

        detail::check_load_type<tile_t, payload_t>::is_local_scatter_xe>

tile_load(tile_t &tile, payload_t &payload) {

    using dtype = typename payload_t::dtype;

    using tile_desc = typename payload_t::tile_desc;

    using load_dtype = typename payload_t::mem_dtype;


    constexpr uint32_t num_channel_y = payload_t::num_channel_y;

    constexpr uint32_t load_elems = num_channel_y * tile_desc::block_size_x;

    static constexpr bool mem_transform = payload_t::mem_transform;


#pragma unroll

    for (uint32_t i = 0; i < tile_desc::tile_size_y / tile_desc::block_size_y;

            i++) {

        uint32_t offset_y = i * tile_desc::block_size_y;

#pragma unroll

        for (uint32_t j = 0; j < tile_desc::num_block_x; j++) {

            uint32_t offset_x = j * tile_desc::block_size_x;

            auto reg_sub = tile.reg.xetla_select<tile_desc::block_elems, 1>(

                    (i * tile_desc::num_block_x + j) * tile_desc::block_elems);

#pragma unroll

            for (uint32_t sub_block_y = 0;

                    sub_block_y < tile_desc::block_size_y;

                    sub_block_y += num_channel_y) {

                uint32_t address_offset = offset_x * sizeof(dtype)

                        + (sub_block_y + offset_y) * payload.pitch_in_bytes;

                reg_sub.xetla_select<load_elems, 1>(

                               sub_block_y * tile_desc::block_size_x)

                        .xetla_format<load_dtype>()

                        = xetla_load_local<load_dtype>(

                                payload.address + address_offset);

            }

        }

    }

    //process the tail

    if constexpr ((tile_desc::tile_size_y % tile_desc::block_size_y) != 0) {

        constexpr uint32_t remained_size_y = tile_desc::remained_size_y;

        constexpr uint32_t offset_y = tile_desc::tile_size_y - remained_size_y;

        constexpr uint32_t processed_elems = offset_y * tile_desc::tile_size_x;

        constexpr uint32_t remain_block_elems

                = remained_size_y * tile_desc::block_size_x;

#pragma unroll

        for (uint32_t j = 0; j < tile_desc::num_block_x; j++) {

            uint32_t offset_x = j * tile_desc::block_size_x;

            auto reg_sub = tile.reg.xetla_select<remain_block_elems, 1>(

                    processed_elems + j * remain_block_elems);

#pragma unroll

            for (uint32_t sub_block_y = 0; sub_block_y < remained_size_y;

                    sub_block_y += num_channel_y) {

                uint32_t address_offset = offset_x * sizeof(dtype)

                        + (sub_block_y + offset_y) * payload.pitch_in_bytes;

                reg_sub.xetla_select<load_elems, 1>(

                               sub_block_y * tile_desc::block_size_x)

                        .xetla_format<load_dtype>()

                        = xetla_load_local<load_dtype>(

                                payload.address + address_offset);

            }

        }

    }

    if constexpr (mem_transform) {

        SW_BARRIER();

        vnni_convert(tile);

    }

}


template <cache_hint L1 = cache_hint::cached,

        cache_hint L2 = cache_hint::cached, typename tile_t, typename payload_t>

__XETLA_API typename std::enable_if_t<

        detail::check_load_type<tile_t, payload_t>::is_local_block_1d_xe>

tile_load(tile_t &tile, payload_t &payload) {

    using dtype = typename tile_t::dtype;

    using tile_desc = typename tile_t::tile_desc;

    using load_dtype = typename payload_t::mem_dtype;


    constexpr uint32_t scale_factor = payload_t::scale_factor;

    constexpr uint32_t load_len = tile_desc::tile_size_x / scale_factor;

    if constexpr (load_len >= 64) {

#pragma unroll

        for (uint32_t j = 0; j < load_len / 64; j++) {

            uint32_t offset_x = j * 64 * scale_factor;

            auto reg_sub

                    = tile.reg.xetla_select<64 * scale_factor, 1>(offset_x);

            uint32_t address_offset = offset_x * sizeof(dtype);

            reg_sub.xetla_format<load_dtype>()

                    = xetla_load_local<load_dtype, 64, data_size::default_size>(

                            payload.address + address_offset);

        }

    }

    detail::process_1d_tail<load_len % 64, 32, detail::process_flag::load, L1,

            L2>(tile, payload, load_len / 64 * 64 * scale_factor);

}


} // namespace gpu::xetla::subgroup

SW_BARRIER
#define SW_BARRIER()
SW_BARRIER, insert software scheduling barrier, for better code control.
Definition common.hpp:227

__XETLA_API
#define __XETLA_API
Definition common.hpp:43

xetla_select
#define xetla_select
xetla select.
Definition base_ops.hpp:49

xetla_format
#define xetla_format
xetla format.
Definition base_ops.hpp:38

gpu::xetla::xetla_tdescriptor
xetla_vector< uint32_t, 16 > xetla_tdescriptor
Description of nd tensor descriptor for load and store.
Definition base_types.hpp:155

gpu::xetla::native_type_t
typename native_type< T >::type native_type_t
Return the native data type of T.
Definition base_types.hpp:106

gpu::xetla::xetla_vector
__ESIMD_NS::simd< native_type_t< Ty >, N > xetla_vector
wrapper for xetla_vector.
Definition base_types.hpp:149

gpu::xetla::xetla_mask
__ESIMD_NS::simd_mask< N > xetla_mask
wrapper for xetla_mask.
Definition base_types.hpp:165

gpu::xetla::xetla_load_global
__XETLA_API xetla_vector< Ty, N *NElts > xetla_load_global(Ty *p, xetla_vector< Toffset, N > offsets, xetla_mask< N > pred=1)
Stateless scattered load.
Definition memory.hpp:245

gpu::xetla::xetla_update_tdesc_offsetx
__XETLA_API void xetla_update_tdesc_offsetx(xetla_tdescriptor_ref tdesc, int32_t doffset_x)
Update the x coordinate in the given tensor descriptor.
Definition raw_send_load_store.hpp:152

gpu::xetla::xetla_update_tdesc_offsety
__XETLA_API void xetla_update_tdesc_offsety(xetla_tdescriptor_ref tdesc, int32_t doffset_y)
Update the y coordinate in the given tensor descriptor.
Definition raw_send_load_store.hpp:161

gpu::xetla::xetla_tload_global
__XETLA_API std::enable_if_t< arch_tag==gpu_arch::Xe, xetla_vector< Ty, N > > xetla_tload_global(xetla_tdescriptor tdesc)
Tensor load API.
Definition raw_send_load_store.hpp:183

gpu::xetla::detail::xetla_set_block_widthx_widthy_arrlen
__XETLA_API void xetla_set_block_widthx_widthy_arrlen(xetla_tdescriptor_ref desc, uint32_t block_widthx_widthy_arrlen)
Definition tensor_descriptor.hpp:79

gpu::xetla::subgroup::detail::process_flag::load
@ load

gpu::xetla::subgroup::detail::scale_factor
__XETLA_API uint32_t uint32_t uint32_t scale_factor
Definition common.hpp:195

gpu::xetla::subgroup::detail::process_1d_tail
__XETLA_API std::enable_if_t< base_len==0 > process_1d_tail(tile_t &tile, payload_t &payload, uint32_t offset)
Definition common.hpp:96

gpu::xetla::subgroup
Definition limitation.hpp:457

gpu::xetla::subgroup::vnni_convert
__XETLA_API std::enable_if_t< T::register_layout==reg_layout::vnni_tiled > vnni_convert(T &mat_Acc)
Converts tiled layout to vnni_tiled layout format.
Definition op_function.hpp:118

gpu::xetla::subgroup::vnni_reverse
__XETLA_API std::enable_if_t< T::register_layout==reg_layout::tiled > vnni_reverse(T &mat_Acc)
Converts vnni_tiled layout format to tiled layout.
Definition op_function.hpp:196

gpu::xetla::subgroup::tile_load
__XETLA_API std::enable_if_t< detail::check_load_type< tile_t, payload_t >::is_global_2d_xe > tile_load(tile_t &tile, payload_t &payload)
This function loads data from 2D memory surface.
Definition load_xe.hpp:76

gpu::xetla::cache_hint
cache_hint
L1 or L2 cache hint kinds.
Definition common.hpp:89

gpu::xetla::cache_hint::cached
@ cached

gpu::xetla::data_size::default_size
@ default_size

gpu::xetla::reg_layout
reg_layout
tile layout in register linear: linear layout with one tile tiled: 2d block stacked in raster order v...
Definition common.hpp:209

gpu::xetla::reg_layout::tiled
@ tiled

gpu::xetla::reg_layout::transpose_tiled
@ transpose_tiled

gpu::xetla::fence_scope::tile
@ tile
flush out to the local scope

gpu::xetla::mem_space::global
@ global

gpu::xetla::mem_space::local
@ local

gpu::xetla::gpu_arch
gpu_arch
Definition common.hpp:73

gpu::xetla::gpu_arch::Xe
@ Xe

gpu::xetla::msg_type::unaligned_2d
@ unaligned_2d

gpu::xetla::msg_type::scatter
@ scatter

gpu::xetla::msg_type::block_1d
@ block_1d

gpu::xetla::msg_type::block_2d
@ block_2d

op_function.hpp
C++ API.

payload_xe.hpp
C++ API.

gpu::xetla::arch_attr_t
Definition arch_config.hpp:72

gpu::xetla::subgroup::detail::check_load_type
Definition load_xe.hpp:30

gpu::xetla::subgroup::detail::check_load_type::is_global_block_1d_xe
static constexpr bool is_global_block_1d_xe
Definition load_xe.hpp:37

gpu::xetla::subgroup::detail::check_load_type::is_local_block_1d_xe
static constexpr bool is_local_block_1d_xe
Definition load_xe.hpp:53

gpu::xetla::subgroup::detail::check_load_type::is_global_unaligned_2d_xe
static constexpr bool is_global_unaligned_2d_xe
Definition load_xe.hpp:43

gpu::xetla::subgroup::detail::check_load_type::is_global_2d_xe
static constexpr bool is_global_2d_xe
Definition load_xe.hpp:32

gpu::xetla::subgroup::detail::check_load_type::is_local_scatter_xe
static constexpr bool is_local_scatter_xe
Definition load_xe.hpp:48

gpu::xetla::subgroup::tile_t
Is a struct contains some register file.
Definition api.hpp:99

gpu::xetla::subgroup::tile_t::tile_desc
tile_desc_ tile_desc
Definition api.hpp:101

gpu::xetla::subgroup::tile_t::dtype
dtype_ dtype
Definition api.hpp:100

api.hpp
C++ API.