Execution Tests: Long vector - WaveActiveMin/Max and Prod (microsoft#7884)

alsepkow · web-flow · commit 7955801ebaab · 2025-11-11T15:25:07.000-08:00
Adds tests for WaveActiveMin, WaveActiveMax, and WaveActiveProd. This partially addresses microsoft#7472 Verified locally against a private build of WARP. WARP will need some fixes for these to be able to pass in automation so the priority of these tests remains set at 2 to prevent running in automation.
diff --git a/tools/clang/unittests/HLSLExec/LongVectorOps.def b/tools/clang/unittests/HLSLExec/LongVectorOps.def
@@ -19,6 +19,7 @@ INPUT_SET(Positive)
 INPUT_SET(Bitwise)
 INPUT_SET(SelectCond)
 INPUT_SET(FloatSpecial)
+INPUT_SET(AllOnes)
 
 #undef INPUT_SET
 
@@ -194,5 +195,9 @@ OP_LOAD_AND_STORE_SB(LoadAndStore_RD_SB_SRV, "RootDescriptor_SRV")
 #undef OP_LOAD_AND_STORE_DEFINES
 
 OP_DEFAULT(Wave, WaveActiveSum, 1, "WaveActiveSum", "")
+OP_DEFAULT_DEFINES(Wave, WaveActiveMin, 1, "TestWaveActiveMin", "", " -DFUNC_WAVE_ACTIVE_MIN=1")
+OP_DEFAULT_DEFINES(Wave, WaveActiveMax, 1, "TestWaveActiveMax", "", " -DFUNC_WAVE_ACTIVE_MAX=1")
+OP(Wave, WaveActiveProduct, 1, "TestWaveActiveProduct", "", " -DFUNC_WAVE_ACTIVE_PRODUCT=1", "LongVectorOp",
+   AllOnes, Default2, Default3)
 
 #undef OP
diff --git a/tools/clang/unittests/HLSLExec/LongVectorTestData.h b/tools/clang/unittests/HLSLExec/LongVectorTestData.h
@@ -289,6 +289,7 @@ INPUT_SET(InputSet::Bitwise, std::numeric_limits<int16_t>::min(), -1, 0, 1, 3,
           6, 9, 0x5555, static_cast<int16_t>(0xAAAA),
           std::numeric_limits<int16_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(int32_t)
@@ -302,6 +303,7 @@ INPUT_SET(InputSet::Bitwise, std::numeric_limits<int32_t>::min(), -1, 0, 1, 3,
           6, 9, 0x55555555, static_cast<int32_t>(0xAAAAAAAA),
           std::numeric_limits<int32_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(int64_t)
@@ -315,6 +317,7 @@ INPUT_SET(InputSet::Bitwise, std::numeric_limits<int64_t>::min(), -1, 0, 1, 3,
           6, 9, 0x5555555555555555LL, 0xAAAAAAAAAAAAAAAALL,
           std::numeric_limits<int64_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(uint16_t)
@@ -325,6 +328,7 @@ INPUT_SET(InputSet::BitShiftRhs, 1, 6, 3, 0, 9, 3, 12, 13, 14, 15);
 INPUT_SET(InputSet::Bitwise, 0, 1, 3, 6, 9, 0x5555, 0xAAAA, 0x8000, 127,
           std::numeric_limits<uint16_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(uint32_t)
@@ -335,6 +339,7 @@ INPUT_SET(InputSet::BitShiftRhs, 1, 6, 3, 0, 9, 3, 30, 31, 32);
 INPUT_SET(InputSet::Bitwise, 0, 1, 3, 6, 9, 0x55555555, 0xAAAAAAAA, 0x80000000,
           127, std::numeric_limits<uint32_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(uint64_t)
@@ -346,6 +351,7 @@ INPUT_SET(InputSet::Bitwise, 0, 1, 3, 6, 9, 0x5555555555555555,
           0xAAAAAAAAAAAAAAAA, 0x8000000000000000, 127,
           std::numeric_limits<uint64_t>::max());
 INPUT_SET(InputSet::SelectCond, 0, 1);
+INPUT_SET(InputSet::AllOnes, 1);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(HLSLHalf_t)
@@ -376,6 +382,7 @@ INPUT_SET(InputSet::FloatSpecial, std::numeric_limits<float>::infinity(),
           -std::numeric_limits<float>::max(),
           std::numeric_limits<float>::denorm_min(),
           std::numeric_limits<float>::denorm_min() * 10.0, 1.0 / 3.0);
+INPUT_SET(InputSet::AllOnes, 1.0);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(float)
@@ -403,6 +410,7 @@ INPUT_SET(InputSet::FloatSpecial, std::numeric_limits<float>::infinity(),
           -std::numeric_limits<float>::max(),
           std::numeric_limits<float>::denorm_min(),
           std::numeric_limits<float>::denorm_min() * 10.0f, 1.0f / 3.0f);
+INPUT_SET(InputSet::AllOnes, 1.0f);
 END_INPUT_SETS()
 
 BEGIN_INPUT_SETS(double)
@@ -421,6 +429,7 @@ INPUT_SET(InputSet::SplitDouble, 0.0, -1.0, 1.0, -1.0, 12345678.87654321, -1.0,
 INPUT_SET(InputSet::Positive, 1.0, 1.0, 65535.0, 0.01, 5531.0, 0.01, 1.0, 0.01,
           331.2330, 3250.01);
 INPUT_SET(InputSet::SelectCond, 0.0, 1.0);
+INPUT_SET(InputSet::AllOnes, 1.0);
 END_INPUT_SETS()
 
 #undef BEGIN_INPUT_SETS
diff --git a/tools/clang/unittests/HLSLExec/LongVectors.cpp b/tools/clang/unittests/HLSLExec/LongVectors.cpp
@@ -1266,10 +1266,44 @@ FLOAT_SPECIAL_OP(OpType::IsNan, (std::isnan(A)));
 
 #define WAVE_ACTIVE_OP(OP, IMPL)                                               \
   template <typename T> struct Op<OP, T, 1> : DefaultValidation<T> {           \
-    T operator()(T A, T WaveSize) { return IMPL; }                             \
+    T operator()(T A, UINT WaveSize) { return IMPL; }                          \
   };
 
-WAVE_ACTIVE_OP(OpType::WaveActiveSum, (A * WaveSize));
+template <typename T> T waveActiveSum(T A, UINT WaveSize) {
+  T WaveSizeT = static_cast<T>(WaveSize);
+  return A * WaveSizeT;
+}
+
+WAVE_ACTIVE_OP(OpType::WaveActiveSum, (waveActiveSum(A, WaveSize)));
+
+template <typename T> T waveActiveMin(T A, UINT WaveSize) {
+  std::vector<T> Values;
+  // Add the 'WaveLaneID' to A.
+  for (UINT I = 0; I < WaveSize; ++I)
+    Values.push_back(A + static_cast<T>(I));
+  return *std::min_element(Values.begin(), Values.end());
+}
+
+WAVE_ACTIVE_OP(OpType::WaveActiveMin, (waveActiveMin(A, WaveSize)));
+
+template <typename T> T waveActiveMax(T A, UINT WaveSize) {
+  std::vector<T> Values;
+  // Add the 'WaveLaneID' to A.
+  for (UINT I = 0; I < WaveSize; ++I)
+    Values.push_back(A + static_cast<T>(I));
+  return *std::max_element(Values.begin(), Values.end());
+}
+
+WAVE_ACTIVE_OP(OpType::WaveActiveMax, (waveActiveMax(A, WaveSize)));
+
+template <typename T> T waveActiveProduct(T A, UINT WaveSize) {
+  // We want to avoid overflow of a large product. So, the WaveActiveProdFn has
+  // an input set of all 1's and we modify the value of the largest lane to be
+  // equal to the lane index in the shader.
+  return A * static_cast<T>(WaveSize - 1);
+}
+
+WAVE_ACTIVE_OP(OpType::WaveActiveProduct, (waveActiveProduct(A, WaveSize)));
 
 #undef WAVE_ACTIVE_OP
 
@@ -1321,13 +1355,12 @@ template <OpType OP, typename T> struct WaveOpExpectedBuilder {
   static auto buildExpected(Op<OP, T, 1> Op, const InputSets<T> &Inputs,
                             UINT WaveSize) {
     DXASSERT_NOMSG(Inputs.size() == 1);
-    const T WaveSizeT = static_cast<T>(WaveSize);
 
-    std::vector<decltype(Op(T(), WaveSizeT))> Expected;
+    std::vector<decltype(Op(T(), WaveSize))> Expected;
     Expected.reserve(Inputs[0].size());
 
     for (size_t I = 0; I < Inputs[0].size(); ++I)
-      Expected.push_back(Op(Inputs[0][I], WaveSizeT));
+      Expected.push_back(Op(Inputs[0][I], WaveSize));
 
     return Expected;
   }
@@ -2173,16 +2206,43 @@ class DxilConf_SM69_Vectorized {
   HLK_TEST(LoadAndStore_RD_SB_UAV, double);
 
   HLK_WAVEOP_TEST(WaveActiveSum, int16_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, int16_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, int16_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, int16_t);
   HLK_WAVEOP_TEST(WaveActiveSum, int32_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, int32_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, int32_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, int32_t);
   HLK_WAVEOP_TEST(WaveActiveSum, int64_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, int64_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, int64_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, int64_t);
 
   HLK_WAVEOP_TEST(WaveActiveSum, uint16_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, uint16_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, uint16_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, uint16_t);
   HLK_WAVEOP_TEST(WaveActiveSum, uint32_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, uint32_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, uint32_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, uint32_t);
   HLK_WAVEOP_TEST(WaveActiveSum, uint64_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, uint64_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, uint64_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, uint64_t);
 
   HLK_WAVEOP_TEST(WaveActiveSum, HLSLHalf_t);
+  HLK_WAVEOP_TEST(WaveActiveMin, HLSLHalf_t);
+  HLK_WAVEOP_TEST(WaveActiveMax, HLSLHalf_t);
+  HLK_WAVEOP_TEST(WaveActiveProduct, HLSLHalf_t);
   HLK_WAVEOP_TEST(WaveActiveSum, float);
+  HLK_WAVEOP_TEST(WaveActiveMin, float);
+  HLK_WAVEOP_TEST(WaveActiveMax, float);
+  HLK_WAVEOP_TEST(WaveActiveProduct, float);
   HLK_WAVEOP_TEST(WaveActiveSum, double);
+  HLK_WAVEOP_TEST(WaveActiveMin, double);
+  HLK_WAVEOP_TEST(WaveActiveMax, double);
+  HLK_WAVEOP_TEST(WaveActiveProduct, double);
 
 private:
   bool Initialized = false;
diff --git a/tools/clang/unittests/HLSLExec/ShaderOpArith.xml b/tools/clang/unittests/HLSLExec/ShaderOpArith.xml
@@ -4083,6 +4083,34 @@ void MSMain(uint GID : SV_GroupIndex,
         }
         #endif
 
+        #ifdef FUNC_WAVE_ACTIVE_MIN
+        vector<OUT_TYPE, NUM> TestWaveActiveMin(vector<TYPE, NUM> Vector)
+        {
+          Vector += WaveGetLaneIndex();
+          return WaveActiveMin(Vector);
+        }
+        #endif
+
+        #ifdef FUNC_WAVE_ACTIVE_MAX
+        vector<OUT_TYPE, NUM> TestWaveActiveMax(vector<TYPE, NUM> Vector)
+        {
+          Vector += WaveGetLaneIndex();
+          return WaveActiveMax(Vector);
+        }
+        #endif
+
+        #ifdef FUNC_WAVE_ACTIVE_PRODUCT
+        vector<OUT_TYPE, NUM> TestWaveActiveProduct(vector<TYPE, NUM> Vector)
+        {
+          uint LaneIndex = WaveGetLaneIndex();
+          if(LaneIndex == (WaveGetLaneCount() - 1))
+          {
+            Vector = LaneIndex;
+          }
+          return WaveActiveProduct(Vector);
+        }
+        #endif
+
         #ifdef FUNC_TEST_SELECT
         vector<OUT_TYPE, NUM> TestSelect(vector<TYPE, NUM> Vector1,
                                          vector<TYPE, NUM> Vector2,