Refactored Q1_0_g128 code visual structure

pl752 · pl752 · commit b793ed12b1c7 · 2026-04-07T11:02:41.000+05:00
diff --git a/ggml/src/ggml-cpu/arch/x86/quants.c b/ggml/src/ggml-cpu/arch/x86/quants.c
@@ -760,28 +760,31 @@ void ggml_vec_dot_q1_0_g128_q8_0(int n, float * GGML_RESTRICT s, size_t bs, cons
 
     for (int ib = 0; ib < nb; ++ib) {
         const float d0 = GGML_CPU_FP16_TO_FP32(x[ib].d);
+        const block_q8_0 * GGML_RESTRICT y_ptr = &y[ib * 4];
         __m256 acc_block = _mm256_setzero_ps();
-
-        for (int k = 0; k < 4; ++k) {
-            const block_q8_0 * GGML_RESTRICT yb = &y[ib * 4 + k];
-            const float d1 = GGML_CPU_FP16_TO_FP32(yb->d);
-            const __m256i bit_mask = bytes_from_bits_32(&x[ib].qs[k * 4]);
-            const __m128i bit_mask_0 = _mm256_castsi256_si128(bit_mask);
-            const __m128i bit_mask_1 = _mm256_extractf128_si256(bit_mask, 1);
-            const __m128i qy_0 = _mm_loadu_si128((const __m128i *) &yb->qs[0]);
-            const __m128i qy_1 = _mm_loadu_si128((const __m128i *) &yb->qs[16]);
-            const __m128i sign_mask_0 = _mm_cmpeq_epi8(bit_mask_0, zero);
-            const __m128i sign_mask_1 = _mm_cmpeq_epi8(bit_mask_1, zero);
-            const __m128i sy_0 = _mm_sub_epi8(_mm_xor_si128(qy_0, sign_mask_0), sign_mask_0);
-            const __m128i sy_1 = _mm_sub_epi8(_mm_xor_si128(qy_1, sign_mask_1), sign_mask_1);
-            const __m128i sum16_0 = _mm_maddubs_epi16(ones_8, sy_0);
-            const __m128i sum16_1 = _mm_maddubs_epi16(ones_8, sy_1);
-            const __m128i sum32_0 = _mm_madd_epi16(sum16_0, ones_16);
-            const __m128i sum32_1 = _mm_madd_epi16(sum16_1, ones_16);
-            const __m256 q = _mm256_cvtepi32_ps(MM256_SET_M128I(sum32_1, sum32_0));
-
-            acc_block = _mm256_add_ps(acc_block, _mm256_mul_ps(_mm256_set1_ps(d1), q));
+#define Q1_AVX_BLOCK(K) \
+        { \
+            const __m256i bit_mask = bytes_from_bits_32(&x[ib].qs[(K) * 4]); \
+            const __m128i bit_mask_0 = _mm256_castsi256_si128(bit_mask); \
+            const __m128i bit_mask_1 = _mm256_extractf128_si256(bit_mask, 1); \
+            const __m128i qy_0 = _mm_loadu_si128((const __m128i *) &y_ptr[(K)].qs[0]); \
+            const __m128i qy_1 = _mm_loadu_si128((const __m128i *) &y_ptr[(K)].qs[16]); \
+            const __m128i sign_mask_0 = _mm_cmpeq_epi8(bit_mask_0, zero); \
+            const __m128i sign_mask_1 = _mm_cmpeq_epi8(bit_mask_1, zero); \
+            const __m128i sy_0 = _mm_sub_epi8(_mm_xor_si128(qy_0, sign_mask_0), sign_mask_0); \
+            const __m128i sy_1 = _mm_sub_epi8(_mm_xor_si128(qy_1, sign_mask_1), sign_mask_1); \
+            const __m128i sum16_0 = _mm_maddubs_epi16(ones_8, sy_0); \
+            const __m128i sum16_1 = _mm_maddubs_epi16(ones_8, sy_1); \
+            const __m128i sum32_0 = _mm_madd_epi16(sum16_0, ones_16); \
+            const __m128i sum32_1 = _mm_madd_epi16(sum16_1, ones_16); \
+            const __m256 q = _mm256_cvtepi32_ps(MM256_SET_M128I(sum32_1, sum32_0)); \
+            acc_block = _mm256_add_ps(acc_block, _mm256_mul_ps(_mm256_set1_ps(GGML_CPU_FP16_TO_FP32(y_ptr[(K)].d)), q)); \
         }
+        Q1_AVX_BLOCK(0)
+        Q1_AVX_BLOCK(1)
+        Q1_AVX_BLOCK(2)
+        Q1_AVX_BLOCK(3)
+#undef Q1_AVX_BLOCK
 
         acc = _mm256_add_ps(acc, _mm256_mul_ps(_mm256_set1_ps(d0), acc_block));
     }
@@ -801,62 +804,28 @@ void ggml_vec_dot_q1_0_g128_q8_0(int n, float * GGML_RESTRICT s, size_t bs, cons
 
     for (int ib = 0; ib < nb; ++ib) {
         const __m128 d0 = _mm_set1_ps(GGML_CPU_FP16_TO_FP32(x[ib].d));
-        const block_q8_0 * GGML_RESTRICT yb_0 = &y[ib * 4 + 0];
-        const block_q8_0 * GGML_RESTRICT yb_1 = &y[ib * 4 + 1];
-        const block_q8_0 * GGML_RESTRICT yb_2 = &y[ib * 4 + 2];
-        const block_q8_0 * GGML_RESTRICT yb_3 = &y[ib * 4 + 3];
-
-        const __m128i bit_mask_0_0 = bytes_from_bits_16(&x[ib].qs[0]);
-        const __m128i bit_mask_0_1 = bytes_from_bits_16(&x[ib].qs[2]);
-        const __m128i qy_0_0 = _mm_loadu_si128((const __m128i *) &yb_0->qs[0]);
-        const __m128i qy_0_1 = _mm_loadu_si128((const __m128i *) &yb_0->qs[16]);
-        const __m128i sign_mask_0_0 = _mm_cmpeq_epi8(bit_mask_0_0, zero);
-        const __m128i sign_mask_0_1 = _mm_cmpeq_epi8(bit_mask_0_1, zero);
-        const __m128i sy_0_0 = _mm_sub_epi8(_mm_xor_si128(qy_0_0, sign_mask_0_0), sign_mask_0_0);
-        const __m128i sy_0_1 = _mm_sub_epi8(_mm_xor_si128(qy_0_1, sign_mask_0_1), sign_mask_0_1);
-        const __m128i sum_0_0 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_0_0), ones_16);
-        const __m128i sum_0_1 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_0_1), ones_16);
-        const __m128 q_0 = _mm_cvtepi32_ps(_mm_add_epi32(sum_0_0, sum_0_1));
-        acc_0 = _mm_add_ps(acc_0, _mm_mul_ps(_mm_mul_ps(d0, _mm_set1_ps(GGML_CPU_FP16_TO_FP32(yb_0->d))), q_0));
-
-        const __m128i bit_mask_1_0 = bytes_from_bits_16(&x[ib].qs[4]);
-        const __m128i bit_mask_1_1 = bytes_from_bits_16(&x[ib].qs[6]);
-        const __m128i qy_1_0 = _mm_loadu_si128((const __m128i *) &yb_1->qs[0]);
-        const __m128i qy_1_1 = _mm_loadu_si128((const __m128i *) &yb_1->qs[16]);
-        const __m128i sign_mask_1_0 = _mm_cmpeq_epi8(bit_mask_1_0, zero);
-        const __m128i sign_mask_1_1 = _mm_cmpeq_epi8(bit_mask_1_1, zero);
-        const __m128i sy_1_0 = _mm_sub_epi8(_mm_xor_si128(qy_1_0, sign_mask_1_0), sign_mask_1_0);
-        const __m128i sy_1_1 = _mm_sub_epi8(_mm_xor_si128(qy_1_1, sign_mask_1_1), sign_mask_1_1);
-        const __m128i sum_1_0 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_1_0), ones_16);
-        const __m128i sum_1_1 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_1_1), ones_16);
-        const __m128 q_1 = _mm_cvtepi32_ps(_mm_add_epi32(sum_1_0, sum_1_1));
-        acc_1 = _mm_add_ps(acc_1, _mm_mul_ps(_mm_mul_ps(d0, _mm_set1_ps(GGML_CPU_FP16_TO_FP32(yb_1->d))), q_1));
-
-        const __m128i bit_mask_2_0 = bytes_from_bits_16(&x[ib].qs[8]);
-        const __m128i bit_mask_2_1 = bytes_from_bits_16(&x[ib].qs[10]);
-        const __m128i qy_2_0 = _mm_loadu_si128((const __m128i *) &yb_2->qs[0]);
-        const __m128i qy_2_1 = _mm_loadu_si128((const __m128i *) &yb_2->qs[16]);
-        const __m128i sign_mask_2_0 = _mm_cmpeq_epi8(bit_mask_2_0, zero);
-        const __m128i sign_mask_2_1 = _mm_cmpeq_epi8(bit_mask_2_1, zero);
-        const __m128i sy_2_0 = _mm_sub_epi8(_mm_xor_si128(qy_2_0, sign_mask_2_0), sign_mask_2_0);
-        const __m128i sy_2_1 = _mm_sub_epi8(_mm_xor_si128(qy_2_1, sign_mask_2_1), sign_mask_2_1);
-        const __m128i sum_2_0 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_2_0), ones_16);
-        const __m128i sum_2_1 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_2_1), ones_16);
-        const __m128 q_2 = _mm_cvtepi32_ps(_mm_add_epi32(sum_2_0, sum_2_1));
-        acc_2 = _mm_add_ps(acc_2, _mm_mul_ps(_mm_mul_ps(d0, _mm_set1_ps(GGML_CPU_FP16_TO_FP32(yb_2->d))), q_2));
-
-        const __m128i bit_mask_3_0 = bytes_from_bits_16(&x[ib].qs[12]);
-        const __m128i bit_mask_3_1 = bytes_from_bits_16(&x[ib].qs[14]);
-        const __m128i qy_3_0 = _mm_loadu_si128((const __m128i *) &yb_3->qs[0]);
-        const __m128i qy_3_1 = _mm_loadu_si128((const __m128i *) &yb_3->qs[16]);
-        const __m128i sign_mask_3_0 = _mm_cmpeq_epi8(bit_mask_3_0, zero);
-        const __m128i sign_mask_3_1 = _mm_cmpeq_epi8(bit_mask_3_1, zero);
-        const __m128i sy_3_0 = _mm_sub_epi8(_mm_xor_si128(qy_3_0, sign_mask_3_0), sign_mask_3_0);
-        const __m128i sy_3_1 = _mm_sub_epi8(_mm_xor_si128(qy_3_1, sign_mask_3_1), sign_mask_3_1);
-        const __m128i sum_3_0 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_3_0), ones_16);
-        const __m128i sum_3_1 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_3_1), ones_16);
-        const __m128 q_3 = _mm_cvtepi32_ps(_mm_add_epi32(sum_3_0, sum_3_1));
-        acc_3 = _mm_add_ps(acc_3, _mm_mul_ps(_mm_mul_ps(d0, _mm_set1_ps(GGML_CPU_FP16_TO_FP32(yb_3->d))), q_3));
+        const block_q8_0 * GGML_RESTRICT y_ptr = &y[ib * 4];
+
+#define Q1_SSSE3_BLOCK(QS_OFF, Y_IDX, ACC) \
+        { \
+            const __m128i bit_mask_0 = bytes_from_bits_16(&x[ib].qs[(QS_OFF) + 0]); \
+            const __m128i bit_mask_1 = bytes_from_bits_16(&x[ib].qs[(QS_OFF) + 2]); \
+            const __m128i qy_0 = _mm_loadu_si128((const __m128i *) &y_ptr[(Y_IDX)].qs[0]); \
+            const __m128i qy_1 = _mm_loadu_si128((const __m128i *) &y_ptr[(Y_IDX)].qs[16]); \
+            const __m128i sign_mask_0 = _mm_cmpeq_epi8(bit_mask_0, zero); \
+            const __m128i sign_mask_1 = _mm_cmpeq_epi8(bit_mask_1, zero); \
+            const __m128i sy_0 = _mm_sub_epi8(_mm_xor_si128(qy_0, sign_mask_0), sign_mask_0); \
+            const __m128i sy_1 = _mm_sub_epi8(_mm_xor_si128(qy_1, sign_mask_1), sign_mask_1); \
+            const __m128i sum_0 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_0), ones_16); \
+            const __m128i sum_1 = _mm_madd_epi16(_mm_maddubs_epi16(ones_8, sy_1), ones_16); \
+            const __m128 q = _mm_cvtepi32_ps(_mm_add_epi32(sum_0, sum_1)); \
+            (ACC) = _mm_add_ps((ACC), _mm_mul_ps(_mm_mul_ps(d0, _mm_set1_ps(GGML_CPU_FP16_TO_FP32(y_ptr[(Y_IDX)].d))), q)); \
+        }
+        Q1_SSSE3_BLOCK(0,  0, acc_0)
+        Q1_SSSE3_BLOCK(4,  1, acc_1)
+        Q1_SSSE3_BLOCK(8,  2, acc_2)
+        Q1_SSSE3_BLOCK(12, 3, acc_3)
+#undef Q1_SSSE3_BLOCK
     }
 
     *s = hsum_float_4x4(acc_0, acc_1, acc_2, acc_3);