Maximize row group size for rewritten parquet #166

lga-zurich · 2026-01-16T08:58:51Z

This creates parquet files that result in better performance as the parquet decoding is more efficient not having to process as many row groups individually.

zoltan · 2026-01-16T17:08:15Z

we see a really big difference in runtime with this change

paul-aiyedun · 2026-02-03T23:43:09Z

@lga-zurich An update (35c5611) was made to add row group size (in bytes) as a parameter when generating TPC-H datasets. Can we use that instead?

Maximize row group size for rewritten parquet

38ba2af

karthikeyann requested a review from misiugodfrey January 16, 2026 23:44

karthikeyann assigned paul-aiyedun Jan 16, 2026

Increase batch size for parquet decoding performance

7b5316b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Maximize row group size for rewritten parquet #166

Maximize row group size for rewritten parquet #166

lga-zurich commented Jan 16, 2026

Uh oh!

zoltan commented Jan 16, 2026

Uh oh!

paul-aiyedun commented Feb 3, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Maximize row group size for rewritten parquet #166

Are you sure you want to change the base?

Maximize row group size for rewritten parquet #166

Conversation

lga-zurich commented Jan 16, 2026

Uh oh!

zoltan commented Jan 16, 2026

Uh oh!

paul-aiyedun commented Feb 3, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants