apache
diff --git a/‎datafusion/datasource-parquet/src/access_plan.rs‎
Lines changed: 36 additions & 0 deletions b/‎datafusion/datasource-parquet/src/access_plan.rs‎
Lines changed: 36 additions & 0 deletions
diff --git a/‎datafusion/datasource-parquet/src/metrics.rs‎
Lines changed: 8 additions & 0 deletions b/‎datafusion/datasource-parquet/src/metrics.rs‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎datafusion/datasource-parquet/src/opener.rs‎
Lines changed: 47 additions & 1 deletion b/‎datafusion/datasource-parquet/src/opener.rs‎
Lines changed: 47 additions & 1 deletion
diff --git a/‎datafusion/datasource-parquet/src/row_group_filter.rs‎
Lines changed: 172 additions & 0 deletions b/‎datafusion/datasource-parquet/src/row_group_filter.rs‎
Lines changed: 172 additions & 0 deletions
diff --git a/‎datafusion/datasource-parquet/src/source.rs‎
Lines changed: 5 additions & 0 deletions b/‎datafusion/datasource-parquet/src/source.rs‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎datafusion/datasource/src/file.rs‎
Lines changed: 7 additions & 0 deletions b/‎datafusion/datasource/src/file.rs‎
Lines changed: 7 additions & 0 deletions
@@ -396,6 +396,42 @@ impl PreparedAccessPlan {
 
         Ok(self)
     }
+
+    /// Apply a row-level offset by creating a [`RowSelection`] that skips the
+    /// first `remaining_offset` rows across all row groups. Merges with any
+    /// existing row selection (e.g., from page index pruning).
+    ///
+    /// This is used when RG-level offset pruning has already skipped whole
+    /// row groups but a partial offset remains within the first surviving RG.
+    pub(crate) fn apply_offset(
+        mut self,
+        remaining_offset: usize,
+        rg_metadata: &[RowGroupMetaData],
+    ) -> Self {
+        if remaining_offset == 0 || self.row_group_indexes.is_empty() {
+            return self;
+        }
+
+        let total_rows: usize = self
+            .row_group_indexes
+            .iter()
+            .map(|&idx| rg_metadata[idx].num_rows() as usize)
+            .sum();
+        let select_rows = total_rows.saturating_sub(remaining_offset);
+        if select_rows == 0 {
+            return self;
+        }
+
+        let offset_selection = RowSelection::from(vec![
+            RowSelector::skip(remaining_offset),
+            RowSelector::select(select_rows),
+        ]);
+        self.row_selection = Some(match self.row_selection {
+            Some(existing) => existing.intersection(&offset_selection),
+            None => offset_selection,
+        });
+        self
+    }
 }
 
 #[cfg(test)]
 
@@ -49,6 +49,8 @@ pub struct ParquetFileMetrics {
     pub row_groups_pruned_bloom_filter: PruningMetrics,
     /// Number of row groups pruned due to limit pruning.
     pub limit_pruned_row_groups: PruningMetrics,
+    /// Number of row groups pruned due to offset pruning.
+    pub offset_pruned_row_groups: PruningMetrics,
     /// Number of row groups pruned by statistics
     pub row_groups_pruned_statistics: PruningMetrics,
     /// Total number of bytes scanned
@@ -113,6 +115,11 @@ impl ParquetFileMetrics {
             .with_type(MetricType::Summary)
             .pruning_metrics("limit_pruned_row_groups", partition);
 
+        let offset_pruned_row_groups = MetricBuilder::new(metrics)
+            .with_new_label("filename", filename.to_string())
+            .with_type(MetricType::Summary)
+            .pruning_metrics("offset_pruned_row_groups", partition);
+
         let row_groups_pruned_statistics = MetricBuilder::new(metrics)
             .with_new_label("filename", filename.to_string())
             .with_type(MetricType::Summary)
@@ -198,6 +205,7 @@ impl ParquetFileMetrics {
             row_groups_pruned_bloom_filter,
             row_groups_pruned_statistics,
             limit_pruned_row_groups,
+            offset_pruned_row_groups,
             bytes_scanned,
             pushdown_rows_pruned,
             pushdown_rows_matched,
 
@@ -92,6 +92,8 @@ pub(super) struct ParquetMorselizer {
     pub batch_size: usize,
     /// Optional limit on the number of rows to read
     pub(crate) limit: Option<usize>,
+    /// Optional offset (number of rows to skip before reading)
+    pub(crate) offset: Option<usize>,
     /// If should keep the output rows in order
     pub preserve_order: bool,
     /// Optional predicate to apply during the scan
@@ -281,6 +283,7 @@ struct PreparedParquetOpen {
     enable_bloom_filter: bool,
     enable_row_group_stats_pruning: bool,
     limit: Option<usize>,
+    offset: Option<usize>,
     coerce_int96: Option<TimeUnit>,
     expr_adapter_factory: Arc<dyn PhysicalExprAdapterFactory>,
     predicate_creation_errors: Count,
@@ -650,6 +653,7 @@ impl ParquetMorselizer {
             enable_bloom_filter: self.enable_bloom_filter,
             enable_row_group_stats_pruning: self.enable_row_group_stats_pruning,
             limit: self.limit,
+            offset: self.offset,
             coerce_int96: self.coerce_int96,
             expr_adapter_factory: Arc::clone(&self.expr_adapter_factory),
             predicate_creation_errors,
@@ -1101,6 +1105,24 @@ impl RowGroupsPrunedParquetOpen {
             None
         };
 
+        // Prune by offset: atomically consume from the shared remaining_offset.
+        // Prune by offset: skip leading fully-matched row groups that fall
+        // entirely within the offset, so they are never read from disk.
+        let remaining_offset = if let Some(offset) = prepared.offset {
+            if offset > 0 {
+                Some(row_groups.prune_by_offset(
+                    offset,
+                    prepared.predicate.is_some(),
+                    rg_metadata,
+                    &prepared.file_metrics,
+                ))
+            } else {
+                None
+            }
+        } else {
+            None
+        };
+
         // Prune by limit if limit is set and limit order is not sensitive
         if let (Some(limit), false) = (prepared.limit, prepared.preserve_order) {
             row_groups.prune_by_limit(limit, rg_metadata, &prepared.file_metrics);
@@ -1126,6 +1148,15 @@ impl RowGroupsPrunedParquetOpen {
         // Prepare the access plan (extract row groups and row selection)
         let mut prepared_plan = access_plan.prepare(rg_metadata)?;
 
+        // Apply remaining offset as RowSelection (partial RG skip).
+        // Only when no predicate — with predicates, GlobalLimitExec handles.
+        if let Some(remaining_offset) = remaining_offset
+            && remaining_offset > 0
+            && prepared.predicate.is_none()
+        {
+            prepared_plan = prepared_plan.apply_offset(remaining_offset, rg_metadata);
+        }
+
         // Potentially reverse the access plan for performance.
         // See `ParquetSource::try_pushdown_sort` for the rationale.
         if prepared.reverse_row_groups {
@@ -1157,7 +1188,21 @@ impl RowGroupsPrunedParquetOpen {
         }
         decoder_builder =
             decoder_builder.with_row_groups(prepared_plan.row_group_indexes);
-        if let Some(limit) = prepared.limit {
+
+        // Adjust limit: original limit is `skip + fetch` from optimizer.
+        // Since we handle offset at parquet level (RG prune + RowSelection),
+        // only need to read `fetch` rows = `limit - offset`.
+        // Only adjust limit when no predicate (offset fully handled here).
+        // With predicate, GlobalLimitExec handles offset, decoder needs
+        // full limit (skip+fetch) to provide enough rows.
+        let effective_limit = match (prepared.limit, prepared.offset) {
+            (Some(limit), Some(offset)) if offset > 0 && prepared.predicate.is_none() => {
+                Some(limit.saturating_sub(offset))
+            }
+            (Some(limit), _) => Some(limit),
+            _ => None,
+        };
+        if let Some(limit) = effective_limit {
             decoder_builder = decoder_builder.with_limit(limit);
         }
         if let Some(max_predicate_cache_size) = prepared.max_predicate_cache_size {
@@ -1794,6 +1839,7 @@ mod test {
                 projection,
                 batch_size: self.batch_size,
                 limit: self.limit,
+                offset: None,
                 preserve_order: self.preserve_order,
                 predicate: self.predicate,
                 table_schema,
 
@@ -212,6 +212,51 @@ impl RowGroupAccessPlanFilter {
         }
     }
 
+    /// Prune row groups that can be entirely skipped due to offset.
+    ///
+    /// When an offset is specified, rows at the beginning of the scan must be
+    /// skipped. This method marks leading fully-matched row groups whose
+    /// cumulative row count falls within the offset as skipped, so they are
+    /// never read from disk.
+    ///
+    /// Returns the remaining offset (number of rows still to skip within the
+    /// first non-pruned row group).
+    pub fn prune_by_offset(
+        &mut self,
+        offset: usize,
+        has_predicate: bool,
+        rg_metadata: &[RowGroupMetaData],
+        metrics: &ParquetFileMetrics,
+    ) -> usize {
+        let mut remaining = offset;
+        let mut pruned_count = 0;
+
+        for &idx in self.access_plan.row_group_indexes().iter() {
+            if remaining == 0 {
+                break;
+            }
+            // We can skip a row group entirely if:
+            // - No predicate: all rows match, row count is exact
+            // - Has predicate but is_fully_matched: all rows pass filter
+            let can_skip = !has_predicate || self.is_fully_matched[idx];
+            if can_skip {
+                let rg_rows = rg_metadata[idx].num_rows() as usize;
+                if remaining >= rg_rows {
+                    self.access_plan.skip(idx);
+                    remaining -= rg_rows;
+                    pruned_count += 1;
+                } else {
+                    break;
+                }
+            } else {
+                break;
+            }
+        }
+
+        metrics.offset_pruned_row_groups.add_pruned(pruned_count);
+        remaining
+    }
+
     /// Prune remaining row groups to only those  within the specified range.
     ///
     /// Updates this set to mark row groups that should not be scanned
@@ -1438,6 +1483,133 @@ mod tests {
         ParquetFileMetrics::new(0, "file.parquet", &metrics)
     }
 
+    /// Create a RowGroupMetaData with the specified number of rows.
+    /// Uses a minimal schema with a single INT32 column.
+    fn make_row_group_meta(num_rows: i64) -> RowGroupMetaData {
+        let schema_descr = get_test_schema_descr(vec![PrimitiveTypeField::new(
+            "id",
+            PhysicalType::INT32,
+        )]);
+        let column = ColumnChunkMetaData::builder(schema_descr.column(0))
+            .set_num_values(num_rows)
+            .build()
+            .unwrap();
+        RowGroupMetaData::builder(schema_descr)
+            .set_num_rows(num_rows)
+            .set_total_byte_size(1000)
+            .set_column_metadata(vec![column])
+            .build()
+            .unwrap()
+    }
+
+    /// Helper to build a RowGroupAccessPlanFilter with specified fully_matched flags.
+    fn make_filter_with_fully_matched(
+        num_rgs: usize,
+        fully_matched: Vec<bool>,
+    ) -> RowGroupAccessPlanFilter {
+        assert_eq!(num_rgs, fully_matched.len());
+        let access_plan = ParquetAccessPlan::new_all(num_rgs);
+        let mut filter = RowGroupAccessPlanFilter::new(access_plan);
+        filter.is_fully_matched = fully_matched;
+        filter
+    }
+
+    #[test]
+    fn test_prune_by_offset_skips_fully_matched_rgs() {
+        // 3 RGs each with 100 rows, all fully_matched. offset=250.
+        // Should skip 2 RGs (200 rows), remaining=50.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, true]);
+
+        let remaining = filter.prune_by_offset(250, false, &rg_metadata, &metrics);
+        assert_eq!(remaining, 50);
+        // First two RGs should be skipped, third should still be scanned
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert_eq!(indexes, vec![2]);
+    }
+
+    #[test]
+    fn test_prune_by_offset_stops_at_non_fully_matched() {
+        // 3 RGs each with 100 rows. First two fully_matched, third not.
+        // offset=250 → skip 2 RGs (200 rows), remaining=50.
+        // Cannot skip the non-fully-matched third RG even though offset
+        // still needs more rows skipped.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, false]);
+
+        let remaining = filter.prune_by_offset(250, true, &rg_metadata, &metrics);
+        assert_eq!(remaining, 50);
+        // First two RGs skipped, third still scanned (not fully matched)
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert_eq!(indexes, vec![2]);
+    }
+
+    #[test]
+    fn test_prune_by_offset_zero() {
+        // offset=0 → no pruning, remaining=0.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, true]);
+
+        let remaining = filter.prune_by_offset(0, false, &rg_metadata, &metrics);
+        assert_eq!(remaining, 0);
+        // All RGs should still be scanned
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert_eq!(indexes, vec![0, 1, 2]);
+    }
+
+    #[test]
+    fn test_prune_by_offset_exact_boundary() {
+        // 3 RGs each 100 rows. offset=200 → skip exactly 2 RGs, remaining=0.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, true]);
+
+        let remaining = filter.prune_by_offset(200, false, &rg_metadata, &metrics);
+        assert_eq!(remaining, 0);
+        // First two RGs skipped, third still scanned
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert_eq!(indexes, vec![2]);
+    }
+
+    #[test]
+    fn test_prune_by_offset_exceeds_total() {
+        // offset=400 > total 300 rows → skip all fully_matched RGs,
+        // remaining = 400 - 300 = 100.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, true]);
+
+        let remaining = filter.prune_by_offset(400, false, &rg_metadata, &metrics);
+        assert_eq!(remaining, 100);
+        // All RGs should be skipped
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert!(indexes.is_empty());
+    }
+
+    #[test]
+    fn test_prune_by_offset_partial_rg() {
+        // offset=50 (less than first RG of 100 rows) → don't skip any RG,
+        // remaining=50.
+        let rg_metadata: Vec<RowGroupMetaData> =
+            (0..3).map(|_| make_row_group_meta(100)).collect();
+        let metrics = parquet_file_metrics();
+        let mut filter = make_filter_with_fully_matched(3, vec![true, true, true]);
+
+        let remaining = filter.prune_by_offset(50, false, &rg_metadata, &metrics);
+        assert_eq!(remaining, 50);
+        // No RGs should be skipped since offset < first RG's row count
+        let indexes: Vec<usize> = filter.row_group_indexes().collect();
+        assert_eq!(indexes, vec![0, 1, 2]);
+    }
+
     #[tokio::test]
     async fn test_row_group_bloom_filter_pruning_predicate_simple_expr() {
         BloomFilterTest::new_data_index_bloom_encoding_stats()
 
@@ -560,6 +560,7 @@ impl FileSource for ParquetSource {
                 .batch_size
                 .expect("Batch size must set before creating ParquetMorselizer"),
             limit: base_config.limit,
+            offset: base_config.offset,
             preserve_order: base_config.preserve_order,
             predicate: self.predicate.clone(),
             table_schema: self.table_schema.clone(),
@@ -583,6 +584,10 @@ impl FileSource for ParquetSource {
         }))
     }
 
+    fn supports_offset(&self) -> bool {
+        true
+    }
+
     fn table_schema(&self) -> &TableSchema {
         &self.table_schema
     }
 
@@ -280,6 +280,13 @@ pub trait FileSource: Any + Send + Sync {
         Ok(SortOrderPushdownResult::Unsupported)
     }
 
+    /// Whether this source can efficiently skip rows for OFFSET queries
+    /// (e.g., by skipping entire row groups based on row counts).
+    /// Default: false.
+    fn supports_offset(&self) -> bool {
+        false
+    }
+
     /// Try to push down a projection into this FileSource.
     ///
     /// `FileSource` implementations that support projection pushdown should