Custom Aggregations¶

This notebook is motivated by a post on the Pangeo discourse forum.

Even better would be a command that lets me simply do the following.
A = da.groupby(['lon_bins', 'lat_bins']).mode()

This notebook will describe how to accomplish this using a custom Aggregation.

Tip

flox now supports mode, nanmode, quantile, nanquantile, median, nanmedian using exactly the same approach as shown below

import numpy as np
import numpy_groupies as npg
import xarray as xr

import flox.xarray
from flox import Aggregation
from flox.aggregations import mean

# define latitude and longitude bins
binsize = 1.0  # 1°x1° bins
lon_min, lon_max, lat_min, lat_max = [-180, 180, -65, 65]
lon_bins = np.arange(lon_min, lon_max, binsize)
lat_bins = np.arange(lat_min, lat_max, binsize)

size = 28397


da = xr.DataArray(
    np.random.randint(0, 7, size=size),
    dims="profile",
    coords={
        "lat": (
            "profile",
            (np.random.random(size) - 0.5) * (lat_max - lat_min),
        ),
        "lon": (
            "profile",
            (np.random.random(size) - 0.5) * (lon_max - lon_min),
        ),
    },
    name="label",
)
da

<xarray.DataArray 'label' (profile: 28397)> Size: 227kB
array([1, 5, 0, ..., 2, 6, 6], shape=(28397,))
Coordinates:
    lat      (profile) float64 227kB -6.426 -64.84 -10.78 ... -18.28 27.24
    lon      (profile) float64 227kB 20.64 172.6 122.3 ... 26.17 161.1 88.85
Dimensions without coordinates: profile

A built-in reduction¶

First a simple example of lat-lon binning using a built-in reduction: mean

binned_mean = flox.xarray.xarray_reduce(
    da,
    da.lat,
    da.lon,
    func="mean",  # built-in
    expected_groups=(lat_bins, lon_bins),
    isbin=(True, True),
)
binned_mean.plot()

<matplotlib.collections.QuadMesh at 0x7b2e7391da90>

../_images/31bf1b6abdf376a9dee97742599cfd20457982fe6a9e8f1acf3ebd4e7899d5d6.png

Aggregations¶

flox knows how to interperet func="mean" because it’s been implemented in aggregations.py as an Aggregation

An Aggregation is a blueprint for computing an aggregation, with both numpy and dask data.

print(type(mean))
mean

<class 'flox.aggregations.Aggregation'>

'mean', fill: dict_values([<NA>, (0, 0)]), dtype: None
chunk: ('sum', 'nanlen')
combine: ('sum', 'sum')
finalize: <function _mean_finalize at 0x7b2e75167ab0>
min_count: 0

Here’s how the mean Aggregation is created

mean = Aggregation(
    name="mean",

    # strings in the following are built-in grouped reductions
    # implemented by the underlying  "engine": flox or numpy_groupies or numbagg

    # for pure  numpy inputs
    numpy="mean",

    # The next are for dask inputs and describe how to reduce
    # the data in parallel
    chunk=("sum", "nanlen"), # first compute these blockwise : (grouped_sum, grouped_count)
    combine=("sum", "sum"), #  reduce intermediate results (sum the sums, sum the counts)
    finalize=lambda sum_, count: sum_ / count, # final mean value (divide sum by count)

    fill_value=(0, 0),  # fill value for intermediate  sums and counts when groups have no members
    dtypes=(None, np.intp),  # optional dtypes for intermediates
    final_dtype=np.floating,  # final dtype for output
)

Defining a custom aggregation¶

First we’ll need a function that executes the grouped reduction given numpy inputs.

Custom functions are required to have this signature (copied form numpy_groupies):

def custom_grouped_reduction(
    group_idx, array, *, axis=-1, size=None, fill_value=None, dtype=None
):
    """
    Parameters
    ----------

    group_idx : np.ndarray, 1D
        integer codes for group labels (1D)
    array : np.ndarray, nD
        values to reduce (nD)
    axis : int
        axis of array along which to reduce. Requires array.shape[axis] == len(group_idx)
    size : int, optional
        expected number of groups. If none, output.shape[-1] == number of uniques in group_idx
    fill_value : optional
        fill_value for when number groups in group_idx is less than size
    dtype : optional
        dtype of output

    Returns
    -------

    np.ndarray with array.shape[-1] == size, containing a single value per group
    """
    pass

Since numpy_groupies does not implement a median, we’ll do it ourselves by passing np.median to numpy_groupies.aggregate_numpy.aggregate. This will loop over all groups, and then execute np.median on the group members in serial. It is not fast, but quite convenient.

def grouped_median(group_idx, array, *, axis=-1, size=None, fill_value=None, dtype=None):
    return npg.aggregate_numpy.aggregate(
        group_idx,
        array,
        func=np.median,
        axis=axis,
        size=size,
        fill_value=fill_value,
        dtype=dtype,
    )

Now we create the Aggregation

agg_median = Aggregation(
    name="median",
    numpy=grouped_median,
    fill_value=-1,
    chunk=None,
    combine=None,
)
agg_median

'median', fill: dict_values([<NA>, (-1,)]), dtype: None
chunk: (None,)
combine: (None,)
finalize: None
min_count: 0

And apply it!

flox.xarray.xarray_reduce(
    da,
    da.lat,
    da.lon,
    func=agg_median,
    expected_groups=(lat_bins, lon_bins),
    isbin=(True, True),
    fill_value=np.nan,
)

<xarray.DataArray 'label' (lat_bins: 129, lon_bins: 359)> Size: 370kB
array([[1. , nan, nan, ..., 2.5, nan, 4. ],
       [1. , nan, 4.5, ..., nan, nan, 0.5],
       [nan, 3. , nan, ..., 1.5, nan, nan],
       ...,
       [2. , nan, nan, ..., nan, nan, 3. ],
       [0. , nan, nan, ..., nan, 5. , 6. ],
       [nan, nan, nan, ..., 1.5, 6. , nan]], shape=(129, 359))
Coordinates:
  * lat_bins  (lat_bins) object 1kB (-65.0, -64.0] ... (63.0, 64.0]
  * lon_bins  (lon_bins) object 3kB (-180.0, -179.0] ... (178.0, 179.0]

xarray.DataArray

'label'

lat_bins: 129
lon_bins: 359

1.0 nan nan 3.0 nan 2.0 nan nan ... nan 3.0 0.0 nan 0.0 1.5 6.0 nan

array([[1. , nan, nan, ..., 2.5, nan, 4. ],
       [1. , nan, 4.5, ..., nan, nan, 0.5],
       [nan, 3. , nan, ..., 1.5, nan, nan],
       ...,
       [2. , nan, nan, ..., nan, nan, 3. ],
       [0. , nan, nan, ..., nan, 5. , 6. ],
       [nan, nan, nan, ..., 1.5, 6. , nan]], shape=(129, 359))

Coordinates: (2)

lat_bins

(lat_bins)

object

(-65.0, -64.0] ... (63.0, 64.0]

array([Interval(-65.0, -64.0, closed='right'),
       Interval(-64.0, -63.0, closed='right'),
       Interval(-63.0, -62.0, closed='right'),
       Interval(-62.0, -61.0, closed='right'),
       Interval(-61.0, -60.0, closed='right'),
       Interval(-60.0, -59.0, closed='right'),
       Interval(-59.0, -58.0, closed='right'),
       Interval(-58.0, -57.0, closed='right'),
       Interval(-57.0, -56.0, closed='right'),
       Interval(-56.0, -55.0, closed='right'),
       Interval(-55.0, -54.0, closed='right'),
       Interval(-54.0, -53.0, closed='right'),
       Interval(-53.0, -52.0, closed='right'),
       Interval(-52.0, -51.0, closed='right'),
       Interval(-51.0, -50.0, closed='right'),
       Interval(-50.0, -49.0, closed='right'),
       Interval(-49.0, -48.0, closed='right'),
       Interval(-48.0, -47.0, closed='right'),
       Interval(-47.0, -46.0, closed='right'),
       Interval(-46.0, -45.0, closed='right'),
       Interval(-45.0, -44.0, closed='right'),
       Interval(-44.0, -43.0, closed='right'),
       Interval(-43.0, -42.0, closed='right'),
       Interval(-42.0, -41.0, closed='right'),
       Interval(-41.0, -40.0, closed='right'),
       Interval(-40.0, -39.0, closed='right'),
       Interval(-39.0, -38.0, closed='right'),
       Interval(-38.0, -37.0, closed='right'),
       Interval(-37.0, -36.0, closed='right'),
       Interval(-36.0, -35.0, closed='right'),
       Interval(-35.0, -34.0, closed='right'),
       Interval(-34.0, -33.0, closed='right'),
       Interval(-33.0, -32.0, closed='right'),
       Interval(-32.0, -31.0, closed='right'),
       Interval(-31.0, -30.0, closed='right'),
       Interval(-30.0, -29.0, closed='right'),
       Interval(-29.0, -28.0, closed='right'),
       Interval(-28.0, -27.0, closed='right'),
       Interval(-27.0, -26.0, closed='right'),
       Interval(-26.0, -25.0, closed='right'),
       Interval(-25.0, -24.0, closed='right'),
       Interval(-24.0, -23.0, closed='right'),
       Interval(-23.0, -22.0, closed='right'),
       Interval(-22.0, -21.0, closed='right'),
       Interval(-21.0, -20.0, closed='right'),
       Interval(-20.0, -19.0, closed='right'),
       Interval(-19.0, -18.0, closed='right'),
       Interval(-18.0, -17.0, closed='right'),
       Interval(-17.0, -16.0, closed='right'),
       Interval(-16.0, -15.0, closed='right'),
       Interval(-15.0, -14.0, closed='right'),
       Interval(-14.0, -13.0, closed='right'),
       Interval(-13.0, -12.0, closed='right'),
       Interval(-12.0, -11.0, closed='right'),
       Interval(-11.0, -10.0, closed='right'),
       Interval(-10.0, -9.0, closed='right'),
       Interval(-9.0, -8.0, closed='right'),
       Interval(-8.0, -7.0, closed='right'),
       Interval(-7.0, -6.0, closed='right'),
       Interval(-6.0, -5.0, closed='right'),
       Interval(-5.0, -4.0, closed='right'),
       Interval(-4.0, -3.0, closed='right'),
       Interval(-3.0, -2.0, closed='right'),
       Interval(-2.0, -1.0, closed='right'),
       Interval(-1.0, 0.0, closed='right'), Interval(0.0, 1.0, closed='right'),
       Interval(1.0, 2.0, closed='right'), Interval(2.0, 3.0, closed='right'),
       Interval(3.0, 4.0, closed='right'), Interval(4.0, 5.0, closed='right'),
       Interval(5.0, 6.0, closed='right'), Interval(6.0, 7.0, closed='right'),
       Interval(7.0, 8.0, closed='right'), Interval(8.0, 9.0, closed='right'),
       Interval(9.0, 10.0, closed='right'),
       Interval(10.0, 11.0, closed='right'),
       Interval(11.0, 12.0, closed='right'),
       Interval(12.0, 13.0, closed='right'),
       Interval(13.0, 14.0, closed='right'),
       Interval(14.0, 15.0, closed='right'),
       Interval(15.0, 16.0, closed='right'),
       Interval(16.0, 17.0, closed='right'),
       Interval(17.0, 18.0, closed='right'),
       Interval(18.0, 19.0, closed='right'),
       Interval(19.0, 20.0, closed='right'),
       Interval(20.0, 21.0, closed='right'),
       Interval(21.0, 22.0, closed='right'),
       Interval(22.0, 23.0, closed='right'),
       Interval(23.0, 24.0, closed='right'),
       Interval(24.0, 25.0, closed='right'),
       Interval(25.0, 26.0, closed='right'),
       Interval(26.0, 27.0, closed='right'),
       Interval(27.0, 28.0, closed='right'),
       Interval(28.0, 29.0, closed='right'),
       Interval(29.0, 30.0, closed='right'),
       Interval(30.0, 31.0, closed='right'),
       Interval(31.0, 32.0, closed='right'),
       Interval(32.0, 33.0, closed='right'),
       Interval(33.0, 34.0, closed='right'),
       Interval(34.0, 35.0, closed='right'),
       Interval(35.0, 36.0, closed='right'),
       Interval(36.0, 37.0, closed='right'),
       Interval(37.0, 38.0, closed='right'),
       Interval(38.0, 39.0, closed='right'),
       Interval(39.0, 40.0, closed='right'),
       Interval(40.0, 41.0, closed='right'),
       Interval(41.0, 42.0, closed='right'),
       Interval(42.0, 43.0, closed='right'),
       Interval(43.0, 44.0, closed='right'),
       Interval(44.0, 45.0, closed='right'),
       Interval(45.0, 46.0, closed='right'),
       Interval(46.0, 47.0, closed='right'),
       Interval(47.0, 48.0, closed='right'),
       Interval(48.0, 49.0, closed='right'),
       Interval(49.0, 50.0, closed='right'),
       Interval(50.0, 51.0, closed='right'),
       Interval(51.0, 52.0, closed='right'),
       Interval(52.0, 53.0, closed='right'),
       Interval(53.0, 54.0, closed='right'),
       Interval(54.0, 55.0, closed='right'),
       Interval(55.0, 56.0, closed='right'),
       Interval(56.0, 57.0, closed='right'),
       Interval(57.0, 58.0, closed='right'),
       Interval(58.0, 59.0, closed='right'),
       Interval(59.0, 60.0, closed='right'),
       Interval(60.0, 61.0, closed='right'),
       Interval(61.0, 62.0, closed='right'),
       Interval(62.0, 63.0, closed='right'),
       Interval(63.0, 64.0, closed='right')], dtype=object)

lon_bins

(lon_bins)

object

(-180.0, -179.0] ... (178.0, 179.0]

array([Interval(-180.0, -179.0, closed='right'),
       Interval(-179.0, -178.0, closed='right'),
       Interval(-178.0, -177.0, closed='right'), ...,
       Interval(176.0, 177.0, closed='right'),
       Interval(177.0, 178.0, closed='right'),
       Interval(178.0, 179.0, closed='right')], shape=(359,), dtype=object)