Skip to content

Processor模块

进行写chunk等预处理操作。

原理

目前,数据下载后上传到MinIO服务器中。

1
2
MinIO提供高性能、与S3兼容的对象存储系统。
可以使用Minio SDK,Minio Client,AWS SDK和 AWS CLI访问Minio服务器。

此阶段,数据在MinIO仍然以文件的形式存储。

  • 存在问题:
  • 如果文件很大读取效率低。
  • 跨文件读取不方便;

  • 解决思路: 写块(chunk)

  • 实现目标: 将数据转化为zarr格式

  • 实现方法: 使用kerchunk

1
2
3
简单说,kerchunk能够更高效地读取本地或s3(如minio)上的数据,
支持如NetCDF/HDF5, GRIB2, TIFF等部分格式的高效读取(解决问题1),
并且能够跨文件创建虚拟数据集(解决问题2)。
- kerchunk是通过写JSON文件的形式完成上述功能的。

使用

代码尚未整理……


Last update: 2023-08-29