DGLDataset

class dgl.data.DGLDataset(name, url=None, raw_dir=None, save_dir=None, hash_key=(), force_reload=False, verbose=False, transform=None)[source]

基类:object

用于创建图数据集的基础 DGL 数据集。此类定义了一个基础的 DGL 数据集模板类。将自动执行以下步骤:

  1. 通过调用 has_cache() 检查磁盘上是否存在数据集缓存(已处理并存储在磁盘上)。如果存在,跳至步骤 5。

  2. 如果 url 不为 None,则调用 download() 下载数据。

  3. 调用 process() 处理数据。

  4. 调用 save() 将处理后的数据集保存到磁盘,然后跳至步骤 6。

  5. 调用 load() 从磁盘加载处理后的数据集。

  6. 完成。

用户可以覆盖这些函数来实现自己的数据处理逻辑。

参数:
  • name (str) – 数据集名称

  • url (str) – 下载原始数据集的 URL。默认值:None

  • raw_dir (str) – 指定存储下载数据或已存储输入数据的目录。默认值:~/.dgl/

  • save_dir (str) – 保存处理后数据集的目录。默认值:与 raw_dir 相同

  • hash_key (tuple) – 作为哈希函数输入的元组值。用户可以通过比较哈希值来区分同一数据集类别的实例(及其在磁盘上的缓存)。默认值:(),对应的哈希值为 'f9065fa7'

  • force_reload (bool) – 是否重新加载数据集。默认值:False

  • verbose (bool) – 是否打印进度信息

  • transform (callable, optional) – 一个转换函数,接受 DGLGraph 对象并返回其转换后的版本。DGLGraph 对象在每次访问之前都会被转换。

url

下载数据集的 URL

类型:

str

name

数据集名称

类型:

str

raw_dir

存储所有下载的原始数据集的目录。

类型:

str

raw_path

下载的原始数据集文件夹路径。是 os.path.join(self.raw_dir, self.name) 的别名。

类型:

str

save_dir

保存所有处理后的数据集的目录。

类型:

str

save_path

处理后的数据集文件夹路径。是 os.path.join(self.save_dir, self.name) 的别名。

类型:

str

verbose

是否打印更多运行时信息。

类型:

bool

hash

数据集和设置的哈希值。

类型:

str

abstract __getitem__(idx)[source]

获取指定索引处的数据对象。

abstract __len__()[source]

数据集中的样本数量。