RomanEmpireDataset
- class dgl.data.RomanEmpireDataset(raw_dir=None, force_reload=False, verbose=True, transform=None)[源码]
基类:
HeterophilousGraphDataset
来自论文《A Critical Look at the Evaluation of GNNs under Heterophily: Are We Really Making Progress? <https://arxiv.org/abs/2302.11640>》的 Roman-empire 数据集。
该数据集基于英文维基百科中关于罗马帝国的文章,选择这篇文章是因为它是维基百科中最长的文章之一。图中的每个节点对应文本中的一个(非唯一)词。因此,图中的节点数等于文章的长度。当满足以下两个条件中至少一个时,两个词通过一条边连接:这些词在文本中相互紧随,或者这些词在句子的依存树中相连(一个词依赖于另一个词)。因此,该图是一个链式图,带有对应于词之间句法依存关系的其他快捷边。节点的类别是其句法角色(选择了 17 个最常见的角色作为唯一类别,所有其他角色被归为第 18 类)。节点特征是词嵌入。
统计信息
节点数:22662
边数:65854
类别数:18
节点特征:300
10 个训练/验证/测试划分
- 参数:
示例
>>> from dgl.data import RomanEmpireDataset >>> dataset = RomanEmpireDataset() >>> g = dataset[0] >>> num_classes = dataset.num_classes
>>> # get node features >>> feat = g.ndata["feat"]
>>> # get the first data split >>> train_mask = g.ndata["train_mask"][:, 0] >>> val_mask = g.ndata["val_mask"][:, 0] >>> test_mask = g.ndata["test_mask"][:, 0]
>>> # get labels >>> label = g.ndata['label']
- __getitem__(idx)
获取指定索引处的数据对象。
- __len__()
数据集中样本的数量。