dgl.distributed.initialize

dgl.distributed.initialize(ip_config, max_queue_size=21474836480, net_type=None, num_worker_threads=1, use_graphbolt=False)[源代码]

初始化 DGL 的分布式模块

此函数初始化 DGL 的分布式模块。在服务器模式或客户端模式下行为不同。在服务器模式下,它运行服务器代码并永不返回。在客户端模式下,它与服务器建立连接进行通信,并创建工作进程用于分布式采样。

参数:
  • ip_config (str) – ip_config 文件的路径

  • max_queue_size (int) –

    客户端队列缓冲区(默认为 ~20 GB)的最大大小(字节)。

    请注意,20 GB 仅是一个上限,DGL 使用零拷贝,它不会一次性分配 20 GB 内存。

  • net_type (str, 可选) – [已弃用] 网络类型,只能是 'socket'。

  • num_worker_threads (int) – 每个采样器进程中的 OMP 线程数。

  • use_graphbolt (bool, 可选) – 是否使用 GraphBolt 进行分布式训练。

注意

用户必须在调用任何 DGL 分布式 API 和框架特定的分布式 API 之前调用此 API。例如,与 Pytorch 一起使用时,用户必须在调用 Pytorch 的 pytorch.distributed.init_process_group 之前调用此函数。