互联网公司设计架构_互联网公司的设计

  在

互联网公司设计架构_互联网公司的设计

信息检索领域,异质图神经网络(HGNN)作为图学习与表示方法,能够利用复杂的结构信息与丰富的语义信息,已经被广泛应用于推荐、知识表示等任务中。然而,对于研究者来说,仍旧很难去评价模型的好坏并提出新的模型。因为先前的评测都是在模型层面(model-level)做比较,由于模型之间不同的架构与应用场景,我们不能准确地感知每个组件的重要性。

为了从模块层面进行评测,我们通过分析底层图数据形式与聚合过程,首先提出一个统一的HGNN框架,如Figure (1)所示,包含三大核心组件:

异质线性变换

(Heterogeneous Linear Transformation)、

异质图变换

(Heterogeneous Graph Transformation)、

异质消息传递

(Heterogeneous Message Passing Layer)。

  arxiv:

https://arxiv.org/abs/2202.09177

  Github:

https://github.com/BUPT-GAMMA/Space4HGNN

  受到GraphGym [1] 启发,基于我们提出的统一HGNN框架,我们定义了HGNN的设计空间,包含不同设计维度的笛卡尔乘积。GraphGym已经提出了一些GNN中不同设计维度的分析结果与指导。为了探究GraphGym中的指导是否同样适用HGNN,我们的设计空间将会包含GraphGym的设计维度。除此之外,我们依据组件异质图变换提炼出三个模型族,涉及的相关设计维度也会包含在我们的设计空间中。

  基于提出的设计空间,我们构建了一个平台Space4HGNN,提供了可复现的模型实现、不同架构设计的标准评测、易用的扩展接口。我们希望Space4HGNN能够加快该领域的发展。具体来说,我们能够快速地探究出某些设计技巧或者设计架构是否有效,方便地提出新的模型,在更多有趣的应用场景应用HGNN。除此之外,该平台在未来的工作中也能够作为网络架构搜索(NAS)的基础。

  依据提出的设计空间,我们构建大量的实验并分析不同的设计维度的重要性,并依次压缩了整个设计空间。在压缩后的设计空间中,通过一个简单的随机搜索便能获得SOTA的性能结果。

一、统一的异质图神经网络框架

  异质图神经网络依据感知域主要可以分成两类:基于一跳邻居(关系)的聚合方式(HGNN based on one-hop neighbor aggregation),如RGCN [2]、HGT [3]、SimpleHGN [4]等;基于元路径邻居的聚合(HGNN based on meta-path neighbor aggregation),如HAN [5]、GTN [6]等。

  然而传统的分类方法在实现上并不能很好地统一到一个框架上,于是我们分析了不同模型实现过程中的底层数据形式与聚合流程,提出了一个统一的异质图神经网络框架,包含三大组件:异质线性变换异质图变换、异质消息传递层

(a)异质线性变换在异质图中,不同类型的节点通常包含不同的语义特征,甚至特征唯一也不一致。因此我们需要设计一个与类型相关的(type-specific)线性层,将不同类型的特征映射到同一个特征空间中。除此之外,对于没有特征的节点或者特征充满噪音的节点,我们会赋予可学习的向量,即嵌入(Embedding)。异质的线性变换公式如下:

(b)异质图变换:在先前的工作中,基于一跳邻居的聚合通常将图卷积层直接应用在原图上,隐含地选择了一跳(关系)感知域(receptive)。基于元路径邻居的聚合通常是在构造的元路径子图上完成,显式地选择了多跳(元路径)感知域。关系(Relation)是一种特殊的元路径,即一跳的元路径,所以关系子图(Relation subgraph)是特殊的元路径子图(Meta-path Subgraph)。为了统一这两类子图,我们提出了一个组件,来抽象感知域的选择过程,决定了哪些节点被聚合。

  所以如图(b)所示,我们为图的构造制定了一个独立的组件:异质图变换,并将其分类为下列四种:

  (i)关系子图抽取,抽取出特定关系下的邻接矩阵;

  (ii)元路径子图抽取,构造预定义的元路径下的子图;

  (iii)混合子图抽取,同时构建上述两者子图;

  (iv)异质图的同质化,同时保留一个边与节点的类型映射。

(c)异质消息传递层:传统上依据感知域对模型进行分类,但我们在实现上无法找出足够多的共性,为定义设计空间与搜索新的模型带来困难。因此,我们将从聚合方式的角度来分类模型,将现有模型分为两类:直接聚合(direct-aggregation)与双重聚合(dual-aggregation)。

直接聚合:该聚合过程不区分邻居节点类型直接聚合邻居传递的信息。像同质图模型GCN、GAT、GraphSage等也是HGNN中常见的基线模型,均是不区分邻居节点的类型。除此之外,还有一些HGNN模型也是直接聚合的方式,他们都是在消息函数上来挖掘异质性,并非在聚合过程考虑异质性,如HGAT [6]、HetSANN [7]、HGT [3]、SimpleHGN [4]等。如表所示,这些模型和GAT使用一样的聚合方式,但是在计算注意力系数时考虑了图上的异质性。

双重聚合:受到HGConv [8]的启发,我们定义双重聚合的两阶段:微观(micro-level)聚合和宏观(macro-level)聚合。如图(c)所示,微观聚合是聚合同一关系(或元路径)下的邻居节点,即在相应的关系(或元路径)子图下生成类型特定的特征;宏观聚合则是去聚合这些类型特定的特征。当多种关系(或元路径)有相同的目的节点类型时,这些关系(或元路径)产生的类型特定的特征将会被宏观聚合。例如,RGCN [2]使用的GCNConv的微观聚合与SUM的宏观聚合;HAN [5]使用的是GATConv的微观聚合和Attention的宏观聚合。HGConv则使用与HAN [5]相同的聚合方式,区别在于聚合的感知域,HAN是在元路径感知域下进行聚合,HGConv则是在关系(一跳)感知域下进行聚合。

注意:直接聚合与双重聚合的界线没有那么明显,主要特定在于,直接聚合的操作是类型无关的(type-agnostic),适合在异质图的同质化数据类型上完成;而双重聚合的操作通常是类型特定的(type-specific),适合在关系(或元路径)子图上完成。以注意力机制的softmax举例,公式(3)是类型无关的softmax操作,公式(4)是类型特定的softmax操作,即分母项中,邻居的范围是类型特定的。

二、异质图神经网络的设计空间

  受到GraphGym的启发,我们提出了HGNN的设计空间,构建了平台Space4HGNN,为研究者提供了模块化的实现。如图所示,我们将从两个方面来描述设计空间:与GraphGym共有的设计维度(黄色标注的维度);HGNN中独特的设计维度(红色标注的维度)。

与GraphGym共有的设计维度:如图所示黄色标注所示,一共涉及到12个维度,大致可以分成三类:层间(intra-layer)的设计维度、层内(inter-layer)的设计维度和训练相关的维度(training settings)。

HGNN独特的设计维度:我们将框架中模块化组件转变成HGNN上的独特的设计维度。同时,我们提炼出三大模型族(model family):同质化模型族、关系型模型族、元路径型模型族。一些神经网络架构的集合,通常共享一些高层的网络架构或设计原则的模型称之为模型族。

同质化模型族:使用直接聚合(direct-aggregation)方式,同时搭配一些同质卷积层(GCNConv、GATConv等)或异质卷积层(HGATConv、SimpleHGNConv等)。

关系型模型族:使用在关系子图上的双重聚合(dual-aggregation),同时包含微观聚合(GCNConv、GATConv等)与宏观聚合(Mean、Max、Attention等)。

元路径型模型族:使用在元路径子图上的双重聚合,其他与关系型模型族一致。

Space4HGNN:异质图设计空间平台

  我们实现了一个新的平台Space4HGNN来探索HGNN上的设计空间。我们希望Space4HGNN能够极大地推动HGNN的研究发展。它基于PyTorch [9]与DGL [10],并部署至OpenHGNN [11](异质图神经网络开源工具包)中。它提供了标准的评测流程以及模块化的实现等。

三、 实验

数据集:我们选择了一个最新的Heterogeneous Graph Benchmark(HGB),包含多个不同异质性的数据集,并选取了五个数据集作为节点分类任务,六个数据集作为链路预测任务。

评测技术:我们的设计空间超过40M的组合,完整的网格搜索不太现实。我们采用GraphGym提出的受限随机搜索(controlled random search)。

与GraphGym共有的设计维度评测:部分设计维度与GraphGym一致:如BN、L2-Norm、层数、训练设置等;部分不一致:预处理层数、激活函数、Dropout等。除此之外,还有一些与任务相关的设计维度:BN在链路预测任务表现好,然而在节点分类中不好;L2-Norm则表现与BN恰好相反。

异质图上独特的设计维度评测:我们对相关实验结果进行了分析总结,更多的实验结果详见论文与附录:

模型族:元路径型模型族对节点分类任务有益,并分析了元路径子图下的同配性性质,元路径子图下的同配型高,则结果表现越好;关系型模型族在所有数据集上均不是表现最差的,所以相对是一个更安全的选择;同质化的模型族则能够在最少的参数下有一定的竞争力,在部分数据集上获得不错的结果。

微观聚合:不同的微观聚合层在不同数据集与任务上表现大相径庭,更印证出设计空间的重要性。

宏观聚合:Sum聚合在理论上是最具有表达力的,实验结果也证明了这一点。同时,Attention表现不像Sum这么有效,我们猜测微观聚合以及足够强大,使得复杂的Attention在宏观聚合上显得不那么必要。

压缩后的设计空间评测:上述的一些实验结果正表明了单个HGNN模型不能保证在大量的现实应用场景中获得出色的效果。于是,我们压缩了原始的设计空间,去除了一些不好的选择,保留一些重要的设计维度,将空间缩小500倍。在压缩后的空间中,我们使用一个简单的随机搜索,变成搜索出SOTA的性能。

  更多的实验结果请参考论文及其附录。

参考文献

  [1] Design Space for Graph Neural Networks. NeurIPS 2020.

  [2] Modeling Relational Data with Hraph Convolutional Networks. ESWC 2018.

  [3] Heterogeneous Graph Transformer. WWW 2020.

  [4] Are we really making much progress? Revisiting, benchmarking and refining heterogeneous graph neural networks. KDD 2021.

  [5] Heterogeneous Graph Attention Network. WWW 2019.

  [6] Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification. EMNLP 2019.

  [7] An attention-based Graph Neural Network for Heterogeneous Structural

  Learning. AAAI 2020.

  [8] Hybrid Micro/Macro Level Convolution for Heterogeneous Graph Learning. 2020.

  [9] https://pytorch.org/

  [10] https://github.com/dmlc/dgl

  [11] https://github.com/BUPT-GAMMA/OpenHGNN

  本文来自:公众号【北邮Gamma Lab】

  作者:赵天宇

Illustration by Dani Vinogradova from icons8

  -The End-

  扫码观看!

  本周上新!

  “AI技术流”原创投稿计划

  TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。

社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

  投稿内容

  // 最新技术解读/系统性知识分享 //

  // 前沿资讯解说/心得经历讲述 //

  投稿须知

  稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

  投稿方式

  发送邮件到

  chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

  >> 投稿请添加工作人员微信!

  关于我“门”

  ▼

  将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,

  欢迎发送或者推荐项目给我“门”:

⤵一键送你进入TechBeat快乐星球

网站部分文章为转载,不代表本站立场,如若转载,请注明出处,如有侵犯您的权益,请联系我们进行删除:kuajingcaishui@163.com

(0)
上一篇 2022-07-17 15:52:59
下一篇 2022-07-17 16:06:41

相关推荐