CS224W-图神经网络 笔记6.1:Message Passing and Node Classification - 节点分类方法简介

CS224W-图神经网络 笔记6.1:Message Passing and Node Classification - 节点分类方法简介

本文总结之日CS224W Winter 2021只更新到了第四节,所以下文会参考2021年课程的PPT并结合2019年秋季课程进行总结以求内容完整

课程主页:CS224W: Machine Learning with Graphs

视频链接:【斯坦?!緾S224W:图机器学习( 中英字幕 | 2019秋)

[toc]

引言

如何在给定一个网络上某些节点的标签,为所有其他无标签的节点分配标签? 这类任务在现实生活中很常见。本节要介绍的协作分类(Collective Classification)是一种解决方案。

协作分类(Collective Classification)

协作分类(Collective Classification)是一种有效的网络数据分类方法,它利用网络数据中节点间的关联关系,结合部分节点标签和属性,推断未知标签的节点的标签。它是一种半监督的节点分类方法。

ps:其实从经验来看,当有标签节点数量足够时,应当优先考虑有监督的节点分类算法。

1 算法思想

1.1 为什么可以利用关联关系,推断节点标签?

因为,网络中蕴含着相关性信息。

网络环境使得个体行为产生关联。具体相关性原因(形式)有三种:

  1. homophily:“物以类聚,人以群分”,有相同性质的节点间可能存在更密切的联系.比如:有相同喜好的人,更倾向于产生联系。
  2. influence:“近朱者赤,近墨者黑”,一个个体有可能会受其它个体的影响而具有某种性质。如因为朋友的推荐,也会产生相同的喜好
  3. confounding:大环境可能会对个体性质和个体间的联系产生影响??梢钥醋龇乔傲街衷虻钠渌颉?div id="2cccccccc8" class="image-package">
    图片

这三种形式,在现实网络的观察中都得到验证。如种族网络:

图片

1.2 如何利用关联关系,推断节点标签?

Guilt-by-association

(我将其直译为 连累法).如果一个节点连接到具有特定标签的另一个节点,则该节点很可能有相同标签。换句话说:相似的节点通常距离很近或者直接相连

基于这样的假设可以进行如区分恶意网站识别页等任务。因为通常恶意网页往往会相互链接,以提高知名度,使得看起来可信,以提高在搜索引擎中排名。

课上老师说,Guilt-by-association法要求 网络节点有同质性(homophily)。

如何进行节点分类

具体可利用信息有

图片

但是,如果只使用这些信息,而不使用网络结构属性,那么我们只会在这些特征上训练简单的分类器。为了使我们能够进行集体分类,我们还需要考虑网络拓扑结构。这就是我们要介绍的协作分类(Collective Classification)。

2. 协作分类的步骤

需要以下三个组成部分:

图片
  1. local classifier:本地分类器
  • 目的:预测初始标签:

    仅依据节点自身属性和特征,不涉及网络信息。这里可以用很多常见的分类器,甚至是kNN。其实,如果这一步效果足够好,是没有必要进行后续的操作,但通常有标签的数量非常少,这一步的效果,不会太好。

  1. Relational Classifier:关系分类器
  • 目的:基于网络捕捉节点相关性(如:homophily 和 influence)

    根据节点邻接的标签和特征预测该节点标签。运用了网络信息。

  1. collective inference:协作推断
  • 目的:基于网络传递相关性信息

    不想仅使用邻居的信息,而是希望通过多次迭代,能够获取其他节点的信息。

    具体的,是将关系分类器迭代运用到每个节点上,迭代直到收敛(节点与邻居的标签差异程度inconsistency最?。A硗?,网络的结构会影响最终的预测结果。

2.1 协作分类的种类

它有三种代表性的近似推断的方法,都是迭代型算法。分别:

  • 关系分类 relational classification
  • 迭代分类 iterative classification
  • 信念传播 belief propagation

近似推断有个前提假设——马尔可夫假设(Markov Assumption),即节点i的类别Y_i只取决于它的邻接节点N_i . 用条件概率表示

P(Y_i|i)=P(Y_i|N_i)

关于条件概率的精确推断和近似推断

从概率图模型角度看,如果我们将每个节点表示为离散的随机变量,其类成员的联合质量函数为P,则节点的边沿分布为所有其他节点上的p的总和。

  • 精确推断(exact inferance) 精确推断 需要是节点数的指数级,是一个np-hard的问题。
  • 近似推断(approximate inferance) 通过缩小传播范围(例如,仅邻居)和变量的数量,通过聚合来近似解决推断问题。并且大多数情况下可以取得不错的结果。

总结

各类方法的介绍放在下一节,同时结合具体案例,进一步加深理解,敬请期待。

参考文章

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容