当前位置:首页  学科建设

中山大学陈梁副教授来我院讲授大数据研究方法

时间:2018-05-14浏览:1204

201857日上午,入选广东“百人计划”青年人才的中山大学传播与设计学院的陈梁副教授为我院学生带来了一场题为:“大数据研究方法在传播学研究中的运用与思考”的精彩讲座。

陈梁老师不仅承担许多重要课题,还积极投身于社会服务工作当中,比如他加入广东省舆情大数据分析与仿真重点实验室进行舆情研究。这次讲座就紧紧围绕着大数据研究方法中的“社会网络分析”展开。讲座过后,陈梁老师还为学院的本科生和研究生介绍了中山大学的研究生和博士生招生计划。

讲座由我院老师张梅教授、宋美杰副教授和池见星博士共同主持。

一、何为社会网络分析

大数据研究方法包括社会网络分析、主题建模、数据挖掘、文本分析等,但是陈梁老师认为社会网络分析在大数据研究尤其是传播学研究中扮演着更重要的角色,被应用得最多。

陈梁老师指出,社会网络分析最早是从物理学概念—复杂网络—发展而来,从2000年起开始在整个社会科学领域中被广泛使用,主要研究社会关系。传统的社会研究探讨的是个人的属性,但是个体在社会当中,其行为和态度时常受到他人的影响社会结构影响了个人的行为和态度,所以我们就有必要探讨在整个社会结构当中,个人的行为是如何与社会结构发生关系的。

社会关系不是传播学的概念,但是社会关系和传播有着千丝万缕的关系,例如我们在探讨人际传播的时候,就是在分析人与人之间的交流塑造和发展了怎样的关系,所以社会网络分析在传播学研究中同样适用。

二、具体操作方法

陈梁老师认为,传统社会科学探讨的都是个人属性(monadic attributes,而社会网络分析关心的则是人与人之间的关系属性(relation attributes)。比如,亲属关系(kinship)、角色分析social roles)、信息流通过程(information flow和共现关系(co-occurrence:可理解为相关联的词汇共同出现了多少次)等。

社会网络由节点(nodes)和关系(edges)组成,节点可以是一个人、一个地方或者是一段信息,人和人之间关系种类非常多,如相似关系(similarities)、社会关系(socialrelations)、互动关系(interactions)和信息流通关系(flows)等。

陈梁老师将人与人之间的关系分为两类,有向(directed)和无向(undirected):

例如,情侣连在一起就是无向关系,提名好友就是有向关系,我选择你和你选择我意味着不同的方向。

  

除此之外,节点间关系的测量还会考虑权重问题,即加权(weighted)或不加权(unweighted),因为人与人之间的关系有强弱之分,交流次数越多权重也就越高。此外,朋友之间认识的时间长短和在好友心中的排序都会影响权重的大小。

最后,陈梁老师提出了中心度(Centrality)的概念,简单来说,中心度反映了一个人在社会网络中的重要程度,中间度高的人能够影响到他人的行为,也就是传播学概念中的“意见领袖”。中心度的概念化可分为四个维度:

1度中心性(Degree Centrality:在无向网络中度中心性可由以下公式计算得到,

    CD(i)即度中心性的值,它等于一个人跟网络中其他所有人连线的总和。

2亲密中心Closeness Centrality

亲密中心性测量的是一个人到网络中其他人的亲密程度,所以当i到j的距离之和越小时,亲密中心度就越高。

3、中介中心性(Between Centrality

中介中心性测量的是信息从S到T的流通过程中,C是否在其中扮演着桥梁作用。有时,C还扮演着“把关人”的角色。

4、特征向量中心性(eigenvector centrality :

这个指标不仅关注一个人与多少人有朋友关系,还关心在这些朋友之中是否有社会地位高、分量重的人。

三、研究实例:艾滋病社群中使用者的社交媒体影响力研究

为了进一步说明研究方法,陈梁老师为大家重点分析了一个研究实例,研究题目是艾滋病社群中使用者的社交媒体影响力研究,研究起因是他认为很多时候人们获取信息不是来自媒体而是来自身边重要的人,而且即使一个人获取的信息来源于媒体,身边人的意见会影响判断和态度。研究对象是微博中的艾滋病社群中的使用者。该研究主要解决两个研究问题:一是在微博的艾滋病社群中谁是有影响力的个体?二是在中国技术发展水平不同的区域中,个人影响力存在怎样的差异?

该研究的数据收集于20142月,使用python工具抓取到了社群中全部的membership,数量有900多个,由于研究要求member至少在社群中说过一句话,所以有效样本是724个。

根据收集的数据,陈梁老师基于follower-followee网络和post-reply网络进行分析。个人影响力这个变量通过五个指标来测量,即入度中心性(indegree)、出度中心性(outdegree)、中介中心性(Between Centrality)、特征向量中心性(eigenvector centrality)和聚类系数(clustering coefficient)。数字鸿沟变量由各地ICT发展指数来测量。研究采用了多变量方差方法(MANOVA)进行数据分析。最后研究发现,follower-followee网络和post-reply网络呈现弱相关,四个维度的中心度网络两两之间呈现强相关。大多数在入度中心性(indegree)或者出度中心性(outdegree)中扮演重要角色的人在中介中心度和特征向量中心度中也有着出色的表现,而在follower-followee网络中扮演重要角色的人在post-reply网络中并没有那么重要。陈梁老师推测原因是follower-followee网络强调朋友关系,但在HIV社群中,一个人没有相应的知识,就很难给其他人提供信息。在技术水平发达区域的人易受到更多人的关注,在技术水平发达区域的人更容易扮演一个桥接的作用,更愿意参与讨论和跟随大家。

陈梁老师在简单概括第二个研究的时候指出,很多线下研究得出的理论照搬到线上会得到截然不同的结果,虽然旧理论不能完全适用,但是它为未来的研究提供了新的方向。

  

问答环节:

1、老师您在做这类研究的时候,如何权衡隐私和信息的使用。

答:做研究没有办法征得每一个人的同意,但这个研究会通过一个“伦理委员会”,我会告诉它,我们会使用什么样的信息,在发表当中,所有关于个人的ID信息,或者可回溯的信息,我们都是隐藏起来的,在网络中,我们根本看不到ID后面到底是谁。正是因为这是量化研究,反而不会回溯到被研究者是谁。

2、您本科是学文学的,最后是如何走向理工科的方向?

答:在国际上,做社会网络分析和大数据的多是文科出身,国际传播年会主席本科就是学英语的。其实,后期开始学并不难,技术并不是最重要的,如何运用技术去解决问题才是最重要。另外,已经想好毕业论文题目的同学每次带着问题去听讲座会有更大收获。

3、怎样分辨新现象研究是为传统理论做注脚还是在发展新的理论?

两者都很好,理论发展需要一个过程,我们发现了一种可能性以后才能进行下一步研究,新现象研究可能只是给旧理论做修正,但是它就在发展过程中起到了很重要的作用。

(文字记录:徐雪雯,图片提供:池见星 )