——Social Media Mining (An Introduction)
作者
Reza Zafarani(美), Mohammad Ali Abbasi, Huan Liu
读者
锅巴GG
获益匪浅
讲社交现象的书很多,事后总结的也很多,然而这本书让我惊喜。
虽然全书按教材的方式组织,并且提供了很多相关的算法,但是抛开这些信息,全书对社交、社交媒体以及挖掘都有很好的覆盖,不敢说由浅入深,但是如果不惧怕数学公式的大篇幅解释,其实本书的核心内容算是非常精炼并有效的传达了高价值的信息,值得反复品读
- 社会媒体挖掘
社会媒体(Social Media)的发展,使得内容被无数的用户阅读和传播,并给予即时反馈。社会媒体使得我们可以随时随地与人沟通和交流,并在一个空前的规模下观察人类的行为。社会媒体平台提供了绝好的机会,从海量的数据中挖掘人类的行为模式。
- 什么是社会媒体挖掘?
结合社会学理论和计算方法来学习人类个体(社会原子Social Atom)如何相互影响,以及社区(社会分子Social Molecule)是如何形成的。
社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式的过程。
社会媒体挖掘以一种可计算的方式表示和度量社会媒体的虚拟世界,并且建立模型以帮助我们理解其中的交互。
- 新的挑战
- 大数据悖论
- 足够的样本数
- 噪声消除谬误
- 评价困境
第一部分
基础知识,概述如何表示社会媒体数据以及社会媒体挖掘的基本要素
- 图的基本要素
这本书讲的比较基础,当然图理论本身的难度并不大,只是工程实现方面难度很大,本书提纲挈领,算是很高效的让大家对图有个基本认识。读者本人最近也熟读图库理论,并评估掌握了两个图形数据库,一个是Neo4j,一个是OrientDB,现在DBE中排名最靠前的两个图库产品,欢迎交流。
- 图的重点要理解连通性,因为很多应用都诞生与此
- 图算法要理解遍历
- 图的工程实现,要非常明确的理解最基本的数据结构,如:
1. 邻接矩阵
2. 邻接表
3. 边列表
- 网络度量
在社会媒体中,通过度量社会媒体网络中不同结构的属性,帮助我们更好的理解其中涉及的用户,是最常见的任务
我们需要为这些任务设计相关的度量方案
- 中心性
中心性定义了网络中一个中心节点的重要性。- 传递性与相互性
需要观察社会媒体网络中某个特定行为,如:连接行为
研究连接行为有两个有名的度量方法:传递性和相互性- 平衡和地位
个体之间的关系
注意社会平衡理论
和社会地位理论
,帮助我们决策有向网络中的一致性。- 相似度
节点间的相似度可以通过他们的结构等价性或规则等价性获得
- 网络模型
尝试通过构建小型网络来设计网络模型,从而模拟真实世界的网络。
假设这些模型能够很好地模拟真实世界网络的属性,我们就得到了一种高性价比的方法,通过衡量仿真网络的不同属性分析真实世界。
模型具有坚实的数学理论基础,能够帮助人们理解真实网络中的现象
模型在很多仿真网络中做了对照实验来验证有效性。
需要理解三种广泛接受的模型:
- 随机图
- 小世界模型
- 优先链接模型
- 数据挖掘的基本要素
要不先说说目标吧?发现有统计学意义的模式
- 数据
- 数据预处理
- 数据挖掘算法
- 监督学习
- 无监督学习
数据库中的知识发现(KDD)是分析数据的普遍流程。
监督学习将特征值映射到类标签,无监督学习将实例按照物体的相似程度分类。
第二部分
讨论如何在社会媒体中发现社区,以及在社会媒体中如何进行交互和信息传播
- 社区分析
重点解读了三个关键问题:
- 我们怎样发现社区
- 社区是如何演化的
- 怎样评价发现的社区?
那么,什么是社交社区?
- 信息传播
传播过程主要包含三要素:
- 传播者
- 接收者
- 传播媒介——个体之间的交流
- 羊群效应
未经计划而出现的一致性行为;- 信息级联
信息在朋友(邻近)之间传播产生了信息级联
关注级联的各种模型和范围- 创新扩散
创新扩散模型,非常值得阅读- 流行病模型
隐性网络的趋势和速度研究
第三部分
介绍社会媒体挖掘中一些新颖的解说性应用
- 影响力和同质性
不同模式的连接网络,有一种模式叫同配性,也称为社会相似性,在同配网络中,相识个体比不相似个体更容易形成连接。
这个部分让我们可以很好的理解微信和好友关系- 推荐
推荐系统面临很多挑战:
- 冷启动
- 数据稀疏(系统整体相关,个体无关)
- 网络攻击(可能被利用)
- 隐私(推荐的更好,但是要注重保护用户隐私)
- 解释说明(解读推荐的缘由)
- 经典的推荐算法
- 基于内容的算法
依据是用户的兴趣应该与系统推荐项目的描述相匹配(相似度)- 协同过滤
建立用户→项目的评分矩阵,一般有两种协同过滤,对于未知的,采取基于记忆(历史)的,而基于已知的,建立模型并预测评分。- 将个体推荐、推广给群体
- 基于社会背景知识的推荐系统
个体之间的交友网络,假设一个用户的朋友会影响该用户的评分时,这些信息可以用于改进推荐系统。
当使用社会信息时,可以使用:
- 仅使用朋友信息
- 使用评分信息和社会信息
- 使用社会信息来限制推荐
- 推荐系统评价
评估推荐系统的准确性,通常可以评估:
- 预测的准确率
- 推荐的相关性
- 推荐的排序
- 行为分析
这部分内容比较基础,建议有兴趣深入了解其他相关书籍,重点在于场景(动机)和模型(行为分析)
- 个体行为
- 群体行为
目标当然就是为了预测咯~~ 这是最大的价值~~~
乐读微信公众号