在教育信息化的背景下,弹幕的出现使得视频公开课多面向的相互交流成为可能。在网络视频公开课中,弹幕这一新兴的互动方式会让学习者在观看学习时产生一种“找到组织”的感受。以网络爬虫的途径获取弹幕数据,对其进行加工处理和统计分析研究,并对视频公开课中学习者弹幕互动的具体情况进行各个维度上的把握,提出对弹幕学习视频制作者投放学习视频的建议。
学习视频数据源选择
弹幕视频利用Python获取弹幕文本数据的来源,关系着弹幕的质量,乃至会影响最终的研究结果。本文结合弹幕视频网站上学习视频的特点选择网络公开课视频作为弹幕文本数据的来源。
从X视频网站公开课频道播放量高的视频中,选取不同类型的学习视频作为弹幕数据的来源,分别为学科类公开课视频、声乐学习类公开课视频、语言学习类公开课视频、软件学习类公开课视频、考证考试类公开课视频、演讲类公开课视频、编程语言学习类公开课视频等,共16个视频公开课。
弹幕数据收集及预处理
爬虫程序原理
Python语言简单易用,现成的爬虫框架和工具包降低了使用门槛,具体使用时配合正则表达式的运用,使得数据抓取工作变得简便。
数据预处理
1.数据的选取
通过Python爬虫获得的弹幕数据中,包含与弹幕相关的多个字段,最终爬取到的数据有14个弹幕数据类型。本文选取了“弹幕文本”“弹幕发送时间”“弹幕ID”“分p”这几类弹幕数据信息进行后续的分析研究。
2.对获得的弹幕文本数据进行分词处理
分词是将连续的中文字符串序列切分成若干个独立的词的过程。本文采用的分词方法是Python中的jieba分词。
jieba分词提供了三种常用的分词模式,本文为了避免重复,方便进行统计分析,使用精确分词模式。
弹幕数据的统计分析
基于Python代码对获取的不同类型弹幕数据进行统计处理,分别生成对用户性别的统计绘图工作、弹幕数量时间段的统计和折线图的绘图工作、弹幕文本分词后词频统计并制作词云图、弹幕文本分词后的情感评分分析并绘制情感评分饼状图等图。
弹幕交互用户维度
1.用户性别统计分析
在Python中编写用于性别统计分析的程序。在获取的数据中共有用户8658711名,其中在公布性别的3783296名用户中,男性用户为1966508人,占全部性别用户的22.71%,占全部公布性别用户的51.98%;女性用户为1816788人,占全部性别用户的20.98%,占全部公布性别用户的48.02%。
2.弹幕发送时间段统计分析
公开课视频用户发表弹幕的时间可以展现出学习者观看学习视频公开课活跃的时间。本部分对时间进行分段,统计发送的弹幕数量,分析视频公开课中学习者的弹幕互动活跃时间。
(1)对整体数据进行分析
对公开课视频的用户发表弹幕的时间进行分段,统计每小时内的弹幕数量,在Python中具体实现并生成excel文件。为了方便观察,进一步分析研究,可以借助pyecharts生成折线图。
根据所生成的弹幕发送时间段折线图(图1),可以直观地看到在一天中,视频公开课有三个显而易见的活跃时间,分别为中午、下午、晚上三个时间段。其中公开课视频中的弹幕数量最高峰出现在20—21时,由此可见观看视频公开课的学习者更倾向于在晚上观看公开课视频,并发送弹幕进行互动。一方面,这段时间为晚饭后的空余时间;另一方面,X网站视频公开课的观看群体中不仅有学生,还有众多的工作人员,而晚上八点到九点这一时间段一般情况下他们都没有学习任务或其他工作。
除了最高峰时间,还有两个高峰时间,分别是16—17时和11—12时。16—17时作为第二高峰时间,其与最高峰时间弹幕数量差距较小,该时间段一般为学习者的饭前时间,一般情况下,这段时间学习者每日生活中的任务和工作已经基本完成,所以会有空余时间观看视频进行学习。11—12时一般为午饭时间,在上午的日常任务和工作完成后,学习者乐于观看视频并参与弹幕互动。而三个低谷时间段为1—7时、12—14时和17—19时,正好对应用户的睡眠、午休和晚饭时间,这三段时间弹幕数据也就相对减少了。
图1 弹幕发送时间段折线图
(2)对比不同类视频公开课群体
为了进一步研究各个不同的视频公开课弹幕发送时间曲线是否存在差异,笔者对16个视频公开课爬取的弹幕发送时间数据分别进行了统计,并用Python生成折线图来进行观察分析。大部分的视频公开课弹幕发送时间折线图与整体弹幕发送时间折线图相似,其弹幕交互最高峰时间都为20—21时。其中有一部分视频公开课的弹幕发送时间数据与整体的弹幕发送时间数据的规律不同,具体如下:
①弹幕交互最高峰时间位于下午
弹幕数量最高峰位于下午时间段的是软件学习类视频公开课、考证考试类视频公开课、编程语言学习类视频公开课。
以编程语言学习类视频公开课的弹幕发送时间段折线图(图2)为例进行研究分析。其中软件视频公开课学习和编程语言视频公开课学习都需要借助计算机进行实践学习,而考证考试类视频公开课由于选取的是计算机二级课程,也需要计算机来辅助相关视频公开课的学习。晚间之所以不是弹幕互动的最高峰时间,是因为晚间多为利用手机等移动电子设备进行学习,并不能满足学习者学习需要借助计算机的视频公开课的需求。在日常生活中,晚上的时间如果专门为了视频公开课的学习去使用计算机,学习者的积极性不高,而且学习者的思维在下午可能更加敏捷。
图2 编程语言学习类视频公开课的弹幕发送时间段折线图
②弹幕交互最高峰时间位于深夜
弹幕数量最高峰位于深夜时间段的是历史学学科类视频公开课、哲学学科类视频公开课。
这里以哲学学科类视频公开课的弹幕发送时间段折线图(图3)为例进行研究分析。折线图显示,在一天中,弹幕发送的高峰时间大多在深夜时间段,从晚上7点之后呈现出明显的上升趋势,在凌晨十一点到达顶峰值。这类视频公开课的学习更注重思考,不强调具体实践活动。该时间段可能更利于这部分公开课学习者跟着学习视频进行思考,捕捉想法,并与其他学习者进行交流。
图3 哲学学科类视频公开课的弹幕发送时间段折线图
③弹幕交互最高峰时间位于中午
弹幕数量最高峰位于中午时间段的为所选两种语言学习类视频公开课。
对于这两种视频公开课来说,弹幕发送时间有两个高峰,其中最高峰为中午时间段。语言的学习一般是学习使用语言进行交际活动的过程,总体上和整体弹幕发送时间段折线图的波动曲线相似,在相同位置也都有高峰波动。
弹幕交互文本维度
借助jieba加载针对X网站用语所做的自定义词典,对弹幕文本数据进行分词,分词后进行统计各个词的出现次数,并生成词云图。
对总体数据进行分词处理,统计16个视频公开课中爬取的弹幕文本数据分词后各个词所出现的次数,生成词频表,并借助pyecharts生成词云图。
由弹幕交互文本词云图(图4)可以直观地看到在所获取的弹幕数据中,出现频率最高的词为“老师”,统计出现次数为93928次,其余常出现词汇分别是“哈哈哈”“妙啊”等情绪表达用词。
图4 弹幕交互文本词云图
弹幕交互情感维度
借助SnowNLP情感评分对弹幕数据进行加工处理并逐个进行情感评分,按评分进行积极、消极、中立情感统计并绘制情感饼状图,以分析视频公开课中用户弹幕互动的整体情感基调。
选取Python中的SnowNLP情感评分体系对弹幕文本进行逐个评分,统计数据,运用pyecharts生成弹幕情感饼状图。
SnowNLP库中的情感分析在具体的研究过程中,会对文本的分析进行一个打分数值,位于0~1这个区间中,数值接近零则表示负面情绪,接近1表示正面情绪。为了方便进行统计评估,在Python中创建字典,将评分<0.4的记录为消极,将评分>=0.4&<=0.6的记录为中性,将评分>0.6的记录为积极。从视频公开课的全部弹幕数据中随机抽取100000条弹幕文本数据进行分词处理后,进行情感评分。
根据弹幕交互中弹幕情感饼状图(图5),可以发现弹幕整体数据中积极情感占所有数据中的一大半,比例为64.32%,而消极情感的弹幕互动数据占最小份,比例为16.13%,其余的19.55%为中性弹幕。这体现了视频公开课中学习者在弹幕互动时,大部分都持有乐观且积极的态度。
图5 弹幕交互中弹幕情感饼状图
通过编写Python爬虫代码获取弹幕数据,并依据具体的实际研究编写统计分析用途的Python程序代码,对弹幕数据进行初步的统计分析,从而得出在网络环境下视频公开课中学习者弹幕交互具体使用情况,
X视频网站公开课学习视频的用户男女性别比例差距不大,总体上男性用户略高于女性用户。根据对整体弹幕发送时间段折线图的分析,发现视频公开课中弹幕互动的活跃性存在一定的规律,所以大部分类型的视频公开课制作者可以依据高峰规律,避开在深夜进行公开课视频的更新,尽可能在学习者方便的三个高峰时间段之前或者三个高峰时间段进行网络公开课的投放工作,其中部分学科可以根据其学科的特性选择三个高峰时间段中最合适的投放时间。
参考文献
[1]何明.面向在线视频弹幕数据的挖掘方法研究[D].合肥:中国科学技术大学,2018.
[2]徐永伟.网络视频公开课的现状分析与影响力研究[D].聊城:聊城大学,2016.
[3]李金兰.直播平台如何有效进行弹幕管理[J].网络传播,2017(01):67-69.
[4]张婧婧,杨业宏,安欣.弹幕视频中的学习交互分析[J].中国远程教育,2017(11):22-30+79-80.