1、数据密集型科学研究范式刘智二〇二〇年四月教育大数据应用技术国家工程实验室国家数字化学习工程技术研究中心华中师范大学目录范式与范式的演化过程第四范式兴起的社会根源对第四范式的分析研究流程提纲301范式与范式的演化过程“范式”:英文“”,意为“模范”或“模型”。最初由美国著名科学哲学家托马斯•库恩在《科学革命的结构》中提出。简要概括,内涵有两层:1.科学共同体的共同承诺集合;2.科学共同体共有的范例。范式从本质上讲是一种理论体系。范式理论指常规科学所赖以运作的理论基础和实践规范。1.1范式的定义范式的特点:(1)范式在一定程度内具有公认性;(2)范式是一个由基本定律、理论、应用以及相关的仪器设备等构成的一个整体,它的存在给科学家提供了一个研究纲领;(3)范式还为科学研究提供了可模仿的成功的先例。1.1范式的定义在库恩的范式理论中,范式归根到底是一种理论体系。“范式转移”,是指一个领域里出现新的学术成果,打破了原有的假设或者法则,从而迫使人们对本学科的很多基本理论做出根本性的修正。地平说地圆说1.1范式的演变无侵入式感知情绪识别的准确常规科学时期通过竞。
2、争确立范式释疑、通过释疑推动科学发展前科学时期新的常规科学时期……新旧范式交替新旧共同体更替科学革命库恩认为科学的发展看作一个循环过程:1.2范式的演变解题能力更强存在分歧新问题和新事物产生动摇原有范式不良情绪的发现无侵入式感知情绪识别的准确1.2范式的演变不良情绪的发现无侵入式感知情绪识别的准确经验范式偏重于经验事实的描述和明确具体的实用性的科学研究范式。在研究方法上以归纳为主,带有较多盲目性的观测和实验。经典研究方法“三表法”:先观察,进而假设,再根据假设进行实验。主要科学模型:科学实验1.2.1经验范式不良情绪的发现无侵入式感知情绪识别的准确理论范式主要指偏重理论总结和理性概括,强调较高普遍的理论认识而非直接实用意义的科学研究范式。在研究方法上以演绎为主,不局限于描述经验事实。理论范式的模型为数学模型。1.2.2理论范式11不良情绪的发现无侵入式感知情绪识别的准确模拟范式是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题的研究范式。研究域:数值模拟,模拟拟合与数据分析,计算优化。模拟范式在研究中所用模型主要是计算机的仿真/模拟1.2.3模拟范式无侵。
3、入式感知情绪识别的准确2007年,计算机图灵奖得主吉姆•格雷在美国国家研究理事会计算机科学和远程通信委员会(NRC-CSTB)演讲报告中提出了科学研究“第四范式”,即以数据密集型研究范式为基础的科学研究范式。数据密集型范式是针对数据密集型科学,有传统的假设驱动向基于科学数据进行探索的科学方法的转变而生成的科学研究范式。研究对象:科学数据1.2.4数据密集型研究范式无侵入式感知情绪识别的准确1.2.4数据密集型研究范式不良情绪的发现无侵入式感知情绪识别的准确教育研究范式的发展演变育研究的发展演变有教无类因材施教昆体良“模仿—理论—练习”三阶段学习过程理论雅虎宣布研究院不再作为一个独立实体而存在17世纪中叶20世纪初20世纪中叶,第二次世界大战后实证分析为主的方法论解释主义范式第四种范式——数据密集型科学范式2009年哲学思辨范式研究主体应深入现场教育研究范式的发展演变育研究的发展演变Case1:(UCD,):(HU-,Ger。
4、many)新的研究范式是对于传统范式的抛弃与彻底地革新吗?思考2302第四范式兴起的社会根源无侵入式感知情绪识别的准确分布式计算云计算移动终端设备社会化网络2.1数据洪流的到来报告称:2010年企业在磁盘上存储了超过7EB的新数据,消费者在个人计算机上存储了超过6EB的新数据,1EB=10亿GB相当于美国国会图书馆中存储数据的4000多倍2.2科学界对数据的关注262.2科学界对数据的关注27科学界对海量数据对科学研究的影响已经开始重点关注,各大重要核心杂志,书籍均已推出相关专辑、专题。围绕科学研究海量数据的问题展开讨论。2.2科学界对数据的关注刊登专辑“数据处理””1.来源于测量仪器、传感设备记录仪器的观测型数据(如天文望远镜观测的数据,运行一年:1.28PB)2.来自于物理学、医学、生物学、心理学等学科领域的大型实验设备的试验型数据(如大型強子對撞機、粒子加速器试验数据)4.来自于跨学科、横向研究的参考型数据(人类基因数据)3.来自于大规模模拟计算的计算型数据学。
5、者们将研究数据的来源归结为5类:2.2科学界对数据的关注5.人类的人口统计学数据和产生的在线行为数据(消费、浏览、发帖)2006年,互联网之父伯纳斯•李在讨论关于语义网项目的一份设计记录中提出了发展数据网络的设想,并创造了“关联数据()”,提出数据网络的核心即关联数据。2.3关联数据运动关联数据就是用主体、谓语、客体三元组来表示资源的RDF()格式数据,关联数据描述了一种出版结构化数据让其能够互联和更加有用的方法,它依赖标准互联网技术,如HTTP和URIS,不仅使用他们服务于人类可读的网页,而是扩展到以能被计算机自动阅读的方式分析信息。关联数据有别于互联网上的文件互联,它强调数据互联,将以前没有任何关联的数据链接到一起,允许用户发现、描述、挖掘、关联和利用数据。关联数据2.3关联数据运动大数据—案例大数据—案例数据来源:匿名校园卡所记录的近2万名大学生在没有外界干预情况下的行为数据,包括食堂吃饭、宿舍洗澡、教学楼打水和进出图书馆4种行为约3000万条刷卡记录。数据分析:学生打水、进出图书馆的次数:学生。
6、的勤奋程度食堂吃饭、宿舍洗澡的时间:学生校园生活规律程度—-电子科技大学大数据研究中心科研团队洗澡和吃饭规律性示意图深色是前5%有规律的,浅色是前5%无规律的例:(c)图是开始洗澡的时间在一天24小时中的分布,某位有规律的同学主要在晚上21点左右洗澡,而没有规律的某位同学除了凌晨02:30到05:30,随时都可以去洗澡。生活规律性和学业成绩正相关横纵坐标是归一化后的生活规律性指数和GPA得分(减去平均值再除以标准差)。可以看到,不管是吃饭还是洗澡,生活越规律,平均而言成绩越好。36关联数据运动2.3关联数据运动372.3关联数据运动38美国国会图书馆纽约时报世界银行2.3关联数据运动Case:如何使用大数据?作为最大的社交平台,每天都有大量的数据产生。Case:如何使用大数据?通过分析用户数据来确定用户行为,通过分析用户的喜欢,可以准确地预测一系列高度敏感的个人属性数据。剑桥大学和微软研究院的研究人员开展的工作展示了喜欢的模式如何能够非常准确地预测你的性取向,对生活的满意度,智力,情。
7、绪稳定性,宗教,酒精使用和吸毒,关系状态,年龄,性别,种族和政治观点-以及其他许多观点Case:如何使用大数据?案例闪回我投票庆祝骄傲Case:主题数据Case:交通行为预测基于用户和车辆的LBS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。交通部门可预测不同时点不同道路的车流量进行智能的车辆调度,或应用潮汐车道;用户则可以根据预测结果选择拥堵几率更低的道路。:学业情感分析SPOC论坛中的情绪分析情绪作为教学活动中一种重要的非智力因素(D’.,2008),是影响学习者与教学者之间的教与学互动及教学质量的核心因素之一,也是教学者观察和分析学习者学习状态的重要依据。SPOC(urse)作为一种限制性的在线学习课程平台,其论坛已越来越多地被高校教师用于课后探究式讨论、问题答疑及意见反馈,该场景蕴藏着丰富的群体学习反馈和学习状态信息。案例1:情绪的时序演化分析问题•1.在SPOC论坛互动中,学习者具有哪些情绪特征及每种情绪如何演化?•2.在SPOC论坛互动中,不同学业成就学习者间的情绪有何差。
8、异?数据华中师范大学云课堂平台中《心理学基础》三个学期的论坛发帖记录。759名学习者发布的9816条帖子,总评成绩平均分为77.28,标准差为22.43。情绪密度计算()1()1,()0()()0,()当时当时案例:情绪的时序演化分析案例:情绪的时序演化分析情绪变量均值F显著性事后检验高成就组(HG)中等成就组(MG)低成就组(LG)PED0.0460.0490.0460.2030.816N/ACED0.0150.0120.0226.725**0.*LGMG**NED0.0220.0240.0326.595**0.**LGMG*00.0050.010.0150.5122情绪密度值课程周积极情绪困惑情绪负面情绪注:***p0.001;**p0.01低成就组(LG)的困惑情绪表现最多,高成就组(HG)次之,。
9、中等成就组(MG)表现最少;低成就组的消极情绪最多,中等成就组次之,高成就组表现的最少整体情绪不同成就组情绪积极消极困惑学期初与学期末两阶段,三种情绪出现峰值,表明学生情感参与较多,而中期学生讨论的情绪投入较少。刘智,杨重阳,彭晛,刘三女牙,等.SPOC论坛互动中学习者情绪特征及其与学习效果的关系研究.中国电化教育,2018,(4):102-110.案例:情绪-话题的联合建模与时序演化分析问题•1.在SPOC论坛中,学习者最关注的话题是什么?•2.在SPOC论坛中,不同学业成就组的情绪-话题有何差异?模型在撰写帖子前,学习者已经有一个在线学习的直观感受(对应于的一个情绪分布),例如,50%满意,30%不满意和20%困惑。并且他/她的意见/反馈可通过每种情绪的主题概率分布来建模(例如,在负面情绪分布中,作业难度、授课风格与课程安排三种话题各占40%,30%和30%);然后在撰写每个句子时首先确定一个情绪类别,然后从情绪-话题分布中选出一个话题去描述其学习感受和想法。111(,|)-i-ie,z,。
10、DSwγzNeETβtπθEαψTμE案例:最受学习者关注话题的检测情绪-话题标签ve-T1好/good(0.037),(0.023),生活/life(0.023),乐观/(0.019),积极/(0.017),心态/(0.016),调整/(0.015),培养/(0.011),赞同/agree(0.011),方法/(0.011)-T25没时间/(0.058),老师/(0.034),作业/(0.030),章节/(0.021),视频/video(0.019),重新/(0.019),云课堂/(0.016),问题/(0.015),系统/(0.011),。