Open edX包含一个数据分析系统Insights。它包含三个组件:
- Pipeline,用于将LMS的log文件归集到Hadoop进行计算,并把计算结果写入Mysql。
- DataAPI,用于将Mysql中的分析结果输出给Insights使用。
- Insights,用于展示分析结果。
目前是一个重量级的系统。针对的是edx.org这种千万级别的用户网站产生的数据。大量的log被输送到Hadoop进行离线计算用来展示。因此对于小规模的Open edX部署,数万人级别的用户,这样的计算太繁琐。
我们计划开发一个轻量级的数据分析系统。有两个主要方向:
- 使用python计算来取代hadoop,实现一个基于pandas的pipeline。还在insights里面展现
- 直接在Inistructor Dashboard里面加入分析展现。可以看整个课程,或者单个学生的学习分析
这两个系统会全部开源。有兴趣一起研究的朋友可以参与。