课程名称: 大数据应用
指定教材: Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of machine learning. MIT press.
课程论文核心任务: 从指定教材每章的”Chapter notes”小节中选取一篇参考文献,进行深入的论文复现和系统的数值实验,并基于此撰写课程论文。
一、 课程论文详细要求
本课程论文旨在培养学生对机器学习经典或前沿研究的深入理解、实践、实验与分析及学术写作能力。要求如下:
-
论文选题:
- 学生需从《Foundations of Machine Learning》任一章节末尾的”Chapter notes”部分选取一篇学术论文作为研究对象。
- 鼓励选择理论与应用结合紧密、适合进行数值实验验证的论文。
- 学生应独立审慎选择,确保选题兼具研究价值与适宜难度,并结合个人兴趣与能力。
-
文献研读与背景综述:
- 深入理解原文: 精读所选文献,把握其核心思想、理论、创新点、实验及结论。
- 相关工作回顾: 查阅相关文献(至少3-5篇),综述研究背景、意义、进展及所选论文的定位与贡献。
-
核心算法/模型复现理解与阐述:
- 阐述原理: 详述核心算法/模型的数学原理、关键步骤及实现细节,复杂理论需清晰解释推导。
- 实现思路与过程: 论文需清晰详尽描述核心算法/模型的实现思路与关键步骤(含数据处理、模型构建、参数设置等),使读者能理解复现过程。若参考公开代码,需注明来源并详述个人理解、调试、适配或改进。
-
数值实验设计与执行:
- 复现原始实验:
- 依据原论文描述复现关键数值实验,包括数据集、评价指标及参数设置。
- 记录并对比分析复现结果与原文结果,差异显著时分析原因。
- 扩展性/创新性实验: 成功复现后,鼓励设计并执行至少一项扩展性/创新性实验,如:
- 不同数据集测试:应用于新数据集检验泛化能力。
- 参数敏感性分析:探究关键超参数对模型性能的影响。
- 算法改进或对比:改进原算法或与教材其他算法对比。
- 不同评价指标:从大数据应用角度采用更多维度指标评估。
- 实验环境与设置: 清晰记录硬件、软件(含库版本)、数据集详情(来源、规模、特征)及重要参数。
- 复现原始实验:
-
结果呈现与分析:
- 清晰展示: 用规范图表清晰直观呈现结果,图表需含标题、标签和说明。
- 统计显著性: 随机性强的算法建议多次运行报均值标准差,必要时做显著性检验。
- 深入分析: 深入分析讨论结果,解释现象,验证假设,并与原文、理论或其他研究对比讨论异同及原因。
- 批判性思考: 讨论算法优缺点、局限性及大数据应用挑战。
-
讨论与结论:
- 主要发现总结: 简要总结主要工作与核心发现。
- 复现与实验体会: 分享复现与实验中的挑战、解决及经验。
- 大数据应用启示: 结合课程讨论算法/模型对大数据应用的价值、场景或局限。
- 未来工作展望: 提出未来研究方向或改进建议。
-
数据说明:
- 若使用公开数据集,请提供数据集名称和来源链接。
- 若自行生成/处理数据,需详述过程。
- 大型数据集可不提交数据,但需保证描述清晰可追溯。
-
论文格式与结构:
- 基本结构: 应含标题、摘要(中英文)、关键词(中英文)、引言(含综述与意义)、原方法概述、复现过程与细节、实验设计、结果与分析、讨论、结论、参考文献及可选的致谢。
- 引用规范: 参考文献格式需统一,遵循本领域或通用学术引用标准。所有引用均需注明来源。
- 学术诚信: 严禁任何形式的抄袭、剽窃等学术不端行为。论文将进行查重检测。
二、 评分细则 (按分数段划分)
课程论文的最终成绩将基于对核心方面的综合评估,划分为不同等级:
-
优秀 (90-100分): 选题具显著洞察力与价值,文献综述深入全面。对核心方法理解透彻,复现思路与关键实现细节阐述清晰准确且富深度。数值实验设计严谨或具创新扩展,结果分析深刻,讨论富有洞见,有力支撑结论并对大数据应用提出启发性思考。整体论文结构逻辑严密,表达专业流畅,图表规范,展现优秀科研素养与写作能力。
-
良好 (80-89分): 选题恰当,文献综述较全面,核心方法理解准确,清晰阐述复现思路和主要实现步骤。数值实验设计合理,结果分析正确,讨论能围绕核心问题展开并联系大数据应用。论文结构完整,逻辑清晰,表达准确,符合学术写作要求。
-
中等 (70-79分): 选题基本符合要求,文献综述尚可但欠深入。对核心方法有基本理解,复现思路与实现细节阐述完整但缺深度或细节。完成基本数值实验,结果分析与讨论尚可但深度有限。论文结构完整,但逻辑、表达或图表规范性或有不足。
-
及格 (60-69分): 选题勉强达要求,文献综述薄弱。核心方法理解存偏差或不足,复现思路与实现细节阐述不清或多缺失。数值实验设计简单或有缺陷,结果分析表面,讨论不足。论文在结构、逻辑、表达或格式规范性上问题较多,但核心任务基本方面有所体现。
-
不及格 (<60分): 未完成选题、复现或数值实验等核心任务,或对核心方法严重误解。内容空泛,缺实质分析,结构混乱,逻辑不通,表达不清,或存严重学术不端。
关于附加分: 研究中展现显著创新性(如独特实验设计、算法改进思路并验证)、对复杂前沿理论/技术高质量理解分析,或成果具明显应用潜力和价值的论文,可酌情加分提升等级。
最终成绩说明:
- 学术不端行为一经查实,本课程论文成绩记为零分,并按相关规定处理。