人工智能原理¶
如何认识这门课¶
这门课程体系完备、内容丰富,是人工智能领域的经典入门课程,涵盖了从经典到现代的多个核心分支。
近年来,由于大型语言模型的兴起,许多初学者可能误将“深度学习”等同于“人工智能”。通过这门课你会清晰地认识到,深度学习只是人工智能的一个强大分支。人工智能是一个历史悠久、体系严谨的学科,其根基深植于统计学、数学优化和逻辑学。对于有志于深入探索的同学,这门课将为你构建一个坚实的知识框架。
我院本课程(以 24sp、25sp 学期为例)主要参考了国际顶尖的计算机科学公开课 UCB CS188 (Introduction to Artificial Intelligence)。无论从理论深度还是实验设计来看,本课程的质量在我院本科生课程体系中都名列前茅,是一门非常值得投入时间和精力学习的核心课程。
本课程的实验部分尤其出色,质量堪称我院顶尖。主线实验贯穿整个学期,你需要在一个设计精良的代码框架下,亲手实现多种经典AI算法,来完成著名的“吃豆人”(Pac-Man)游戏。实验配备了详尽的评测代码与开发文档,能极大地帮助你理解并实现算法。此外,课程还包含多次高质量的大作业,同样是在封装优秀的框架下进行算法开发,这对于锻炼学生阅读和理解现有代码、在实践中体会“封装”思想至关重要。课程的期末项目也与时俱进,例如在 25sp 学期,同学们通过当前主流的 LoRA (Low-Rank Adaptation) 技术对一个大型语言模型进行微调,在实践中深入理解大模型的工作原理。
综上所述,认真学习这门课程,你不仅能掌握贝尔曼方程、Q-Learning、DQN、反向传播 等前沿技术的必备知识基础,构建起完备的人工智能知识体系,还能在设计精良的实验中,有效提升自己阅读框架、编写高质量 Python 代码以及理解软件工程思想等核心能力。
在此,向致力于开发和迭代这门优秀课程的彭振辉、陈超锋等老师致敬!也希望各位同学能够认真学习,并为课程的持续改进提出宝贵的意见。
优质学习资源¶
-
UCB CS188 课程网站:我院课程的理论和实验主要参考该课程。作为国际最知名的计算机公开课之一,其网站上提供了完整的教学视频、课程讲义 (Notes)、练习 (Discussion) 和历年考题等资源,并且完全开源。链接
- 喜欢视频学习的同学,可以观看课程录像。
- 喜欢文本学习的同学,其 Notes 基本覆盖了所有核心知识点。
- 复习备考时,Discussion 和网站中的历年考题是绝佳的练习材料。
- 总之,CS188 网站是一个宝藏,善用其资源能让你的学习事半功倍。如果你对更多类似的高质量课程感兴趣,可以访问计算机自学指南 (csdiy.wiki)。
-
关于实验的建议:许多同学可能对课程的编程实验感到畏惧,可能会求助于 AI 来生成代码。我们强烈建议你克制这种想法。在未来的科研或工作中,读懂大型代码框架并在此基础上进行开发是一项必备技能。CS188 的 Pac-Man 实验非常著名,网络上和 AI 模型中都很容易找到现成的答案,但“修炼内功”的过程无可替代。请尽可能独立完成编程部分,花在高质量编码实践上的时间是非常值得的。
-
强化学习补充材料:本课程覆盖了强化学习的基础,如贝尔曼方程、Q-Learning 等。这些内容涉及的公式对初学者可能较为晦涩。这里强烈推荐西湖大学赵世钰老师的公开课 《强化学习的数学原理》。这门课以简短的篇幅清晰地梳理了强化学习的数学基础,能帮助你更好地入门,而不是在公式推导中迷失方向。讲义与ppt可见Github。赵世钰老师也是一位非常优秀的学者,欢迎关注西湖大学智能无人系统实验室的相关前沿研究。
复习资料及应试策略¶
- 本课程大作业和编程任务较多,但不设置专门的实验考试。理论考试的内容与平时的作业和核心概念高度相关,复习时务必熟练掌握作业题的解法和思路。
- 期末考试的重点在于考察主干知识的理解与运用,不会涉及偏僻或需要死记硬背的知识点。复习时,应将重心放在核心概念的掌握上。
- 可以利用 AI 工具(如 Gemini)辅助学习,例如,让它根据 CS188 的 Notes 生成复习笔记或知识点摘要。
拓展资料¶
- 机器学习:本课程的许多知识与机器学习紧密相关。若想深入学习,推荐斯坦福大学的经典课程 CS229 (Machine Learning),由知名学者吴恩达 (Andrew Ng) 讲授。
- 强化学习 (Reinforcement Learning, RL):强化学习是人工智能的重要分支,被认为是实现通用人工智能 (AGI) 的关键路径之一。它使智能体 (Agent) 能够通过与环境的交互自我探索和学习,从而发现超越监督学习的更优策略。近年来,强化学习理论在大型语言模型领域也取得了辉煌的成就。例如,经典的 PPO (Proximal Policy Optimization) 算法已成为行业对齐技术的基石之一;而近期GRPO (Generative Representational Policy Optimization)等更为前沿的方法,则通过在模型的表征空间进行策略优化,为模型对齐提供了更稳定、高效的新思路。这些技术显著提升了大型语言模型遵循复杂指令和与人类价值观对齐的能力,并且其核心思想正在被推广到视觉生成模型(如Flow GRPO)、具身智能等多个领域,展现了非凡的实力。
- 若想系统性地深入探索强化学习,推荐伯克利开设的进阶课程 UCB CS285 (Deep Reinforcement Learning),由该领域的著名学者 Sergey Levine 讲授,课程内容非常丰富。