《UCB AI-Sys cs294》Required Reading 2

码著 2021-03-29

423

UCB cs294

AI System

Required Reading 2

一个机器学习系统的课程

论文一

Read With US

课程推荐的第一篇文章《SysML: The New Frontier of Machine Learning Systems》，这其实一个会议的白皮书，主要的研究方向是设计实现一类系统，来满足支持部署机器学习模型，这是一个计算机系统和机器学习交叉的会议。

白皮书里将机器学习系统遇到的问题分为两种：一种是高层次的问题，主要解决的是算法、接口的设计实现；另一种则是低层次问题，主要关注的是硬件、调度等底层优化。该文也仔细分析了机器学习系统中遇到的瓶颈，比如部署相关的设计、成本问题以及实用性是否合适。

论文二

Read With US

第二篇论文是《A Few Useful Things to Know About Machine Learning》，这是一篇机器学习领域的经典论文，总结了机器学习相关的12个重点实践，并以分类器来举例。

1. Learning = Representation + Evaluation + Optimization

所有的机器学习算法都是由三个部分组成：

* Representation：表现数据的方式，比如用距离表现数据的knn、svm，用数表现数据的决策树；

* Evaluation：用来评估分类器好坏的函数；

* Optimization：用来搜索得分最高分类器的方法；

2. It’s Generalization that Counts

泛化能力是很重要的，在使用分类器数据时，需要留出部分数据来做测试，避免过拟合。

3. Data Alone Is Not Enough

将泛化能力作为一个指标，仅仅有数据是不够的，还需要大量的编程工作，例如选择合适的模型，合适的评估函数、损失函数。

4. Overfitting Has Many Faces

过拟合有很多种，主要需要关注的是偏差和方差，偏差是指模型往着相同的错误方向训练，方差则是模型有学习随机信号的倾向。解决过拟合的方法一般有交叉验证、增加正则化项、进行类似卡方检验的统计显著性检验。

5. Intuition Fails in High Dimensions

一般来说，特征维度越高，就更好表达数据，但也可以引发curse of dimensionality，即样本数量相对不足，难以覆盖其输入空间，并且也难以从直觉上找出不同类别样本之间的合理边界，最终导致bias和variance的增加。

6. Theoretical Guarantees Are Not What They Seem

机器学习论文中充斥着理论保证，其存在的意义不仅在于作为评断实际决策的标准，还是设计算法的来源动力。但机器学习是一个复杂的工程，理论上可行不代表实践也是可行的。

7. Feature Engineering Is The Key

这一点主要是将特征工程的重要性，机器学习不单单是构建数据跑一次就足够了，还需要有分析结果、根据结果修改数据集的迭代过程。

8. More Data Beats a Cleverer Algorithm

数据量非常重要，数据量的增多会导致某些模型的表征能力也随之增强。

9. Learn Many Models, Not Just One

机器学习中每个模型都有其适用范围，因此模型的集成如bagging、boosting、stacking等算法就会得到很好的结果。

10. Simplicity Does Not Imply Accuracy

这里主要是Occam’s razor的一个修正，即简单的模型不一定就能很好避免过拟合或者得到很好的效果。

11. Representable Does Not Imply Learnable

机器学习具备局限性，不是所有的模型都可以学习的。另外，如果评估函数在假设空间内具备多个局部最优点，模型可能会找不到最优函数。

12. Correlation Does Not Imply Causation

机器学习只能发觉特征的相关性，但相关性并不等于因果性。

论文三

Read With US

第三篇文章《A Berkeley View of Systems Challenges for AI》是伯克利从计算机系统对机器学习的支持中，总结出来的一篇文章。

该文章将AI飞速发展的原因归结为：大数据、高扩展性的计算机系统和开源软件技术的流行。

文章还提出了机器学习相关的趋势与挑战：

1. Mission-critical AI：人工智能开始设计一些与人类生命安全相关的领域，需要为这些机器学习任务设计更加稳定安全的决策；

2. Personalized AI：提供更加个性化的人工智能系统，同时需要注意用户隐私安全；

3. AI across organizations：每个机构、企业都有自己独特的数据，如何提供数据共享的机制，支持跨组织的人工智能系统，也是一个需要注意的挑战；

4. AI demands outpacing the Moore’s Law：后摩尔定律时期的AI发展需要更加关注与人工智能适配的硬件架构与系统；

接下来的介绍就是关于解决上述挑战亟需深入研究的方向：

1. Acting in dynamic environments：动态环境下的技术表现，人工智能需要在复杂性动态性更强的环境工作，能够应对突发的、不可预测的事件，并快速做出响应。这包括了Continual learning、Reinforcement learninig等系统的构建；作出更鲁棒的决策（Robust decisions）和可解释的决策（Explainable decisions）

2. Secure AI：这里的安全分为两个部分，一是攻击影响系统作出决策的正确性、而是攻击者获取AI训练的影响数据、破解AI加密模型。这种方向包括了构建 Secure enclaves，提供一个安全的硬件执行环境；进行对抗学习避免推理阶段和训练阶段引入了恶意的数据；构建更安全的共享数据系统；

3. AI-specic architectures：随着AI的发展，硬件系统架构的迭代显得越来越来重要。这包括了 Domain specic hardware，设计专用的硬件架构来提升系统性能和安全能力；Composable AI systems，为AI系统做定制的的模块化、组件化，进行模型的组合、操作行为的组合；Cloud-edge systems，设计合适的连接云端与边缘设备的AI系统，降低边缘设备的延时，充分利用云端的能力来提供更复杂的计算模型和高效的决策。

下图就是上面四大趋势与九大研究方向的关联关系：

这是这个课程的week2内容，主要是介绍了一些机器学习系统的研究方法和关注的趋势挑战。

机器学习人工智能分类器

文章转载自码著，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

《UCB AI-Sys cs294》Required Reading 2

评论

相关阅读