暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

《UCB AI-Sys cs294》Required Reading 2

码著 2021-03-29
423

UCB cs294


AI System

Required Reading 2

一个机器学习系统的课程


论文一

Read With US


课程推荐的第一篇文章《SysML: The New Frontier of Machine Learning Systems》,这其实一个会议的白皮书,主要的研究方向是设计实现一类系统,来满足支持部署机器学习模型,这是一个计算机系统和机器学习交叉的会议。

白皮书里将机器学习系统遇到的问题分为两种:一种是高层次的问题,主要解决的是算法、接口的设计实现;另一种则是低层次问题,主要关注的是硬件、调度等底层优化。该文也仔细分析了机器学习系统中遇到的瓶颈,比如部署相关的设计、成本问题以及实用性是否合适。


论文二

Read With US


第二篇论文是《A Few Useful Things to Know About Machine Learning》,这是一篇机器学习领域的经典论文,总结了机器学习相关的12个重点实践,并以分类器来举例。

1. Learning = Representation + Evaluation + Optimization

所有的机器学习算法都是由三个部分组成:

* Representation:表现数据的方式,比如用距离表现数据的knn、svm,用数表现数据的决策树;

* Evaluation:用来评估分类器好坏的函数;

* Optimization:用来搜索得分最高分类器的方法;

2. It’s Generalization that Counts

泛化能力是很重要的,在使用分类器数据时,需要留出部分数据来做测试,避免过拟合。

3. Data Alone Is Not Enough

将泛化能力作为一个指标,仅仅有数据是不够的,还需要大量的编程工作,例如选择合适的模型,合适的评估函数、损失函数。

4. Overfitting Has Many Faces

过拟合有很多种,主要需要关注的是偏差和方差,偏差是指模型往着相同的错误方向训练,方差则是模型有学习随机信号的倾向。解决过拟合的方法一般有交叉验证、增加正则化项、进行类似卡方检验的统计显著性检验。

5. Intuition Fails in High Dimensions

一般来说,特征维度越高,就更好表达数据,但也可以引发curse of dimensionality,即样本数量相对不足,难以覆盖其输入空间,并且也难以从直觉上找出不同类别样本之间的合理边界,最终导致bias和variance的增加。

6. Theoretical Guarantees Are Not What They Seem

机器学习论文中充斥着理论保证,其存在的意义不仅在于作为评断实际决策的标准,还是设计算法的来源动力。但机器学习是一个复杂的工程,理论上可行不代表实践也是可行的。

7. Feature Engineering Is The Key

这一点主要是将特征工程的重要性,机器学习不单单是构建数据跑一次就足够了,还需要有分析结果、根据结果修改数据集的迭代过程。

8. More Data Beats a Cleverer Algorithm

数据量非常重要,数据量的增多会导致某些模型的表征能力也随之增强。

9. Learn Many Models, Not Just One

机器学习中每个模型都有其适用范围,因此模型的集成如bagging、boosting、stacking等算法就会得到很好的结果。

10. Simplicity Does Not Imply Accuracy

这里主要是Occam’s razor的一个修正,即简单的模型不一定就能很好避免过拟合或者得到很好的效果。

11. Representable Does Not Imply Learnable

机器学习具备局限性,不是所有的模型都可以学习的。另外,如果评估函数在假设空间内具备多个局部最优点,模型可能会找不到最优函数。

12. Correlation Does Not Imply Causation

机器学习只能发觉特征的相关性,但相关性并不等于因果性。


论文三

Read With US

第三篇文章《A Berkeley View of Systems Challenges for AI》是伯克利从计算机系统对机器学习的支持中,总结出来的一篇文章。


该文章将AI飞速发展的原因归结为:大数据、高扩展性的计算机系统和开源软件技术的流行。


文章还提出了机器学习相关的趋势与挑战:

1. Mission-critical AI:人工智能开始设计一些与人类生命安全相关的领域,需要为这些机器学习任务设计更加稳定安全的决策;

2. Personalized AI:提供更加个性化的人工智能系统,同时需要注意用户隐私安全;

3. AI across organizations:每个机构、企业都有自己独特的数据,如何提供数据共享的机制,支持跨组织的人工智能系统,也是一个需要注意的挑战;

4. AI demands outpacing the Moore’s Law:后摩尔定律时期的AI发展需要更加关注与人工智能适配的硬件架构与系统;


接下来的介绍就是关于解决上述挑战亟需深入研究的方向:

1. Acting in dynamic environments:动态环境下的技术表现,人工智能需要在复杂性动态性更强的环境工作,能够应对突发的、不可预测的事件,并快速做出响应。这包括了Continual learning、Reinforcement learninig等系统的构建;作出更鲁棒的决策(Robust decisions)和可解释的决策(Explainable decisions)

2. Secure AI:这里的安全分为两个部分,一是攻击影响系统作出决策的正确性、而是攻击者获取AI训练的影响数据、破解AI加密模型。这种方向包括了构建 Secure enclaves,提供一个安全的硬件执行环境;进行对抗学习避免推理阶段和训练阶段引入了恶意的数据;构建更安全的共享数据系统;

3.  AI-speci€c architectures:随着AI的发展,硬件系统架构的迭代显得越来越来重要。这包括了 Domain speci€c hardware,设计专用的硬件架构来提升系统性能和安全能力;Composable AI systems,为AI系统做定制的的模块化、组件化,进行模型的组合、操作行为的组合;Cloud-edge systems,设计合适的连接云端与边缘设备的AI系统,降低边缘设备的延时,充分利用云端的能力来提供更复杂的计算模型和高效的决策。


下图就是上面四大趋势与九大研究方向的关联关系:



这是这个课程的week2内容,主要是介绍了一些机器学习系统的研究方法和关注的趋势挑战。



文章转载自码著,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论