机器学习CR-EP01：机器学习的动机与应用【存疑】

By arthur503 -- 31 Oct 2013

开始看斯坦福的公开课《机器学习》，Andrew Ng教的，看起来很年轻，像是个中国人，传说中也是很牛逼闪闪的人物（注：刚看到未来的大学里说“而在2013年，Andrew Ng入选财富杂志全球40岁以下最富有的40人。”）。

CR是Class Report，课堂笔记。《机器学习》第一集。

一、应用举例

机器学习可以用于各个学科，每个领域都有人来找他谈合作，天天谈。举了个例子，是邮局寄信的时候后，手写的邮编是由机器识别出来的，这个手写字体的识别就是机器学习的应用。（国内的邮局应该还是人工识别吧？邮递员大学该好好努力了！）

二、机器学习定义

给了两个机器学习的定义。

一是1959年Arthur Samuel的定义（好早！同样是Arthur，可我还没出生呢！）：Field of study that gives computers the ability to learn without explicitly programed. 意思是说：无需显式的事先编程定义，就可以使计算机具有学习能力的研究领域。感觉有一点点人工智能的意思。这里举了一个Arthur做的西洋棋的例子，说最后Arthur写出来的西洋棋程序超过了Arthur本身的下棋能力。让人想起了很久之前IBM的“深蓝”电脑与棋王的对决。

二是1998年Tom Mitchell的定义（貌似经典的机器学习书就是他的那本吧）：A computer program is said to learn from experience E with respect to some task T and performance mesure P, if its performance on T, as measured by P, can improve with experience E. 这个定义看起来严格了一点，像是数学定义似的，关键是听起来还押韵！很好玩的样子。

根据这两个定义，我自己对机器学习的理解就是：无需显式的事先编程，就可以使计算机根据某种已经确定的测量方法，从既往的经验结果中学习，并且提高在未来对数据的预测和判断能力。说白了，跟一个小孩在认识世界的步骤一样，根据个人以往的经历形成自己的对世界的观念（其实也可以叫做“偏见”），从而对未来未知的数据或事件可以进行更加准确的判断和识别。

三、机器学习的主要范围

主要有四个。

Supervised learning（有监督学习）

是指从已知训练集分类/答案的数据集中进行学习。比如：房价预测（回归问题）、良性/恶性肿瘤分类（离散数据的分类问题）。

不过这里提到了一个有意思的问题：数据一般是用高维度向量表示，维度越多，信息量越大。很多时候会用到无限维的东西，那么，在计算机中，如何使用有限的内存表示无限维的点呢？Andrew说讲到了SVM再来说。【存疑】

Learn Theory（学习理论/策略）

讲到这里，Andrew讲了个笑话，说是他去硅谷的时候，很多人都会拉着给他讲他们在做的机器学习的东西，展示他们六个月以来的研究成果，他看了之后，觉得they are waste of time from the start of six months ago！Andrew说他的课堂的目标是希望学生不止对机器学习开始感兴趣，而且是Quilified in machine learing research!希望我的学习不会是浪费时间吧！

Unsupervised Learning（无监督学习）

是指没有标注过的数据集，由机器自己去寻找something interesting. 比如：聚类。Andrew举了之前学生做的例子，使用聚类分离噪杂的鸡尾酒会中两个人的说话声音。效果很好，能够很清晰的将两个人的声音分离开来（这个代码可以用一行matlab代码实现，所以Andrew力推要学习Matlab。当然他也说了，这一行代码是研究了好久之后的结果，所以这个task也没那么简单）。还有比如，将照片中的像素聚类，从而得到照片中物体的轮廓。

Reinforcement Learning（强化学习）

是指通过对学习结果的鼓励和惩罚（惩罚函数），来得到更优的学习结果。就像是家里训练小狗，做得好了说”good dog”，不好了说”bad dog”，这样，以后狗的表现就越来越好（我怎么感觉人在这个社会里也是这样被社会训练的呢？跟“乖孩子”、“坏孩子”一样。那样“你看看别人家的孩子”这种是不是可以看做一种新的机器学习类型？可以叫做榜样学习(Example Learning)，哈哈）。课堂上展示了之前学生做的一个电脑控制飞机倒立悬空的视频，可以看出飞机可以很稳定的在空中悬停，很牛逼的技术。还有个机器狗学习走路，这样的技术跟月球行走一样。国外的孩子学的NB，玩的也高端大气。

最后，Andrew强调可以组成3人以内的学习小组，可以互相讨论，但不能互相抄袭作业！所以，如果你看到了这里，求小伙伴加入！

参考资料：

斯坦福大学公开课-《机器学习》Andrew Ng