欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

Mathias关于机器学习入门知识的分享

来源:本站整理 作者:佚名 时间:2016-11-02 TAG: 我要投稿

Mathias(*******) 20:33:32
今天分享的主题是关于机器学习的入门知识
首先,大家对于'机器学习'这四个字,从字面上来说,是怎么理解的呢

笑哈哈(*******) 20:34:11
机器人学习嘛
一个人,面对世界(*******) 20:34:27
让机器学会做事情
微涩的棒棒糖、给你个愿望(*******) 20:34:29
和我们一样学习,能做更多的事情
孤独的全家桶(*******) 20:34:44
机器拥有自动学习的能力

Mathias(*******) 20:35:00
大家说得都比较符合自己的直觉。那么机器学习呢,其实也就类似于你们所描述的这样一种技术,只不过,它是一种'方法',而不是'人工智能'本身。

风云无常(*******) 20:35:42
总得感觉应该是,大数据录入,让机器能够面对未知事件主动做出某种行为么?

Mathias(*******) 20:35:43
大家想一想,如果机器人,也就是robot, 你把它想成是一个什么都不懂的小孩子,这时候,你想教会他,去认识字母abcd 你的方法是什么。

西门吹雪<*******> 20:36:30
拿出纸,,写下来,,教他认
微涩的棒棒糖、给你个愿望(*******) 20:36:39
给他a的图像 声音等信息

Mathias(*******) 20:36:54
是不是会首先把 'a,b,c,d' 对应的图像拿给它看,然后告诉他 这是'a',那是'b'。 其实 你'告诉'他的就是,我们想要他学习到的,'正确'的知识,这样一种学习模式,我们把它称为'监督学习',也就是所谓的supervised learning。

Mathias(*******) 20:38:09
最早的机器学习为什么会产生? 就是因为他们发现,当遇到特定的图像识别,语言分析等问题时,你单纯的采用编写程序,构造一个规则去实现目标,是几乎不可能完成的。 这样就产生了'监督学习'的概念,因为监督学习本质上来说, 是给我们的算法一个假设模型。然后我们的目标是 这个假设模型的输出 h(theta) 能够尽量的和我们的目标一致。
以刚才那个认字的例子来说,当theta=一张图片时, 我们希望h(theta)输出对应的label,label就是对应的类别,a b c d ,这种问题在机器学习中被称为'分类问题'
Mathias(*******) 20:41:17
具体的应用, 给你一封邮件,我希望算法输出它是垃圾邮件 或者不是。 或者给你一张图像,输出它是否含有敏感内容,这都是分类算法的具体应用

微涩的棒棒糖、给你个愿望(*******) 20:41:42
嗯 分类就是结果是几个确定的值吧
风云无常(*******) 20:42:41
基于几个特定字符进行判断分类么?
情书01x(*******) 20:42:14
具有相同特征得分在一类吧
Mathias(*******) 20:42:09
嗯,然后有人就会说,你举了一堆概念了,说点实在的呗。
那么我们就先来说说分类算法的具体实现。分类算法根本上还是属于'有监督学习'的。 首先,你需要对原始的数据进行一个最重要的操作 '标注',涉及到特征,但是并不是简单的'判断'。 标注的意思是, 比如我们想要robot学会分类垃圾邮件,这时候,你就需要给他大量的邮件样本,对于每封邮件 ,你需要先标注出, 哪些是垃圾邮件,哪些不是

西门吹雪(*******) 20:44:41
360杀毒引擎的病毒样本
wolf(*******) 20:44:52
对,
风云无常(*******) 20:44:57
标注,基于大量数据,进行筛选构筑数学模型,然后采用权重进行换算判断么?

Mathias(*******) 20:45:00
然后注意了,这时候,你需要留出一小部分数据, 他们虽然也经过了标注,但是是用来进行测试, 而不是让robot去学习的,就像是你让一个人先看图上的马,然后最后需要看他是否认识一匹真正的马

微涩的棒棒糖、给你个愿望(*******) 20:46:07
嗯 学习集合测试集
Mathias(*******) 20:46:15
原始的数据,由此被我们划分成了 '训练集',和'测试集'
接下来就是核心部分了。如何建立起一个,假设的模型。
从这里开始,就有了两种不同的模型,一类叫做'生成模型',另一类则是'判别模型'。 以生成模型最简单的例子-朴素贝叶斯算法来说,大家学过概率论的话,会了解到一个'先验概率' 的说法

西门吹雪(*******) 20:48:04
学过概率。。
没了解过概率论
东风(*******) 20:48:11
正在学
微涩的棒棒糖、给你个愿望(*******) 20:48:13
嗯 贝叶斯
galaxy(*******) 20:48:16
嗯,不少人没学,可以提一下

Mathias(*******) 20:48:24
Mathias(*******) 20:48:31
具体举个例子,比如一个医院收了如下的病人,现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
情书01x(*******) 20:48:56
由以往经验分析得到

Mathias(*******) 20:49:08
这其实就是一个先验概率的例子了,你在生活中,总是知道 狗叫了 可能来小偷了,这其实就是一个先验概率了。你知道,在狗叫的前提下,小偷出现的几率比较大,其实是因为你之前有过这样的经验和统计。用具体的数学公式来描述,就是贝叶斯定理 P(A|B) = P(B|A) P(A) / P(B)
A,B是相互独立的事件

Mathias(*******) 20:51:35
回到我们举的垃圾邮件的例子,现在要让你去分析具体的邮件,怎么使用朴素贝叶斯算法?
如果你经常收到垃圾邮件,可能会有这样的经验,垃圾邮件里总是出现'降价' '促销' '中奖' 这样的关键字。可是,我们当然不能仅仅凭借这个,就武断的说 某一个邮件是垃圾邮件
Alvin(*******) 20:53:15
很容易误判的

Mathias(*******) 20:53:16
所以这个时候,朴素贝叶斯的作用就来了 ,它可以从以往的邮件中,去获得关于类别的边界

微涩的棒棒糖、给你个愿望(*******) 20:54:21
什么边界。

Mathias(*******) 20:54:22
这时候,我们又遇到了一个新的问题, 贝叶斯算法中用到的,A,B,C 这些独立事件,在邮件中怎么提现呢? 你想一想,我这样描述A: '降价' 在邮件中 出现了,B:'促销' 在邮件中 出现了,C: 某个普通的词,比如'技术' 在邮件 中出现了。这样我们用一个程序进行自动化的预处理,就能得到非常多的独立事件了,然后假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。现有m个类别(Category),分别为C1、C2、...、Cm。
P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
这里的n个特征,其实就是我们说的,这些关键字是否出现了,取值自然就是 0或者1。通过这样的算法 我们的邮件被转换成了一个向量 就像 [0,1,1,1,1,1,0,0....

[1] [2] [3] [4]  下一页

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载