机器学习算法集锦:从贝叶斯到深度学习及各自优缺点》和《经验之谈:如何为你的机器学习问题选择合适的算法?》

1. 决策树(Decision Tree)
在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠。
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估
场景举例:基于规则的信用评估、赛马结果预测
图片
2. 支持向量机(Support Vector Machine)
基于超平面(hyperplane),支持向量机可以对数据群进行分类。
优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的
场景举例:新闻分类、手写识别。
3. 回归(Regression)
回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。
优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显
场景举例:路面交通流量分析、邮件过滤
图片
4. 朴素贝叶斯分类(Naive Bayes Classification)
朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。
优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类
场景举例:情感分析、消费者分类
5. 隐马尔可夫模型(Hidden Markov model)
显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。
优点:容许数据的变化性,适用于识别(recognition)和预测操作
场景举例:面部表情分析、气象预测
图片
6. 随机森林(Random forest)
随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。
优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用
场景举例:用户流失分析、风险评估
7. 循环神经网络(Recurrent neural network)
在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。
优点:循环神经网络在存在大量有序信息时具有预测能力
场景举例:图像分类与字幕添加、政治情感分析
图片
8. 长短期记忆(Long short-term memory,LSTM)
与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的。尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。
优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用
场景举例:自然语言处理、翻译
9. 卷积神经网络(convolutional neural network)
卷积是指来自后续层的权重的融合,可用于标记输出层。
优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的
场景举例:图像识别、文本转语音、药物发现
正如优秀的扑克玩家和象棋选手(以及任何领域的专家)可以比其他人更好地对未来做出进一步的规划,当我们能够更加生动地想象未来而不受现状扭曲时,我们的决策质量就能够得到改善。通过从目标开始逆向思考,由于是从终点入手,我们可以更加深入地对决策树进行规划。#财富# #小生活,大财富#
《每天五分钟机器学习》专栏限时打折优惠促销中,欢迎订阅,点击下方专栏还可以免费阅读。
在机器学习领域中为什么需要对数值类型的特征做归一化?需要注意的是这种方法对决策树是没有用的,比如C4.5,它是通过特征的信息增益比来确定是否结点分裂的,而归一化并不会改变特征x的信息增益比。但是对于线性回归、逻辑回归、支持向量机、神经网络等等都是有用的,梯度下降算法在多特征情况下,使用特征缩放技巧,可以使梯度下降算法更快,梯度下降所需循环的次数更小。如果有一个机器学习的问题是多特征值,我们要保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。
假如房价问题中有两个特征,特征x1表示面积取值(0~1000),特征x2表示卧室的数目(1~5),我们可以看出特征x1的取值是远远大于x2的,那么此时我们画出这个机器学习问题的轮廓图入图一,我们可以看出损失函数的图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。那么要想解决这个问题,我们需要使用一个技巧就是特征缩放。介绍两种归一化的方法:均值归一化、线性函数归一化
均值归一化
如果有一个特征值xi,我们就用xi-i(i是训练集中特征xi的平均值),这样我们的特征值就具有了为0的平均值了。
线性函数归一化
使用线性函数归一化能够将结果映射到[0,1]的范围,实现对原始数据的等比例缩放
10年后,谁是中国大学真正的王者?结果真的可能令你意想不到。
有位网友精通机器学习,人工神经网络,有限元分析,决策树随机森林等人工智能算法,综合运用了过去20年各大学的大数据,并结合武书连、泰晤士、QS、校友会、软科等各类排名,得出10年后,最有可问鼎Top10的大学是:
1、清华大学
2、浙江大学
3、北京大学
4、上海交通大学
5、华中科技大学
6、武汉大学
7、南京大学
8、复旦大学
9、郑州大学
10、中山大学
对此,你怎么看?
#大学# #高考#
如何用这套分析决策模型,设计自己的管理框架?
1.如何用决策树模型做出正确决策
2.鱼骨图因果分析法
3.如何用PDCA循环法达成目标
4.麦肯锡7S模型
5.SWOT分析构造竞争优势矩阵
6.MECE原则的使用心法
7.如何用OKR
8.如何运用SCQA结构
#干货##模型##学习方法#
个人能力提升十倍速成长
今日在查看本单位的专利。发现《一种预测最大婚姻满意度的婚姻匹配方法》发现这个专利已经进入实际审查阶段了。 一看名称还挺有意思的。看了下发明简介。本发明公开了一种预测最大婚姻满意度的婚姻匹配方法,包括步骤:(A)收集包含个人特征和婚姻满意度打分的夫妻对数据集;(B)根据夫妻双方婚姻满意度打分,将所述数据集划分为两类,一类是夫妻双方都处于最大婚姻满意度状态,另一类是夫妻双方中有任意一方不是处于最大婚姻满意度状态;(C)根据夫妻个人特征变量和夫妻婚姻满意度构建训练集;(D)基于所述的训练集,使用改进梯度提升决策树算法进行训练,建立二分类预测算法模型;(E)基于所述预测模型,输入一对男女的个人特征信息,预测该对男女匹配在一起后双方是否都会获得最大婚姻满意度。简单说就是一个大数据的应用,用已有的婚姻生活实例,选用已有的个人特征和婚姻满意度,个人特征包括非人格特征和人格特征,其中非人格特征包括户口、学历、是否党员、外貌、BMI指数,人格特征包括有成就感的重要程度、喜欢信任还是怀疑别人、生活有乐趣的重要程度、不孤单的重要程度、人缘有多好、传宗接代的重要性、情绪低落程度、对未来信心程度等。用已经有的实例去预测今后两个人的合适程度。这个还是挺有现实意义的。今后各类婚介所,都可以配一个[呲牙]#杭州身边事#。
决策树可视化最好的包
线性回归,逻辑回归,支持向量机,神经网络,决策树,集成学习,推荐算法,聚类算法,主成成分分析,高斯算法 等等经典的机器学习算法都包含在《机器学习》专栏中。
我认为机器学习是一种思维方式,这个和传统编程不同,传统编程是人为设计规则,而机器学习是通过某种技巧来找到数据的规律或者不同数据之间的分割边界,从而建立一个模型,这个模型可以用来预测未知的数据。
所以,无论你是否从事这个领域,你都应该主动了解一下这个知识,很多时候我们看AI那么酷,当你了解一些AI的算法,你会发现也没那个牛,可能人家用了很多技巧,或者提出新的模型,但你绝对是可以理解的。
目前本专栏限时打折优惠中,欢迎订阅,可以参与免费的阅读。
“穷人”该怎么破局?
为什么亲朋好友都比你强?
人与人的差距,很大程度上取决于信息源的输入质量。
进入一个行业,先把时间花费在如何寻找优质的信息源,以及甄别TOP信息源的能力。
列举出行业内TOP的课程,书籍,然后每个看N遍,读一遍,记一遍,想一遍,做一遍,再复盘一遍。有了基础框架后,学会跟着动手,再学会探索,创新,突破。当你有了基础认知和逻辑框架后,再去加优质的社群,圈子,找到行业内TOP的人才,向他们请教。否则一来就向高手请教,不仅浪费你的时间,更浪费他们的时间。
带着问题去请教,学会问问题,是你学习的开始。很多人加我,第一句话就是怎么赚钱,怎么做流量,怎么操盘项目,怎么生男不生女。
有了信息源,如何整理,如何吸收,如何构建属于你的知识帝国?
"最高效的学习方式,就是能清楚地构建出自己原有经验的知识体系框架。在每次学习新知识时,再对原有框架加以增补和修正。"
芒格说,最重要的事情是要牢牢记住一系列原理,什么复利原理、排列组合原理、决策树理论、误判心理学等等100多种模型,它们加在一起往往能够带来特别大的力量。
这也是多元化思维。
多元化思维是伟大的思维模型之一,但是对于学习的偏重点,需要自己衡量。学什么,不学什么。精通什么,略懂什么,这是一个你根据对自己“知识版图”的规划,和学习这些知识的“回报率”来分配自己时间,最大化“收益”的策略性问题。
如果你想把所有门科都学精通,这太难了,非常人所及。
很多时候,你需要学习一些经典学科的重要模型,而其它不太重要的东西,只需要“知道这是什么,可以用来干嘛,什么时候会用到它”就可以了。到了真的要用到的时候,再去针对性地找解决方案。
在限定时间内解决一个“既有挑战又能带给你成就感的”具体问题的过程中, “顺便”去学习某个知识,效果是最好的。
毕竟这个时代,需要什么信息,有时候在网上搜索,比在脑子里检索要更快,这是一个需要检索能力的时代。
这里提供一个学习的方法。
归纳总结是一个伟大的发明。
种一棵学习之树,可以用思维导图代替。
把你的信息来源,学习方法,学习途径,学习计划,当作树根。
把你想学的专业,知识,技能,当作树的枝干。
把你想学的学科具体内容和分类,当作树叶。
一些其它的的学科分类以及模型思维,就属于树上的益虫。
打个比方,我的树根是付费圈子,书籍,拜访大佬,同频交流,各大app关注的优质博主等,这是我的信息来源。
我的学习方法,处理信息能力等等,这是我的转化系统。
然后这些是树根,帮助我吸收,处理信息,以此滋润这棵大树。
我的树干,是项目,写作,营销,商业,历史,电商,投资,心理,自媒体,互联网,重要理论等等。
当然,怎么归纳总结是你们自己根据实际情况区分的,可能有的会把电商,互联网归类为商业一块,但是这两块是我比较关注的,所以就拿出来单独开分类。
我的树叶,就是在树干的具体分类,比如营销包括服务营销,网络营销,品牌营销,体验营销,直销,分销等等。
网络营销又分为社群营销,短视频营销,分类营销,广告投放,微信营销,微博营销,音频引流,平台引流,技术引流,搜索营销等等。
比如项目这个树干,我平时看到的各种互联网项目,我都会把它搜集起来,然后按照需求,流量,运营,变现作为基本拆解,并且对这个项目进行总结,比如有什么亮点,骚操作,利用的资源,思路,细节注意等等,作为一个思考总结,后面有什么能用到类似的项目,直接参考思路就行。
项目的结果不重要,中间的逻辑思路,思考方向和细节处理才是最重要的。
益虫,就是平时看到的各种优质信息和思维模型,比如复利原理,双目标清单系统,网络效应和临界规模,集中式,分布式,博弈论等等。
思维模型是你大脑中用于做决策的工具箱。你拥有的工具箱越多,你就越能够做出正确的决策。
然后我要做的,就是对这棵大树进行扩展,修补,可能一开始你的树根,树枝,树叶,益虫等等都很少,但是经过平时的学习,积累,相信有一天它能会长成一棵参天大树。
大家可以用思维导图按照上面的思路去扩展自己的知识之树,然后平时学到什么,都把它往这里去填补,不仅能提升学习效率,更能培养框架性思维。
特别是适合平时碎片化阅读的人,因为这种方法可以把你的碎片化阅读,通过总结积累,变成一个系统的知识框架,这才是对你真正有用的,否则只是碎片化阅读,你压根就不会深入学习,甚至看了就忘记了。