设为首页 收藏本站
查看: 686|回复: 0

[经验分享] Hadoop白皮书(5):机器学习Mahout简介

[复制链接]

尚未签到

发表于 2016-12-12 10:42:52 | 显示全部楼层 |阅读模式
Mahout 是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。通过和 Apache Hadoop 分布式框架相结合,Mahout 可以有效地使用分布式系统来实现高性能计算。

Mahout 现在提供 4 种使用场景的算法。

· 推荐引擎算法:通过分析用户的使用行为的历史记录来推算用户最可能喜欢的商品、服务、套餐的相关物品。实现时可以基于用户的推荐(通过查找相似的用户来推荐项目)或基于项目的推荐(计算项目之间的相似度并做出推荐)。

· 聚类算法:通过分析将一系列相关的物品等划分为相关性相近的群组。

· 分类算法:通过分析一组已经分类的物品,将其他未分类的其他物品按同样规则归入相应的分类。

· 相关物品分析算法:识别出一系列经常一起出现的物品组(经常一起查询、放入购物 车等)。

Mahout 算法所处理的场景,经常是伴随着海量的用户使用数据的情况。通过将 Mahout 算法构建于 MapReduce 框架之上,将算法的输入、输出和中间结果构建于 HDFS 分布式文件系统之上,使得 Mahout 具有高吞吐、高并发、高可靠性的特点。最终,使业务系统可以高效快速地得到分析结果。

MapReduce 应用场景

视频分析和检索

使用 Hadoop Map/Reduce 算法,将存放在视频图片库中的海量数据并行分析检索,并可以将分析结果实时汇总,以提供进一步的分析及使用。Map/Reduce 算法使得原来需要几天的分析计算缩短到几个小时,如果需要甚至可以通过添加服务器的方式线性增加系统的处理能力。新的算法,比如数字城市中的车牌识别、套牌分析、车辆轨迹分析等应用,都通过 Map/Reduce 算法部署到服务器集群中。

客户流失性分析

风险分析需要在不同数据源的海量数据中使用模式识别技术寻找出具有风险倾向的个体或公司。海量数据的存储、搜索、读取和分析都是需要高计算能力和高吞吐量的系统来实现。使用 Map/Reduce算法可以将复杂的计算动态地分布到服务器集群中的各台服务器上并行处理,可以通过服务器的线性扩充轻易突破计算能力的瓶颈,解决海量数据高性能计算的问题。某运行商将所有的通讯记录实时导入到 HBase 中,一方面通过 HBase 提供实时的通讯记录查询功能,另一方面通过Map/Reduce 分析用户的历史通讯记录以识别出优质客户;当他们的通讯量显著减少时,意味着这些用户可能已转移到其他运行商,从而可以采取特定优惠措施留住这些用户。

推荐引擎

推荐引擎工具用于找出物品之间的相关性,然后推荐给用户相似的物品,从而达到进一步吸引用户,提高用户粘性的目的。某购物网站采用 Map/Reduce 分析大量用户的购买记录,计算购买记录间的相似性,从而找出商品间的相关度。然后以商品为索引列出相关的其他商品。在用户购买了某一个商品后,网站根据分析结果推荐给用户可能感兴趣的其他商品。由于用户的购买记录是海量数据,要在特定时间内及时得到分析结果,必需采取 Map/Reduce 的方法对购买记录进行并行统计和汇总。

数据分析手段

· 全文挖掘

· 建立索引

· 图形创建和分析

· 模式识别

· 协同过滤

· 情感分析

· 风险评估

数据分析应用

· 视频分析和检索

· 现实风险建模

· 客户流失性分析

· 推荐引擎

· 广告目标投放

· 售卖点交易分析

· 网络失效预测

· 安全风险分析

· 商业交易监控

· 搜索质量评估

· 数据“沙盒”

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-313187-1-1.html 上篇帖子: Hadoop Reduce Join及基于MRV2 API 重写 下篇帖子: [实验]hadoop例子 trackinfo数据清洗的改写
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表