注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

mmicky 的博客

追逐刹那的惊艳

 
 
 

日志

 
 

Mahout初体验  

2013-10-21 02:38:23|  分类: hadoop1 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

1:安装mahout
官网http://mahout.apache.org下载mahout0.6,解压缩并上传到hadoop集群中某一节点(实验的时候上传到NN节点),并将所有者权限赋给hadoop集群的所有者,(实验中为hadoop:hadoop)。
Mahout初体验 - mmicky - mmicky 的博客
 修改/etc/profile,增加
export HADOOP_HOME=/app/hadoop/hadoop120
export HADOOP_CONF_DIR=/app/hadoop/hadoop120/conf
export MAHOUT_HOME=/app/hadoop/mahout06
export MAHOUT_CONF_DIR=/app/hadoop/mahout06/conf
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:${MAHOUT_HOME}/conf:${MAHOUT_HOME}/bin:$PATH
Mahout初体验 - mmicky - mmicky 的博客
 然后source /etc/profile

2:下在20newsgroup样本数据,上传至NN节点/app/data目录

3:建立训练集
mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \
-p /app/data/20news-bydate-train \
-o /app/data/bayes-train-input \
-a org.apache.mahout.vectorizer.DefaultAnalyzer \
-c UTF-8
Mahout初体验 - mmicky - mmicky 的博客
 
4:建立测试集
mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \
-p /app/data/20news-bydate-test \
-o /app/data/bayes-test-input \
-a org.apache.mahout.vectorizer.DefaultAnalyzer \
-c UTF-8
Mahout初体验 - mmicky - mmicky 的博客
 
5:上传数据到HDFS
Mahout初体验 - mmicky - mmicky 的博客
 
6:训练贝叶斯分类器
mahout trainclassifier \
-i /user/hadoop/week10/bayes-train-input \
-o /user/hadoop/week10/newsmodel \
-type cbayes \
-ng 2 \
-source hdfs
Mahout初体验 - mmicky - mmicky 的博客
 
Mahout初体验 - mmicky - mmicky 的博客
 
7:生成的模型
Mahout初体验 - mmicky - mmicky 的博客
 
8:测试贝叶斯分类器
mahout testclassifier \
-m /user/hadoop/week10/newsmodel \
-d /user/hadoop/week10/bayes-test-input \
-type cbayes \
-ng 2 \
-source hdfs \
-method mapreduce
Mahout初体验 - mmicky - mmicky 的博客
 
Mahout初体验 - mmicky - mmicky 的博客
 
9:体验过程遇到的几个问题
A:mahout不能象pig一样安装在客户端,然后在客户端提交计算给hadoop集群。
B:mahout0.8在建立训练集找不到相应的20newsgroup接口,应该和mahout0.6有区别。
C:在测试贝叶斯分类器内存不够,会导致计算中断,必要的话,修改mapred-site.xml,增加参数mapred.child.java.opts,值为 -Xmx1024m。
  评论这张
 
阅读(272)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017