注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

mmicky 的博客

追逐刹那的惊艳

 
 
 

日志

 
 

mahout0.9 测试  

2014-02-09 21:23:12|  分类: mahout&rapidmine |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
环境:hadoop2.2.0 + mahout0.9
hadoop1 192.168.100.171 (namenode、secondarynamenode、resourcemanager、mahout)
hadoop2 192.168.100.172 (datanode、nodemanager)
hadoop3 192.168.100.173 (datanode、nodemanager)
hadoop4 192.168.100.174 (datanode、nodemanager)
hadoop5 192.168.100.175 (datanode、nodemanager)

一:安装mahout0.9
[root@hadoop1 hadoop]# tar zxf /mnt/mydisk/soft/hadoop/mahout/mahout-distribution-0.9.tar.gz 
[root@hadoop1 hadoop]# tar zxf /mnt/mydisk/soft/hadoop/mahout/mahout-distribution-0.9-src.tar.gz 
[root@hadoop1 hadoop]# mv mahout-distribution-0.9 mahout09
[root@hadoop1 hadoop]# chown -R hadoop:hadoop mahout09
[root@hadoop1 hadoop]# vi /etc/profile
export HADOOP_PREFIX=/app/hadoop/hadoop220
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop
export MAHOUT_HOME=/app/hadoop/mahout09
export MAHOUT_CONF_DIR=/app/hadoop/mahout09/conf
export PATH=${MAHOUT_HOME}/conf:${MAHOUT_HOME}/bin:$PATH
[root@hadoop1 hadoop]# source /etc/profile
[root@hadoop1 hadoop]# su - hadoop
[hadoop@hadoop1 ~]$ cd /app/hadoop/mahout09/
[hadoop@hadoop1 mahout09]$ bin/mahout
mahout0.9 测试 - mmicky - mmicky 的博客
 

二:聚类测试
Synthetic_control.data数据集下载地址
该数据集含有600行60列数据,每100行代表一种趋势图,共6种,具体说明参看:
运行例程指南
注意使用synthetic_control.data测试时要先上传至hdfs://hadoop1:8000/user/hadoop/testdata
命令行使用方法
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.${clustering.type}.Job
${clustering.type} 可以是canopy、kmeans、fuzzykmeans、dirichlet其中一种,比如使用kmeans使用如下命令:
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

实验:
[hadoop@hadoop1 hadoop220]$ sbin/start-dfs.sh
[hadoop@hadoop1 hadoop220]$ sbin/start-yarn.sh
[hadoop@hadoop1 hadoop220]$ bin/hdfs dfs -mkdir -p /user/hadoop/testdata
[hadoop@hadoop1 hadoop220]$ bin/hdfs dfs -put /app/data/synthetic_control.data /user/hadoop/testdata/
[hadoop@hadoop1 hadoop220]$ cd ../mahout09/
[hadoop@hadoop1 mahout09]$ bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
mahout0.9 测试 - mmicky - mmicky 的博客
 
mahout0.9 测试 - mmicky - mmicky 的博客
 
三:分类器测试
mahout 0.8之后 20newsgroups的例程使用方法已经改变了,只需要直接运行一个脚本classify-20newsgroups.sh就可以了,但是在hadoop2.2.0上运行会出现错误,下面是hadoop2.2.0下运行情况:
[hadoop@hadoop1 hadoop220]$ bin/hdfs dfs -mkdir -p /tmp/mahout-work-hadoop/20news-all
[hadoop@hadoop1 mahout09]$ export HADOOP_HOME=/app/hadoop/hadoop220
以上两点要先做到,不然classify-20newsgroups.sh脚本运行会发生下载下来的样本数据无法上载、建模无法进行等问题。
[hadoop@hadoop1 mahout09]$ ./examples/bin/classify-20newsgroups.sh
mahout0.9 测试 - mmicky - mmicky 的博客
 
修改/etc/profile并source,然后切换到hadoop1.2.0下运行该脚本,能正常运行,结果如下:
mahout0.9 测试 - mmicky - mmicky 的博客
 
  评论这张
 
阅读(313)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017