注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

mmicky 的博客

追逐刹那的惊艳

 
 
 

日志

 
 

Spark1.0.0 多语言编程  

2014-04-14 20:56:43|  分类: spark |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
      了解了spark编程的基本概念,可以看出spark编程都是围绕着RDD进行的。关于编程的基础知识,可以参看Spark1.0.0 编程模型
      spark目前支持scala、python、JAVA编程。
      作为spark的原生语言,scala是开发spark应用程序的首选,其优雅简洁的代码,令开发过mapreduce代码的码农感觉象是上了天堂。
      spark也提供了python的编程模型PySpark,使得python可以作为spark开发语言之一。尽管现在PySpark还不能支持所有的spark API,但是我们相信以后的支持度会越来越高;同时作为NOSQL的主力开发工具之一的python,一旦将NOSQL和spark结合后,我们可以想象以后的发展前景。
      至于JAVA,时间和精力允许的情况下再选吧。不过作为作为长期坐着写代码的码农,应该积极参加登山、会友之类的活动,为身体着想,还是不要选JAVA来编写spark程序了。
      废话了一堆,还是进行spark的编程实践。

1:开发环境
主机wyy(192.168.100.111),内存16G,并配置好以下软件包的环境变量。
hadoop2.2.0伪分布式部署
spark1.0.0 Standalone单机部署
python2.7.4
scala2.10.4
SBT0.13.2
IDE使用IntelliJ IDEA 13.1.2

2:实验项目
sogou日志数据分析
数据格式说明:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。
以上数据格式是官方说明,实际上该数据集中排名和顺序号之间不是\t分割,而是空格分割。
实验数据下载解压后上传到hdfs://wyy:8000/test/minisogou/mini/mini.txt
实验项目:
A:用户在00:00:00到12:00:00之间的查询数
B:搜索结果排名第1,但是点击次序排在第2的数据有多少?
C:一个session内查询次数最多的用户的session与相应的查询次数

3:多语言编程实现
  评论这张
 
阅读(663)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017