当前位置: 首页 > news >正文

使用hadoop实现关联商品统计

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/40184581

近期几天一直在看hadoop相关的书籍,眼下略微有点感觉,自己就仿照着WordCount程序自己编写了一个统计关联商品。

需求描写叙述:

依据超市的销售清单,计算商品之间的关联程度(即统计同一时候买A商品和B商品的次数)。

数据格式:

超市销售清单简化为例如以下格式:一行表示一个清单,每一个商品採用 "," 切割,例如以下图所看到的:


需求分析:

採用hadoop中的mapreduce对该需求进行计算。

map函数主要拆分出关联的商品,输出结果为 key为商品A,value为商品B,对于第一条三条结果拆分结果例如以下图所看到的:


这里为了统计出和A、B两件商品想关联的商品。所以商品A、B之间的关系输出两条结果即 A-B、B-A。

reduce函数分别对和商品A相关的商品进行分组统计,即分别求value中的各个商品出现的次数,输出结果为key为商品A|商品B。value为该组合出现的次数。针对上面提到的5条记录,对map输出中key值为R的做下分析:

通过map函数的处理,得到例如以下图所看到的的记录:


reduce中对map输出的value值进行分组计数,得到的结果例如以下图所看到的


将商品A B作为key,组合个数作为value输出,输出结果例如以下图所看到的:


对于需求的实现过程的分析到眼下就结束了。以下就看下详细的代码实现

代码实现:

关于代码就不做具体的介绍。具体參照代码之中的凝视吧。

package com;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map.Entry;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class Test extends Configured implements Tool{

	/**
	 * map类,实现数据的预处理
	 * 输出结果key为商品A value为关联商品B
	 * @author lulei
	 */
	public static class MapT extends Mapper<LongWritable, Text, Text, Text> {
		public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
			String line = value.toString();
			if (!(line == null || "".equals(line))) {
				//切割商品
				String []vs = line.split(",");
				//两两组合。构成一条记录
				for (int i = 0; i < (vs.length - 1); i++) {
					if ("".equals(vs[i])) {//排除空记录
						continue;
					}
					for (int j = i+1; j < vs.length; j++) {
						if ("".equals(vs[j])) {
							continue;
						}
						//输出结果
						context.write(new Text(vs[i]), new Text(vs[j]));
						context.write(new Text(vs[j]), new Text(vs[i]));
					}
				}
			} 
		}
	}
	
	/**
	 * reduce类,实现数据的计数
	 * 输出结果key 为商品A|B value为该关联次数
	 * @author lulei
	 */
	public static class ReduceT extends Reducer<Text, Text, Text, IntWritable> {
		private int count;
		
		/**
		 * 初始化
		 */
		public void setup(Context context) {
			//从參数中获取最小记录个数
			String countStr = context.getConfiguration().get("count");
			try {
				this.count = Integer.parseInt(countStr);
			} catch (Exception e) {
				this.count = 0;
			}
		}
		public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException{
			String keyStr = key.toString();
			HashMap<String, Integer> hashMap = new HashMap<String, Integer>();
			//利用hash统计B商品的次数
			for (Text value : values) {
				String valueStr = value.toString();
				if (hashMap.containsKey(valueStr)) {
					hashMap.put(valueStr, hashMap.get(valueStr) + 1);
				} else {
					hashMap.put(valueStr, 1);
				}
			}
			//将结果输出
			for (Entry<String, Integer> entry : hashMap.entrySet()) {
				if (entry.getValue() >= this.count) {//仅仅输出次数不小于最小值的
					context.write(new Text(keyStr + "|" + entry.getKey()), new IntWritable(entry.getValue()));
				}
			}
		}
	}
	
	@Override
	public int run(String[] arg0) throws Exception {
		// TODO Auto-generated method stub
		Configuration conf = getConf();
		conf.set("count", arg0[2]);
		
		Job job = new Job(conf);
		job.setJobName("jobtest");
		
		job.setOutputFormatClass(TextOutputFormat.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		
		job.setMapperClass(MapT.class);
		job.setReducerClass(ReduceT.class);
		
		FileInputFormat.addInputPath(job, new Path(arg0[0]));
		FileOutputFormat.setOutputPath(job, new Path(arg0[1]));
		
		job.waitForCompletion(true);
		
		return job.isSuccessful() ?

0 : 1; } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub if (args.length != 3) { System.exit(-1); } try { int res = ToolRunner.run(new Configuration(), new Test(), args); System.exit(res); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } }


上传执行:

将程序打包成jar文件,上传到机群之中。

将測试数据也上传到HDFS分布式文件系统中。

命令执行截图例如以下图所看到的:


执行结束后查看对应的HDFS文件系统,例如以下图所看到的:


到此一个完整的mapreduce程序就完毕了,关于hadoop的学习。自己还将继续~

相关文章:

  • 链表的逆置
  • 帧间提取水印
  • 面试遇到的一些题
  • Charles中如何对https抓包
  • 大家一起和snailren学java-(13)字符串
  • 九、搭建织梦cms网站
  • I.MX6 driver goto 使用
  • wcf系列学习5天速成——第四天 wcf之分布式架构
  • 【HBase】start master 与 start master --backup 的区别
  • 【Mongodb】如何创建mongodb的replica set
  • ti processor sdk linux am335x evm /bin/setup-host-check.sh hacking
  • ST:(Lab2)Selenium 实验
  • MySQL中MAX函数与Group By一起使用的注意事项
  • 网易前端JavaScript编码规范
  • BAT面试笔记
  • (三)从jvm层面了解线程的启动和停止
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • Git 使用集
  • HTTP中GET与POST的区别 99%的错误认识
  • input的行数自动增减
  • Java 最常见的 200+ 面试题:面试必备
  • java8-模拟hadoop
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • vue从创建到完整的饿了么(11)组件的使用(svg图标及watch的简单使用)
  • Vultr 教程目录
  • 工作手记之html2canvas使用概述
  • 记一次用 NodeJs 实现模拟登录的思路
  • 前端面试之CSS3新特性
  • 如何利用MongoDB打造TOP榜小程序
  • 深入浅出Node.js
  • 文本多行溢出显示...之最后一行不到行尾的解决
  • 限制Java线程池运行线程以及等待线程数量的策略
  • - 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》
  • 自制字幕遮挡器
  • scrapy中间件源码分析及常用中间件大全
  • 湖北分布式智能数据采集方法有哪些?
  • ​马来语翻译中文去哪比较好?
  • ​你们这样子,耽误我的工作进度怎么办?
  • ​软考-高级-系统架构设计师教程(清华第2版)【第20章 系统架构设计师论文写作要点(P717~728)-思维导图】​
  • ​什么是bug?bug的源头在哪里?
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #define,static,const,三种常量的区别
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (30)数组元素和与数字和的绝对差
  • (Redis使用系列) Springboot 实现Redis消息的订阅与分布 四
  • (附源码)springboot社区居家养老互助服务管理平台 毕业设计 062027
  • (全注解开发)学习Spring-MVC的第三天
  • (转) Face-Resources
  • .NET CORE Aws S3 使用
  • .net 提取注释生成API文档 帮助文档
  • .netcore 6.0/7.0项目迁移至.netcore 8.0 注意事项
  • .NetCore部署微服务(二)
  • .net的socket示例
  • @31省区市高考时间表来了,祝考试成功
  • @Bean注解详解