初識MapReduce的應(yīng)用場景(附JAVA和Python代碼)
Java版本代碼
先是準(zhǔn)備一個數(shù)據(jù)集,包含著已經(jīng)切割好的詞匯,這里我們設(shè)置文件的格式是txt格式的。文件名是WordMRDemo.txt,內(nèi)容是下面簡短的一句話,以空格分割開:
hello my name is spacedong welcome to the spacedong thank you
引入Hadoop的依賴包
//這里使用的是2.6.5的依賴包,你可以使用其他版本的
<dependency>
<groupId>org.a(chǎn)pache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.5</version>
</dependency>
<dependency>
<groupId>org.a(chǎn)pache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.5</version>
</dependency>
(溫馨提示:代碼部分可左右滑動)
新建WordMapper.java文件,代碼的作用是進(jìn)行以空格的形式進(jìn)行分詞。
public class WordMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
@Override
protected void map(LongWritable key, Text value, Mapper.Context context)
throws java.io.IOException, InterruptedException {
String line = value.toString();
//StringTokenizer默認(rèn)按照空格來切
StringTokenizer st = new StringTokenizer(line);
while (st.hasMoreTokens()) {
String world = st.nextToken();
//map輸出
context.write(new Text(world), new IntWritable(1));
}
}
}
新建WordReduce.java文件,作用是進(jìn)行詞匯的統(tǒng)計。
public class WordReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
@Override
protected void reduce(Text key, Iterable<IntWritable> iterator, Context context)
throws java.io.IOException ,InterruptedException {
int sum = 0 ;
for(IntWritable i:iterator){
sum+=i.get();
}
context.write(key, new IntWritable(sum));
}
}
新建WordMRDemo.java文件,作用是運行Job,開始分析句子。
public class WordMRDemo {
public static void main(String[] args) {
Configuration conf = new Configuration();
//設(shè)置mapper的配置,既就是hadoop/conf/mapred-site.xml的配置信息
conf.set("mapred.job.tracker", "hadoop:9000");
try {
//新建一個Job工作
Job job = new Job(conf);
//設(shè)置運行類
job.setJarByClass(WordMRDemo.class);
//設(shè)置要執(zhí)行的mapper類
job.setMapperClass(WordMapper.class);
//設(shè)置要執(zhí)行的reduce類
job.setReducerClass(WordReduce.class);
//設(shè)置輸出key的類型
job.setMapOutputKeyClass(Text.class);
//設(shè)置輸出value的類型
job.setMapOutputValueClass(IntWritable.class);
//設(shè)置ruduce任務(wù)的個數(shù),默認(rèn)個數(shù)為一個(一般reduce的個數(shù)越多效率越高)
//job.setNumReduceTasks(2);
//mapreduce 輸入數(shù)據(jù)的文件/目錄,注意,這里可以輸入的是目錄。
FileInputFormat.a(chǎn)ddInputPath(job, new Path("F:BigDataWorkPlacedatainput"));
//mapreduce 執(zhí)行后輸出的數(shù)據(jù)目錄,不能預(yù)先存在,否則會報錯。
FileOutputFormat.setOutputPath(job, new Path("F:BigDataWorkPlacedataout"));
//執(zhí)行完畢退出
System.exit(job.waitForCompletion(true) ? 0 : 1);
} catch (Exception e) {
e.printStackTrace();
}
}
}
最后執(zhí)行WordMRDemo.java文件,然后得到的結(jié)果是out文件夾內(nèi)的內(nèi)容,它長這個樣子:

out的文件目錄
打開part-r-00000文件的內(nèi)容如下

具體的文件內(nèi)容Python代碼版本
新建map.py文件,進(jìn)行詞匯的切割。
for line in sys.stdin:
time.sleep(1000)
ss = line.strip().split(' ')
for word in ss:
print ' '.join([word.strip(), '1'])
新建red.py文件,進(jìn)行詞匯的統(tǒng)計。
cur_word = None
sum = 0
for line in sys.stdin:
ss = line.strip().split(' ')
if len(ss) != 2:
continue
word, cnt = ss
if cur_word == None:
cur_word = word
if cur_word != word:
print ' '.join([cur_word, str(sum)])
cur_word = word
sum = 0
sum += int(cnt)
print ' '.join([cur_word, str(sum)])
新建run.sh文件,直接運行即可。
HADOOP_CMD="/usr/local/src/hadoop-2.6.5/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar"
INPUT_FILE_PATH_1="/test.txt"
OUTPUT_PATH="/output"
$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH
# Step 1.
$HADOOP_CMD jar $STREAM_JAR_PATH
-input $INPUT_FILE_PATH_1
-output $OUTPUT_PATH
-mapper "python map.py"
-reducer "python red.py"
-file ./map.py
-file ./red.py
以上的是演示demo的核心代碼,完整的代碼可以上github的代碼倉庫上獲取。
GitHub地址為:http://github.com/cassieeric/bigDaaNotes
以上的文章是MapReduce系列的第一篇,下篇預(yù)告是MapReduce的編程模型,敬請期待!
福利
看完后,是否對 MapReduce 有了初步的了解呢?最后送一本電子書給大家《Hadoop的技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計及實現(xiàn)原理》,在公眾號后臺回復(fù) MapReduce 關(guān)鍵字即可獲取。
參考資料:
Hadoop的技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計及實現(xiàn)原理
題圖:cosmin Paduraru
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月30日立即申請試用>> 【免費試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會
- 2 全球股市陷AI獨大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機(jī)器人
- 7 Figure AI 交付突破350臺,陪跑特斯拉會迎來iPhone 時刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報告
- 9 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













