欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > hadoop二次排序的原理和實現(xiàn)方法

hadoop二次排序的原理和實現(xiàn)方法

熱門標簽:熱血傳奇沃瑪森林地圖標注 南召400電話辦理資費 地圖標注審核工作怎么樣注冊 福建ai電銷機器人加盟公司 去哪里辦卡 揭陽外呼系統(tǒng)公司 無錫電銷機器人銷售 招聘信息 地圖標注植物名稱 鄭州中國移動400電話申請

默認情況下,Map輸出的結(jié)果會對Key進行默認的排序,但是有時候需要對Key排序的同時還需要對Value進行排序,這時候就要用到二次排序了。下面我們來說說二次排序

1、二次排序原理

我們把二次排序分為以下幾個階段

Map起始階段

在Map階段,使用job.setInputFormatClass()定義的InputFormat,將輸入的數(shù)據(jù)集分割成小數(shù)據(jù)塊split,同時InputFormat提供一個RecordReader的實現(xiàn)。在這里我們使用的是TextInputFormat,它提供的RecordReader會將文本的行號作為Key,這一行的文本作為Value。這就是自定 Mapper的輸入是LongWritable,Text> 的原因。然后調(diào)用自定義Mapper的map方法,將一個個LongWritable,Text>鍵值對輸入給Mapper的map方法

Map最后階段

在Map階段的最后,會先調(diào)用job.setPartitionerClass()對這個Mapper的輸出結(jié)果進行分區(qū),每個分區(qū)映射到一個Reducer。每個分區(qū)內(nèi)又調(diào)用job.setSortComparatorClass()設(shè)置的Key比較函數(shù)類排序。可以看到,這本身就是一個二次排序。如果沒有通過job.setSortComparatorClass()設(shè)置 Key比較函數(shù)類,則使用Key實現(xiàn)的compareTo()方法

Reduce階段

在Reduce階段,reduce()方法接受所有映射到這個Reduce的map輸出后,也會調(diào)用job.setSortComparatorClass()方法設(shè)置的Key比較函數(shù)類,對所有數(shù)據(jù)進行排序。然后開始構(gòu)造一個Key對應(yīng)的Value迭代器。這時就要用到分組,使用 job.setGroupingComparatorClass()方法設(shè)置分組函數(shù)類。只要這個比較器比較的兩個Key相同,它們就屬于同一組,它們的 Value放在一個Value迭代器,而這個迭代器的Key使用屬于同一個組的所有Key的第一個Key。最后就是進入Reducer的 reduce()方法,reduce()方法的輸入是所有的Key和它的Value迭代器,同樣注意輸入與輸出的類型必須與自定義的Reducer中聲明的一致

接下來我們通過示例,可以很直觀的了解二次排序的原理

輸入文件 sort.txt 內(nèi)容為

40 20 40 10 40 30 40 5 30 30 30 20 30 10 30 40 50 20 50 50 50 10 50 60

輸出文件的內(nèi)容(從小到大排序)如下

30 10 30 20 30 30 30 40 -------- 40 5 40 10 40 20 40 30 -------- 50 10 50 20 50 50 50 60

從輸出的結(jié)果可以看出Key實現(xiàn)了從小到大的排序,同時相同Key的Value也實現(xiàn)了從小到大的排序,這就是二次排序的結(jié)果

2、二次排序的具體流程

在本例中要比較兩次。先按照第一字段排序,然后再對第一字段相同的按照第二字段排序。根據(jù)這一點,我們可以構(gòu)造一個復(fù)合類IntPair ,它有兩個字段,先利用分區(qū)對第一字段排序,再利用分區(qū)內(nèi)的比較對第二字段排序。二次排序的流程分為以下幾步。

在本例中要比較兩次。先按照第一字段排序,然后再對第一字段相同的按照第二字段排序。根據(jù)這一點,我們可以構(gòu)造一個復(fù)合類IntPair ,它有兩個字段,先利用分區(qū)對第一字段排序,再利用分區(qū)內(nèi)的比較對第二字段排序。二次排序的流程分為以下幾步。

1、自定義 key

所有自定義的key應(yīng)該實現(xiàn)接口WritableComparable,因為它是可序列化的并且可比較的。WritableComparable 的內(nèi)部方法如下所示

// 反序列化,從流中的二進制轉(zhuǎn)換成IntPair
public void readFields(DataInput in) throws IOException

// 序列化,將IntPair轉(zhuǎn)化成使用流傳送的二進制
public void write(DataOutput out)

// key的比較
public int compareTo(IntPair o)

// 默認的分區(qū)類 HashPartitioner,使用此方法
public int hashCode()

// 默認實現(xiàn)
public boolean equals(Object right)

2、自定義分區(qū)

自定義分區(qū)函數(shù)類FirstPartitioner,是key的第一次比較,完成對所有key的排序。

public static class FirstPartitioner extends Partitioner IntPair,IntWritable>

在job中使用setPartitionerClasss()方法設(shè)置Partitioner

job.setPartitionerClasss(FirstPartitioner.Class);

3、Key的比較類

這是Key的第二次比較,對所有的Key進行排序,即同時完成IntPair中的first和second排序。該類是一個比較器,可以通過兩種方式實現(xiàn)。

1) 繼承WritableComparator。

public static class KeyComparator extends WritableComparator

必須有一個構(gòu)造函數(shù),并且重載以下方法。

public int compare(WritableComparable w1, WritableComparable w2)

2) 實現(xiàn)接口 RawComparator。

上面兩種實現(xiàn)方式,在Job中,可以通過setSortComparatorClass()方法來設(shè)置Key的比較類。

job.setSortComparatorClass(KeyComparator.Class);

注意:如果沒有使用自定義的SortComparator類,則默認使用Key中compareTo()方法對Key排序。

4、定義分組類函數(shù)

在Reduce階段,構(gòu)造一個與 Key 相對應(yīng)的 Value 迭代器的時候,只要first相同就屬于同一個組,放在一個Value迭代器。定義這個比較器,可以有兩種方式。

1) 繼承 WritableComparator。

public static class GroupingComparator extends WritableComparator

必須有一個構(gòu)造函數(shù),并且重載以下方法。

public int compare(WritableComparable w1, WritableComparable w2)

2) 實現(xiàn)接口 RawComparator。

上面兩種實現(xiàn)方式,在 Job 中,可以通過 setGroupingComparatorClass()方法來設(shè)置分組類。

job.setGroupingComparatorClass(GroupingComparator.Class);

另外注意的是,如果reduce的輸入與輸出不是同一種類型,則 Combiner和Reducer 不能共用 Reducer 類,因為

Combiner 的輸出是 reduce 的輸入。除非重新定義一個Combiner。

3、代碼實現(xiàn)

Hadoop的example包中自帶了一個MapReduce的二次排序算法,下面對 example包中的二次排序進行改進

package com.buaa;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;
/** 
* @ProjectName SecondarySort
* @PackageName com.buaa
* @ClassName IntPair
* @Description 將示例數(shù)據(jù)中的key/value封裝成一個整體作為Key,同時實現(xiàn) WritableComparable接口并重寫其方法
* @Author 劉吉超
* @Date 2016-06-07 22:31:53
*/
public class IntPair implements WritableComparableIntPair>{
  private int first;
  private int second;
  public IntPair(){
  }
  public IntPair(int left, int right){
    set(left, right);
  }
  public void set(int left, int right){
    first = left;
    second = right;
  }
  @Override
  public void readFields(DataInput in) throws IOException{
    first = in.readInt();
    second = in.readInt();
  }
  @Override
  public void write(DataOutput out) throws IOException{
    out.writeInt(first);
    out.writeInt(second);
  }
  @Override
  public int compareTo(IntPair o)
  {
    if (first != o.first){
      return first  o.first ? -1 : 1;
    }else if (second != o.second){
      return second  o.second ? -1 : 1;
    }else{
      return 0;
    }
  }
  @Override
  public int hashCode(){
    return first * 157 + second;
  }
  @Override
  public boolean equals(Object right){
    if (right == null)
      return false;
    if (this == right)
      return true;
    if (right instanceof IntPair){
      IntPair r = (IntPair) right;
      return r.first == first  r.second == second;
    }else{
      return false;
    }
  }
  public int getFirst(){
    return first;
  }
  public int getSecond(){
    return second;
  }
}
package com.buaa;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
/** 
* @ProjectName SecondarySort
* @PackageName com.buaa
* @ClassName SecondarySort
* @Description TODO
* @Author 劉吉超
* @Date 2016-06-07 22:40:37
*/
@SuppressWarnings("deprecation")
public class SecondarySort {
  public static class Map extends MapperLongWritable, Text, IntPair, IntWritable> {
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
      String line = value.toString();
      StringTokenizer tokenizer = new StringTokenizer(line);
      int left = 0;
      int right = 0;
      if (tokenizer.hasMoreTokens()) {
        left = Integer.parseInt(tokenizer.nextToken());
        if (tokenizer.hasMoreTokens())
          right = Integer.parseInt(tokenizer.nextToken());
        context.write(new IntPair(left, right), new IntWritable(right));
      }
    }
  }
  /*
   * 自定義分區(qū)函數(shù)類FirstPartitioner,根據(jù) IntPair中的first實現(xiàn)分區(qū)
   */
  public static class FirstPartitioner extends PartitionerIntPair, IntWritable>{
    @Override
    public int getPartition(IntPair key, IntWritable value,int numPartitions){
      return Math.abs(key.getFirst() * 127) % numPartitions;
    }
  }
  /*
   * 自定義GroupingComparator類,實現(xiàn)分區(qū)內(nèi)的數(shù)據(jù)分組
   */
  @SuppressWarnings("rawtypes")
  public static class GroupingComparator extends WritableComparator{
    protected GroupingComparator(){
      super(IntPair.class, true);
    }
    @Override
    public int compare(WritableComparable w1, WritableComparable w2){
      IntPair ip1 = (IntPair) w1;
      IntPair ip2 = (IntPair) w2;
      int l = ip1.getFirst();
      int r = ip2.getFirst();
      return l == r ? 0 : (l  r ? -1 : 1);
    }
  }
  public static class Reduce extends ReducerIntPair, IntWritable, Text, IntWritable> {
    public void reduce(IntPair key, IterableIntWritable> values, Context context) throws IOException, InterruptedException {
      for (IntWritable val : values) {
        context.write(new Text(Integer.toString(key.getFirst())), val);
      }
    }
  }
  public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
    // 讀取配置文件
    Configuration conf = new Configuration();
    // 判斷路徑是否存在,如果存在,則刪除  
    Path mypath = new Path(args[1]); 
    FileSystem hdfs = mypath.getFileSystem(conf); 
    if (hdfs.isDirectory(mypath)) { 
      hdfs.delete(mypath, true); 
    } 
    Job job = new Job(conf, "secondarysort");
    // 設(shè)置主類
    job.setJarByClass(SecondarySort.class);
    // 輸入路徑
    FileInputFormat.setInputPaths(job, new Path(args[0]));
    // 輸出路徑
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    // Mapper
    job.setMapperClass(Map.class);
    // Reducer
    job.setReducerClass(Reduce.class);
    // 分區(qū)函數(shù)
    job.setPartitionerClass(FirstPartitioner.class);
    // 本示例并沒有自定義SortComparator,而是使用IntPair中compareTo方法進行排序 job.setSortComparatorClass();
    // 分組函數(shù)
    job.setGroupingComparatorClass(GroupingComparator.class);
    // map輸出key類型
    job.setMapOutputKeyClass(IntPair.class);
    // map輸出value類型
    job.setMapOutputValueClass(IntWritable.class);
    // reduce輸出key類型
    job.setOutputKeyClass(Text.class);
    // reduce輸出value類型
    job.setOutputValueClass(IntWritable.class);
    // 輸入格式
    job.setInputFormatClass(TextInputFormat.class);
    // 輸出格式
    job.setOutputFormatClass(TextOutputFormat.class);
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

總結(jié)

以上所述是小編給大家介紹的hadoop二次排序的原理和實現(xiàn)方法,希望對大家有所幫助,如果大家有任何疑問歡迎給我留言,小編會及時回復(fù)大家的!

您可能感興趣的文章:
  • Hadoop對文本文件的快速全局排序?qū)崿F(xiàn)方法及分析

標簽:黔南 南昌 東莞 宣城 桂林 景德鎮(zhèn) 文山 鹽城

巨人網(wǎng)絡(luò)通訊聲明:本文標題《hadoop二次排序的原理和實現(xiàn)方法》,本文關(guān)鍵詞  hadoop,二次,排序,的,原理,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《hadoop二次排序的原理和實現(xiàn)方法》相關(guān)的同類信息!
  • 本頁收集關(guān)于hadoop二次排序的原理和實現(xiàn)方法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    国内欧美视频一区二区| 深夜福利网站在线观看| 喷水视频在线观看| 欧美影院精品一区| 最新中文字幕一区二区三区| 国产福利91精品| 色婷婷国产精品免| 精品入口麻豆88视频| 欧美aⅴ一区二区三区视频| 精品无码av一区二区三区| 欧洲国内综合视频| 亚洲欧美日韩在线| 99久久精品国产一区二区三区| 污污的视频在线免费观看| 国产日韩成人精品| 国产99久久久国产精品潘金 | 又大又长粗又爽又黄少妇视频| 麻豆明星ai换脸视频| 国产精品美女久久久久久2018| 国产成人免费在线视频| www.5588.com毛片| 亚洲欧美日韩中文播放| avtt中文字幕| 91麻豆精品国产91久久久久| 日本va欧美va欧美va精品| 国产精品一区二区入口九绯色| 日韩视频永久免费| 久久精品国产秦先生| 欧美自拍偷拍网| 国产精品免费av| a4yy欧美一区二区三区| 欧美人伦禁忌dvd放荡欲情| 日韩精品高清不卡| 婷婷综合五月天| 黄色录像a级片| 26uuu久久天堂性欧美| 国产一区在线观看麻豆| 一本色道久久88| 亚洲欧洲99久久| 国产精品日日摸夜夜爽| 日韩视频一区二区| 国产揄拍国内精品对白| 18岁成人毛片| 亚洲五码中文字幕| 国产免费一区二区三区网站免费| 日本一区二区三区dvd视频在线| 成人国产精品免费观看动漫| 欧美日韩色一区| 蜜臀久久99精品久久久久久9 | 亚洲国产va精品久久久不卡综合 | 69堂成人精品免费视频| 免费在线看一区| 黑人狂躁日本娇小| 亚洲综合久久久| 新91视频在线观看| 亚洲色图20p| 色噜噜在线观看| 欧美极品美女视频| 白丝校花扒腿让我c| 久久久五月婷婷| 91丝袜美女网| 欧美大片国产精品| av爱爱亚洲一区| 精品日韩一区二区| 97超碰欧美中文字幕| 精品毛片乱码1区2区3区| 成人app网站| 日韩精品一区二区在线| 亚洲最大成人网4388xx| 亚洲欧美va天堂人熟伦 | 亚洲国产精品v| 肉丝美足丝袜一区二区三区四| 日韩免费视频线观看| 成人a级免费电影| 日韩午夜电影av| eeuss国产一区二区三区| 日韩免费高清av| 91丨porny丨中文| www成人在线观看| 91香蕉视频在线| 久久免费电影网| 91人人澡人人爽| 国产精品伦一区| 熟女人妻在线视频| 亚洲免费观看高清| 美女100%露胸无遮挡| 亚洲卡通欧美制服中文| aa片在线观看视频在线播放| 17c精品麻豆一区二区免费| mm131丰满少妇人体欣赏图| 亚洲乱码一区二区三区在线观看| 变态另类ts人妖一区二区| 亚洲成在人线在线播放| 免费高清在线观看电视| 青青草原综合久久大伊人精品优势| 色综合久久天天综合网| 美女精品自拍一二三四| 欧美三级日韩三级国产三级| 国产精品77777| 日韩精品一区二| 动漫美女无遮挡免费| 亚洲三级久久久| 国产午夜精品理论片在线| 男男视频亚洲欧美| 欧美精品日韩综合在线| 爱情岛论坛亚洲自拍| 国产精品久久毛片| 美国美女黄色片| 美女免费视频一区二区| 欧美精品xxxxbbbb| 人妻体体内射精一区二区| 中文字幕永久在线不卡| 国产小视频你懂的| 激情五月婷婷综合网| 日韩欧美三级在线| 波多野结衣影院| 午夜久久久久久电影| 欧美色倩网站大全免费| 94-欧美-setu| 日韩毛片精品高清免费| 黑人巨大精品一区二区在线| 国产高清不卡二三区| 久久久久99精品一区| 亚洲av无码国产精品麻豆天美| 免费看欧美女人艹b| 日韩精品最新网址| 丰满少妇一区二区三区| 日本麻豆一区二区三区视频| 91麻豆精品国产91久久久久久| 国产精品入口麻豆| 天天做天天摸天天爽国产一区 | 少妇被狂c下部羞羞漫画| 亚洲国产中文字幕| 欧美日本国产一区| 国产精品果冻传媒| 日韩精品乱码免费| 精品区一区二区| 国产jk精品白丝av在线观看| 久久av资源站| 久久精品亚洲精品国产欧美| 可以免费看av的网址| 国产91精品一区二区麻豆网站| 国产精品天美传媒| 亚洲色婷婷一区二区三区| 成年人网站91| 亚洲精品水蜜桃| 欧美日韩在线电影| 日本不卡视频一区| 免费av成人在线| 久久精品亚洲麻豆av一区二区| 五月天色婷婷丁香| 99r国产精品| 亚洲五月六月丁香激情| 欧美一区二区不卡视频| 少妇人妻好深好紧精品无码| 国产精品538一区二区在线| 国产精品国产三级国产专播品爱网 | 亚洲成人在线网站| 日韩视频在线一区二区| 亚洲最大成人综合网| 国产成人自拍网| 亚洲乱码国产乱码精品精可以看 | 亚洲图片有声小说| 涩视频在线观看| 天天综合色天天综合| 2021中文字幕一区亚洲| 希岛爱理中文字幕| 久久精品无码专区| 激情成人综合网| 亚洲婷婷综合色高清在线| 欧美日韩二区三区| 国精产品一区二区三区| 成人精品高清在线| 亚洲国产中文字幕在线视频综合 | 91精品啪在线观看国产| 久久电影网电视剧免费观看| 国产精品大尺度| 在线播放视频一区| 五月天免费网站| 无码国产精品久久一区免费| 捆绑紧缚一区二区三区视频| 中文字幕在线观看不卡视频| 91精品国产色综合久久| 国产精品久久久免费看| 不卡的一区二区| 国产一区二区三区四区五区美女| 亚洲欧美日韩中文字幕一区二区三区| 正在播放亚洲一区| 三级av在线免费观看| 国产 欧美在线| 午夜激情一区二区| 欧美国产1区2区| 欧美精品视频www在线观看| 国产中文字幕久久| 粉嫩av懂色av蜜臀av分享| 波多野结衣91| 久久国产三级精品| 一区二区成人在线视频 | 国产一区二区h| 亚洲国产综合色|