MapReduce

Google分散ファイルシステムであるGoogle File Systemを用いながら、その大容量のデータを処理するために使われる分散処理技術がMapReduceです。

Wikipediaによれば、100テラバイト以上のデータセットを並列処理するためのフレームワークで、関数型言語でよく利用されるmap関数とreduce関数から由来されているようです。

この技術はJeffrey Dean氏らによって開発されたもので、C++で実装されているといいます。

このMapReduceを簡単に利用できるスクリプト言語「Sawzall」も頻繁に利用されているそうです。

MapReduceについて説明されている論文は、こちらのサイトからダウンロードできます。