Das neue Serengeti-Projekt soll Hadoop-Installationen in virtualisierten Umgebungen und "Clouds" erleichtern und ihre Performance verbessern.
Die Firma VMware hat ein neues Open-Source-Projekt ins Leben gerufen, das es ermöglichen soll, die Cluster-Software Hadoop einfacher und performanter in virtuellen Umgebungen zu betreiben. Unter dem Namen "Serengeti" stellt es einen "One-Click-Installer" bereit, der Hadoop in einem Netz virtualisierten Knoten installiert. Derzeit ist dabei nur die Virtualisierungslösung vSphere von VMware unterstützt, prinzipiell der Support anderer Systeme nicht ausgeschlossen. Mit Serengeti lassen sich außerdem auf Hadoop basierende Anwendungen wie Hive (Data Warehouse) und Pig (Analyse großer Datenmengen) installieren.
Serengeti ist in Java geschrieben und steht als freie Software unter der Apache-Lizenz. Auf der Serengeti-Homepage steht das Image einer virtuellen vSphere-Appliance zum Download bereit. Künftig will VMware zusammen mit der Hadoop-Community daran arbeiten, dass Hadoop, das bisher auf Cluster physischer Rechner ausgelegt ist, besser mit virtualisierten Umgebungen funktioniert. So sollen beispielsweise das Hadoop Distributed File System (HDFS) und das Map-Reduce-Framework dahingehend optimiert werden.
Als Community Technology Preview veröffentlicht Microsoft einen Connector zwischen SQL Server und dem Hadoop-Cluster.