Big Data
Teilen:
Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst/Data Engineer/Data Scientist tätig sind.
Teilen:
Erwartungsgemäß ist Apache Airflow das populärste Orchestrierungstool, vor allem bei Data Engineers. Interessanterweise sind 9% der verwendeten Orchestrierungstools Custom- oder Eigenentwicklungen.
Kubernetes, YARN und Amazon EMR sind die meistverwendeten Cloud-Lösungen für die Ausführung von Spark. Die Popularität von Kubernetes nimmt seit Jahren zu, während die Nutzung von YARN im Jahresvergleich um 8 Prozentpunkte zurückgegangen ist. Unternehmen neigen dazu, Data-Engineering-Tools in andere Teile der IT-Landschaft zu integrieren, anstatt separate Systeme wie YARN zu verwenden.
Die Mehrheit der Befragten verwendet keine MPP-Tools, aber diejenigen, die dies tun, verwenden vornehmlich BigQuery, Redshift oder Azure SQL Data Warehouse.
Eine deutliche Mehrheit (64%) verwendet nach eigenen Angaben keine Engines für Data-Engineering-Aufgaben. Unter denjenigen, die Engines verwenden, sind BigQuery, Databricks und AWS Athena mit jeweils 10% gleich häufig vertreten. Amazon EMR, Redshift, AWS Glue und Azure Analysis Services folgen dicht dahinter.
Kafka ist die häufigste Wahl für Data-Engineering-bezogenes Messaging und Delivery (58%), gefolgt von RabbitMQ mit 46%. Interessanterweise gaben nur 2% der Befragten an, dass sie keine Messaging- oder Delivery-Tools verwenden.
Die meisten Befragten führen keine Tests in ihrem Engineering-Codebestand durch. Unter den 31%, die dies tun, verwendet der Großteil entweder keine Frameworks oder Great Expectations.
Danke, dass Sie sich die Zeit genommen haben!
Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.
Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.