Big Data
Partager :
Les questions de cette section ont été posées aux développeurs impliqués dans l'analyse de données, l'ingénierie de données, le machine learning, ou ayant comme rôle professionnel analyste de données, ingénieur de données ou data scientist. Cette enquête s'adressait spécifiquement aux développeurs. Les résultats peuvent donc ne pas être représentatifs des professionnels du secteur du big data dans leur ensemble.
Les professionnels qui ne sont pas impliqués dans la création de pipelines de données utilisent des bases de données relationnelles traditionnelles pour créer des lacs de données. Spark reste l'outil le plus populaire pour le traitement par lots et le streaming.
Comme on pouvait s'y attendre, Apache Airflow est l'outil d'orchestration le plus populaire, surtout parmi les ingénieurs de données. Il est intéressant de noter que 10 % des outils d'orchestration sont personnalisés ou autoconstruits.
Kubernetes, YARN et Amazon EMR sont les solutions cloud les plus populaires pour l'exécution de Spark.
La grande majorité des personnes interrogées n'utilisent pas d'outils de traitement massivement parallèle (MPP). BigQuery, Redshift et Azure SQL Data Warehouse sont les outils les plus populaires.
Merci du temps que vous nous avez accordé !
Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.
Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.