Challenge de web-scraping pour le stage de chargé d'études sur les salaires à la Banque de France (STG-4389)
Banque de France
Le challenge consiste à construire une base de données sur les salaires dans un pays européen au choix parmi la liste suivante : France, Royaume-Uni, Allemagne, Italie, Espagne, Pays-Bas, Belgique. Pour ce faire, il faudra utiliser des techniques de web-scraping, en R ou en Python (utilisant par exemple Scrapy), sur au moins un site important d'un de ces pays, pour l’ensemble du pays, recensant le maximum d'offres d'emploi à une date donnée (l'extraction pourra s'étaler sur quelques jours ou quelques semaines). Le fichier final, sous format excel, devra contenir les informations suivantes en colonne, sachant que certaines données pourront être manquantes dans certains cas, auquel cas il faudra remplacer l'information par un "." ou "NA" : le lien Internet de l'annonce, la localisation, le salaire, l'emploi proposé, le statut (CDI, CDD ou autre), le descriptif de l'annonce (+ autres variables jugées pertinentes). Il faudra expliquer quels filtres / étapes de "nettoyage" des données d'origine ont été appliqués pour aboutir à la base finale, à partir des données disponibles sur Internet. Pour pouvoir postuler, il faut être étudiant en France (sans pour autant avoir la nationalité française toutefois), en licence ou en master 1. La date de début de stage est flexible, pour une durée de 3 mois environ. La base de données, sous excel, sera accompagnée d'un document word ou pdf expliquant le travail effectué pour construire la base de données (sélection des sites, téléchargement en explicitant les étapes du programme, nettoyage des données erronées, mise en forme, problèmes éventuels rencontrés...), ainsi que du programme utilisé pour effectuer le web-scraping. L'offre de stage à la Banque de France correspondant à ce challenge est disponible sur le lien : https://www.recrutement.banque-france.fr/detail-offre/charge-detudes-sur-les-salaires-h-f-2407895/
Un entretien pour un stage rémunéré de 3 mois, à la Banque de France + statut de co-auteur pour les éventuels travaux publiés
0 €

The winners of this challenge will receive a certificate of participation attesting to their skills.
From 31/10/2023 until 11/12/2023.
Economie C. composed of :
- Caroline Huang
Pamplemousse composed of :
- Jean-Paul Younes
ENSAI composed of :
- Evan MOREAU
MATHIS LESGOURGUES composed of :
- Mathis LESGOURGUES
wassim composed of :
- Wassim kallali