Skip to content

Commit

Permalink
Proposition de fiche duckdb (#512)
Browse files Browse the repository at this point in the history
* Proposition de fiche duckdb (#508)

* Create Fiche_duckdb.qmd

* Update Fiche_duckdb.qmd

* Fiche duckdb : fin

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Olivier Meslin <[email protected]>

* Apply suggestions from code review

Co-authored-by: Olivier Meslin <[email protected]>

* Update Fiche_duckdb.qmd

* Apply suggestions from code review

Co-authored-by: Pierre Lamarche <[email protected]>

* Restructuration + commentaires de P Lamarche

Aussi : ajout à la liste des contributeurs (suggestion d'Olivier Meslin)

* Nuancer sur le volume de données

* Compléter les conseils

* Précision

* Mettre un nom plus signifiant pour la connexion duckdb

* Les backticks c'est la vie

* L'italique aussi c'est la vie

* Amélioration de la présentation du chargement des données

* Reformulations

* Les majuscules c'est la vie

* Update Fiche_duckdb.qmd

---------

Co-authored-by: Olivier Meslin <[email protected]>
Co-authored-by: Pierre Lamarche <[email protected]>
Co-authored-by: Olivier Meslin <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

Co-authored-by: Romain Avouac <[email protected]>

* Apply suggestions from code review

Co-authored-by: JulienBlasco <[email protected]>

* Évolutions sur la fiche duckdb (#524)

* supprime check_from qui est déprécié

* quelques précisions sur comment ouvrir des fichiers parquet

* une fonction par ligne

* limiter le nb de coeurs

* complements sur les fichiers intermédiaires

* ajoute de quotes manquants

* corrections sur les propositions des optimisations

* ajout d'une section sur les paramètres de configuration

* quelques ajouts sur SQL

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

* Update 03_Fiches_thematiques/Fiche_duckdb.qmd

---------

Co-authored-by: Olivier Meslin <[email protected]>

* quick fix

* Relecture part 1

* Poursuite de la relecture de la fiche duckdb

* Relecture fiche duckdb

* Réécriture

* Fin de la relecture duckdb

* Résoudre un bug d'affichage

* Réécriture recommandation

* Recommandations

---------

Co-authored-by: slithiaote <[email protected]>
Co-authored-by: Olivier Meslin <[email protected]>
Co-authored-by: Pierre Lamarche <[email protected]>
Co-authored-by: Olivier Meslin <[email protected]>
Co-authored-by: Romain Avouac <[email protected]>
Co-authored-by: JulienBlasco <[email protected]>
Co-authored-by: nbc <[email protected]>
  • Loading branch information
8 people authored May 27, 2024
1 parent 8c641ac commit 68b4465
Show file tree
Hide file tree
Showing 6 changed files with 779 additions and 4 deletions.
5 changes: 3 additions & 2 deletions 03_Fiches_thematiques/Fiche_arrow.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -9,9 +9,10 @@ L'utilisateur souhaite manipuler des données structurées sous forme de `data.f

- Pour des tables de données de taille petite et moyenne (inférieure à 1 Go ou moins d'un million d'observations), il est recommandé d'utiliser les *packages* `tibble`, `dplyr` et `tidyr` qui sont présentés dans la fiche [Manipuler des données avec le `tidyverse`](#tidyverse);

- Pour des tables de données de grande taille (plus de 1 Go en CSV, plus de 200 Mo en Parquet, ou plus d'un million d'observations), il est possible d'utiliser soit le *package* `data.table` qui fait l'objet de la fiche [Manipuler des données avec `data.table`](#datatable), soit le *package* `arrow` qui fait l'objet de la présente fiche, avec éventuellement `duckdb` en complément. Dans la mesure où le trio `Parquet` / `Arrow`/ `DuckDB` devient de plus en plus central dans l'écosystème du traitement de la donnée et où ces outils présentent l'avantage d'être interopérables, il est recommandé de préférer ces solutions pour les traitements de données volumineuses.
- Pour des tables de données de grande taille (plus de 1 Go en CSV, plus de 200 Mo en Parquet, ou plus d'un million d'observations), il est recommandé d'utiliser soit les *packages* `arrow` (qui fait l'objet de la présente fiche) et `#duckdb` (voir la fiche [Manipuler des données avec `arrow`](#duckdb)), soit le *package* `data.table` qui fait l'objet de la fiche [Manipuler des données avec `data.table`](#datatable).

- Il est essentiel de travailler avec la dernière version d'`arrow`, de `duckdb` et de `R` car les *packages* `arrow` et `duckdb` sont en cours de développement. Par ailleurs, les recommandations d'`utilitR` peuvent évoluer en fonction du développement de ces _packages_.

- Il est essentiel de travailler avec la dernière version d'`arrow`, de `duckdb` et de `R` car les *packages* `arrow` et `duckdb` sont en cours de développement.

- Si les données traitées sont très volumineuses (plus de 5 Go en CSV, plus de 1 Go en Parquet ou plus de 5 millions d'observations), il est essentiel de manipuler uniquement des objets `Arrow Table`, plutôt que des `tibbles`. Cela implique notamment d'utiliser la fonction `compute()` plutôt que `collect()` dans les traitements intermédiaires.

Expand Down
Loading

0 comments on commit 68b4465

Please sign in to comment.