Introducere

Folosind date publice, vom efectua o analiză asupra parcului auto din România.

Sursă date

Au fost preluate de pe http://date.gov.ro/, o inițiativă de publicare a datelor publice, într-un format deschis, fără restricții copyright. O inițiativă demnă de lăudat.

Datele cuprind situația parcului auto din România la data de 31 Decembrie 2013.

Curățenie

Având 202 400 înregistrări și probabil exportate dintr-un sistem de evidență, e de așteptat ca datele să nu fie perfecte.

clustere detectate de google-refine

După cum se poate observa, multe modele identice sunt scrise într-un mod diferit.

Deoarece cantitatea de date este substanțială, prelucrarea manuală ar dura foarte mult.

Recurgem astfel la Google Refine, un soft creat special pentru curățat date.

Nu voi reda aici pașii urmați pentru prelucrare deoarece există documentație suficientă pe pagina proiectului; puteți totuși urmări o mică demonstrație asupra ce se poate face.

Import în PostgreSQL

Pentru realizarea statisticilor mai ușor, vom importa CSV-ul curățat într-o bază de date.

În continuare am folosit PostgreSQL, deoarece mi se pare cel mai accesibil.

Structură tabelă

CREATE TABLE parc_auto (  
  JUDET varchar,  
  CATEGORIE_NATIONALA varchar,  
  CATEGORIA_COMUNITARA varchar,  
  MARCA varchar,  
  DESCRIERE_COMERCIALA varchar,  
  TOTAL integer  
);

Import din CSV

COPY parc_auto FROM '/tmp/parc-auto-2013-clean.csv' DELIMITER ',' CSV HEADER;

Statistici

Top 10 producători

Tabel top 100 producători

Producător Total
DACIA 1587330
VOLKSWAGEN 692874
OPEL 501393
FORD 353927
RENAULT 288016
DAEWOO 230484
SKODA 200052
FIAT 149283
AUDI 145773
MERCEDES BENZ 144843
PEUGEOT 141386
BMW 128307
MERCEDES-BENZ 63661
HYUNDAI 63550
TOYOTA 62565
SEAT 59859
IVECO 54105
CITROEN 53327
CHEVROLET 52220
ARO 43186
NISSAN 40139
VOLVO 39440
ROMAN 38201
SUZUKI 37322
MAN 35340
OLTCIT 32303
MITSUBISHI 31285
HONDA 30976
U.T.B. 27956
SCHMITZ 24829
KIA 24677
DAF 18569
MARSA 18299
PADIS 18027
MAZDA 17806
STEMA 15110
LAND ROVER 13378
REMA 12994
REMO 12677
MEDGIDIA 11994
ALFA ROMEO 11867
LADA 11855
YAMAHA 11460
UNIVERSAL 10970
TRABANT 10450
SCANIA 9714
KRONE 9549
AUTOMECANICA 8569
PONGRATZ 8155
AUTOBUZUL 7335
KOEGEL 6883
KAWASAKI 6506
RENAULT VI 6453
SMART 6372
AB 6342
JEEP 6310
ROVER 6201
LINHAI 5442
FIRST BIKE 5434
PGS 5416
SCHWARZMULLER 5266
SUBARU 5228
LANCIA 4405
HUMBAUR 4338
IVECO MAGIRUS 4260
D REMA 4100
WARTBURG 4096
DAIHATSU 3716
MINI 3529
APRILIA 3427
APICOLA 3376
ROCAR 3367
MOBRA 3233
CHRYSLER 3174
PORSCHE 3132
PIAGGIO 2478
RATMIL 2471
IJ 2443
ISUZU 2443
MAZ 2378
SAAB 2290
IFA 1981
ELTIM 1923
MOSKVICH 1832
TPV 1815
SSANGYONG 1786
QINGQI 1774
JAGUAR 1774
LEXUS 1755
KTM 1740
DAC 1736
ANSSEMS 1726
MINSK 1685
MARIUS 1678
NEPTUN 1660
DODGE 1643
COMPA 1604
HOBBY 1601
UTB 1599
MZ 1593

SQL

select marca, sum(total) as suma from parc_auto group by marca order by suma desc limit 100;

Top 10 modele

Tabel top 100 modele

Producător Model Total
DACIA LOGAN 366435
VOLKSWAGEN GOLF 189527
FORD FOCUS 81140
VOLKSWAGEN PASSAT 79583
SKODA OCTAVIA 75829
VOLKSWAGEN POLO 60728
OPEL ASTRA 56383
AUDI A4 52519
SKODA FABIA 52284
RENAULT SYMBOL 52078
FORD FIESTA 48568
RENAULT MEGANE 37097
OPEL ASTRA-G-CC 33348
FORD TRANSIT 32007
FIAT PUNTO 30485
VOLKSWAGEN TRANSPORTER 29592
OPEL ASTRA-G-CARAVAN 28706
OPEL CORSA 27703
FORD MONDEO 27243
CHEVROLET AVEO 25139
DAEWOO MATIZ 20732
VOLKSWAGEN GOLF VARIANT 20436
IVECO DAILY 19869
DACIA SANDERO 19767
RENAULT LAGUNA 17985
RENAULT CLIO 17968
OPEL ASTRA STATION WAGON 17935
AUDI A6 17218
HYUNDAI ACCENT 17139
FORD ESCORT 16015
SEAT IBIZA 15779
DACIA DUSTER 15394
VOLKSWAGEN JETTA 14730
FIAT DOBLO 14715
FIAT DUCATO 14693
OPEL VECTRA 13225
FORD KA 12846
OPEL VECTRA-B 12727
BMW 316 I 12492
VOLKSWAGEN PASSAT VARIANT 12067
KIA CEE’D 11734
CHEVROLET SPARK 11539
OPEL ZAFIRA 10860
TOYOTA YARIS 10567
SEAT LEON 10016
PEUGEOT BOXER 9888
RENAULT KANGOO 9651
VOLKSWAGEN CADDY 9485
VOLKSWAGEN BORA 9224
SEAT CORDOBA 8684
VOLKSWAGEN TOURAN 8554
FIAT ALBEA 8509
OPEL ASTRA-G 8448
BMW 318 I 8359
RENAULT MASTER 8088
HYUNDAI SANTA FE 8011
OPEL CORSA-C 7844
FORD FUSION 7420
VOLKSWAGEN SHARAN 7174
CITROEN C4 7130
TOYOTA AVENSIS 7103
VOLKSWAGEN TOUAREG 7047
HYUNDAI TUCSON 6937
AUDI A3 6825
CITROEN C3 6807
OPEL CORSA-B 6755
TOYOTA RAV4 6638
VOLKSWAGEN LT 35 6590
RENAULT MEGANE SCENIC 6468
SUZUKI VITARA 6329
MITSUBISHI L200 6254
OPEL AGILA 6200
OPEL VECTRA-B-CARAVAN 6191
OPEL ASTRA CARAVAN 6173
VOLKSWAGEN TIGUAN 5997
VOLKSWAGEN CRAFTER 5933
VOLKSWAGEN VENTO 5833
CITROEN JUMPER 5822
HYUNDAI I 30 5783
PEUGEOT PARTNER 5638
FIAT STILO 5300
SKODA SUPERB 5263
SEAT TOLEDO 5227
FORD FOCUS TURNIER 5195
OPEL ZAFIRA-A 4911
TOYOTA AURIS 4794
RENAULT FLUENCE 4651
TOYOTA COROLLA 4604
RENAULT TWINGO 4491
RENAULT TRAFIC 4452
NISSAN NAVARA 4298
FIAT LINEA 4233
OPEL VECTRA-B-CC 4220
FIAT PANDA 4143
NISSAN MICRA 4137
TOYOTA HILUX 4100
SUZUKI SX4 3962
LAND ROVER FREELANDER 3927
OPEL VIVARO 3803
AUDI Q7 3796

SQL

select marca, descriere_comerciala, sum(total) as suma from parc_auto where descriere_comerciala is not null group by marca, descriere_comerciala order by suma desc limit 100;

Top județe

Județ Total
BUCURESTI 1125591
TIMIS 232058
CLUJ 229508
CONSTANTA 216238
PRAHOVA 216061
ARGES 194843
BRASOV 191239
BIHOR 182841
DOLJ 173363
SUCEAVA 156514
IASI 153197
MURES 151690
ARAD 145043
BACAU 142111
GALATI 139899
SIBIU 130505
MARAMURES 126770
HUNEDOARA 123889
DIMBOVITA 116114
NEAMT 113028
ILFOV 111590
BUZAU 109217
ALBA 105674
SATU MARE 103049
VILCEA 101067
GORJ 95743
HARGHITA 92165
OLT 91762
VRANCEA 83338
CARAS SEVERIN 78657
BRAILA 74502
BISTRITA NASAUD 74155
MEHEDINTI 67111
COVASNA 66012
TELEORMAN 65993
SALAJ 64612
BOTOSANI 64449
VASLUI 63019
IALOMITA 55447
GIURGIU 54823
TULCEA 51769
CALARASI 50429

SQL

select judet, sum(total) as suma from parc_auto group by judet order by suma desc;

Total vehicule în evidență

5 985 085