Türkiye Üniversite Bölüm Verileri (2019–2024)

Python Pandas CSV ETL Data Cleaning Normalization

Detaylar ve Dokümantasyon

Kapsamlı Dokümantasyon

Bu proje için detaylı kullanım kılavuzu, API referansı ve geliştirme notları GitHub'da bulunan README dosyasında yer almaktadır.

GitHub README'yi İncele

Proje Hakkında

Türkiye Üniversite Bölüm Verileri (2019–2024)

YÖK Atlas ve ÖSYM’den toplanan verilerin temizlenip standardize edildiği, analize hazır veri seti.

Amaç (Kısaca)

Bu çalışmanın amacı, 2019–2024 arasındaki üniversite bölümü verilerini bir araya getirip temizlemek, isim ve yazım farklılıklarını birleştirmek ve herkesin kolayca kullanabileceği tek, tutarlı bir yapıda sunmaktır. Böylece araştırma yapmak, uygulama geliştirmek ve tablolarla hızlıca inceleme yapmak çok daha kolay hale gelir. 2025 yılı için şimdilik sadece program listeleri bulunmaktadır; puan ve diğer istatistik alanları boş bırakılmıştır. Veri seti şu anda GitHub’da yer alıyor; kapsamı genişlettikten ve açıklamaları/örnekleri zenginleştirdikten sonra Kaggle’da da ayrıntılı bir sayfa olarak paylaşacağım.

Özet İstatistik

128.352 satır / 32.505 program (program_code)
235 üniversite / 733 bölüm adı
Veriler sinavizcisi.com’da kullanılıyor

Dosyalar (Kısa Bakış)

data/processed/: Normalize çekirdek dosyalar (departments_normalized.csv, department_stats.csv vb.)
data/all_in_one_denormalized.csv: Tek dosyada hızlı analiz
data/raw/: Kaynak (temizlenmiş) ham veriler

Lisans

MIT Lisansı. Yalnızca araştırma ve eğitim amaçlı kullanıma yöneliktir.

GitHub Repoya Git

Öne Çıkan Özellikler

Normalize İlişkisel Yapı

Lookup ve köprü tablolarıyla veri tekrarını azaltan ilişkisel dosyalar.

Denormalize Hızlı EDA

Tek dosyada tüm bilgilerin bulunduğu all_in_one_denormalized.csv ile hızlı keşif.

Kontroller

Kontenjan-yerleşen tutarlılığı, cinsiyet dağılımı, puan/sıra eksiklik desenleri raporlandı.

ETL Betikleri

Ham veriden normalize ve denormalize çıktılara giden açık betikler.

Teknik Detaylar

Veri Modeli (Kısa)

Normalize çekirdek: departments_normalized.csv, department_stats.csv
Lookup/köprü: department_names, faculty_names, score_types, universities_normalized, department_tags vb.
Hızlı EDA: data/all_in_one_denormalized.csv

ETL Adımları

remove_2025_from_departments.py → 2025 ayıklama
process_raw_data.py → normalize tablolar
build_all_in_one_denormalized.py → tek tablo

      
      Örnek Kullanım
    
      import pandas as pd

# Denormalize dosya ile hızlı filtre
eda = pd.read_csv('data/all_in_one_denormalized.csv')
q = (
    (eda['year'] == 2024) &
    (eda['city'] == 'İSTANBUL') &
    (eda['university_type'] == 'vakif') &
    (eda['department_name'] == 'Bilgisayar Mühendisliği')
)
print(eda.loc[q, ['university_name','scholarship_type','total_quota','total_enrolled']])