Türkiye Üniversite Bölüm Verileri (2019–2024)

Python Pandas CSV ETL Data Cleaning Normalization

Detaylar ve Dokümantasyon

Kapsamlı Dokümantasyon

Bu proje için detaylı kullanım kılavuzu, API referansı ve geliştirme notları GitHub'da bulunan README dosyasında yer almaktadır.

GitHub README'yi İncele

Proje Hakkında

Türkiye Üniversite Bölüm Verileri (2019–2024)

YÖK Atlas ve ÖSYM’den toplanan verilerin temizlenip standardize edildiği, analize hazır veri seti.

Amaç (Kısaca)

Bu çalışmanın amacı, 2019–2024 arasındaki üniversite bölümü verilerini bir araya getirip temizlemek, isim ve yazım farklılıklarını birleştirmek ve herkesin kolayca kullanabileceği tek, tutarlı bir yapıda sunmaktır. Böylece araştırma yapmak, uygulama geliştirmek ve tablolarla hızlıca inceleme yapmak çok daha kolay hale gelir. 2025 yılı için şimdilik sadece program listeleri bulunmaktadır; puan ve diğer istatistik alanları boş bırakılmıştır. Veri seti şu anda GitHub’da yer alıyor; kapsamı genişlettikten ve açıklamaları/örnekleri zenginleştirdikten sonra Kaggle’da da ayrıntılı bir sayfa olarak paylaşacağım.

Özet İstatistik

  • 128.352 satır / 32.505 program (program_code)
  • 235 üniversite / 733 bölüm adı
  • Veriler sinavizcisi.com’da kullanılıyor

Dosyalar (Kısa Bakış)

  • data/processed/: Normalize çekirdek dosyalar (departments_normalized.csv, department_stats.csv vb.)
  • data/all_in_one_denormalized.csv: Tek dosyada hızlı analiz
  • data/raw/: Kaynak (temizlenmiş) ham veriler

Lisans

MIT Lisansı. Yalnızca araştırma ve eğitim amaçlı kullanıma yöneliktir.

Öne Çıkan Özellikler

Normalize İlişkisel Yapı

Lookup ve köprü tablolarıyla veri tekrarını azaltan ilişkisel dosyalar.

Denormalize Hızlı EDA

Tek dosyada tüm bilgilerin bulunduğu all_in_one_denormalized.csv ile hızlı keşif.

Kontroller

Kontenjan-yerleşen tutarlılığı, cinsiyet dağılımı, puan/sıra eksiklik desenleri raporlandı.

ETL Betikleri

Ham veriden normalize ve denormalize çıktılara giden açık betikler.

Teknik Detaylar

Veri Modeli (Kısa)

  • Normalize çekirdek: departments_normalized.csv, department_stats.csv
  • Lookup/köprü: department_names, faculty_names, score_types, universities_normalized, department_tags vb.
  • Hızlı EDA: data/all_in_one_denormalized.csv

ETL Adımları

  • remove_2025_from_departments.py → 2025 ayıklama
  • process_raw_data.py → normalize tablolar
  • build_all_in_one_denormalized.py → tek tablo

Örnek Kullanım

import pandas as pd

# Denormalize dosya ile hızlı filtre
eda = pd.read_csv('data/all_in_one_denormalized.csv')
q = (
    (eda['year'] == 2024) &
    (eda['city'] == 'İSTANBUL') &
    (eda['university_type'] == 'vakif') &
    (eda['department_name'] == 'Bilgisayar Mühendisliği')
)
print(eda.loc[q, ['university_name','scholarship_type','total_quota','total_enrolled']])

Proje Bilgileri

Kategori

Dataset / Veri Seti

Geliştirme Tarihi

2025-09

Ek Bilgiler

  • License: MIT

İş Birliği Yapalım

Bu proje ilginizi çekti mi? Benzer bir proje geliştirmek istiyorsanız iletişime geçelim.

İletişim Kur

Diğer Projeler

Geliştirdiğim diğer projelere de göz atın

Sınavİzcisi

YKS verilerini analiz eden ve yapay zekâ destekli tercih tahmini yapan web platformu. Django + PostgreSQL + Transformers kullanıldı.

Django PostgreSQL Transformers

YokAPI

YÖK Atlas verilerini normalize eden ve tek API'de sunan veri katmanı. Asenkron yapıya sahip toplu hızlı veri çekme işlemleri için …

Python Requests Aiohttp

EBA Puan Botu

EBA'da puan kasmayı sağlayan masaüstü arayüze sahip bir bot.

Python Selenium PyQt5