Yüksek lisans tezinin son düzlüğünde en kritik dönemeçlerden biri, verinin artık “ham malzeme” olmaktan çıkıp savunulabilir bir veri setine, yani açık kurallarla üretilmiş, belgelenmiş, temizlenmiş, dönüştürülmüş ve analiz edilebilir bir yapıya kavuşmasıdır. Veri seti hazırlamak, yalnızca dosyaları bir klasöre yığmak ya da değişkenleri adlandırmak değildir; bir bütün olarak bilginin yaşam döngüsünü yönetmektir. Bu yaşam döngüsünde kaynakların izlenebilirliği (provenance), temizliğin ve dönüştürmelerin şeffaflığı, etik ve gizlilik gereklilikleri, kalite güvence denetimleri ve yeniden üretilebilirlik (reproducibility) ilkeleri birlikte yürütülür. İyi hazırlanmış bir veri seti, savunma sırasında tezin en güven veren bölümüne dönüşür; çünkü jüri üyesi, bazen bulgular kadar, bu bulguların hangi veri inşası süreçlerinden geçtiğini, hangi karar noktalarında hangi tercihlerin yapıldığını, hangi muhtemel hataların nasıl engellendiğini görmek ister.

1) Veri Mimarisini Tasarlamak: Son Paket Gözünüzün Önünde Olsun
Veri seti hazırlamaya “son paket”i hayal ederek başlamak, kararların tutarlılığını artırır. Son pakette hangi dosyalar olacak (ham veri, temiz veri, türetilmiş veri, kod/komut dosyaları, dokümantasyon, etik ve izinler), hangi klasör yapısı içinde dağıtılacak, her dosyanın adlandırma kuralı ne olacak? Önce bu mimariyi çizin. “raw/”, “clean/”, “derived/”, “docs/”, “code/”, “logs/”, “metadata/” gibi klasörler, içeriğin işlevsel ayrışmasını sağlar.
Uygulamalı örnek: “project_root/” altında “raw/anket_2025-03.csv”, “clean/anket_clean_v1.csv”, “derived/temalar_v1.csv”, “code/temizleme.R”, “docs/veri_sozlugu.md”, “metadata/degisken_haritasi.yaml”, “logs/temizleme_2025-06-12.log” gibi açık ve tarihli adlandırmalar, savunmada “Bu değişiklik ne zaman yapıldı?” sorusuna saniyeler içinde yanıt verebilmenizi sağlar.
2) Veri Kaynaklarının İzlenebilirliği: Provenance Zincirini Kurmak
Jüri, bulguların sağlamlığı kadar, verinin nereden, nasıl ve hangi koşullarda elde edildiğiyle de ilgilenir. Her veri kaynağı için kısa bir “provenance” notu oluşturun: kaynak adı, erişim tarihi, sürüm numarası (varsa), veri toplama yöntemi, örneklem çerçevesi, izin/etik bilgisi, varsa lisans koşulları.
Örnek olay: Bir kamu veri seti (ör. bölgesel istihdam verisi) “2025-Q1 sürümü” olarak indirildi. Bir ay sonra Q2 sürümü yayınlandı. Siz Q1’e göre analiz yaptınızsa, metadata’da bunu belirtmek ve sayıları Q2 ile karıştırmamak kritik önemdedir.
3) Değişken Tanımlama ve Sözlük: Kodların Arkasındaki Anlam
Veri setinin anlaşılabilirliği, değişken adlarının açıklığına bağlıdır. Kısa, tutarlı, boşluk içermeyen (alt çizgiyle), alanı yansıtan adlar seçin: “ogr_yas”, “cinsiyet_kod”, “matnot_ortalama”, “gelir_kademesi”. Bununla birlikte bir “veri sözlüğü” (data dictionary) şarttır. Her değişkenin tanımı, ölçüm birimi, değer aralığı, kod çözümleri, türetilme notları bu sözlükte yer alır.
Uygulama: “docs/veri_sozlugu.md” içinde “cinsiyet_kod: 1=Kadın, 2=Erkek, 9=Belirtmek istemeyen; Kaynak: Anket Soru 3; Not: 2025-05-10 tarihli revizyonda 3. seçenek 9 ile birleştirildi.” gibi tarihli ve net kayıtlar tutun.
4) Kayıp Veri (Missing) Stratejisi: Türünü Tanı, Kararını Yaz
Kayıp veriler rastgele (MCAR), rastgele ama gözlenen değişkenlere koşullu (MAR) ya da rastgele olmayan (MNAR) olabilir. Tezinizin doğasına göre hangi varsayımı kabul ettiğinizi ve hangi yöntemi uyguladığınızı (tam vaka analizi, tek atama, çoklu atama, model-tabanlı yöntemler) açıkça belirtin.
Uygulamalı örnek: Anketlerde gelir sorusunda %18 kayıp var. Ön analiz, kaybın belirli bir fakülteye yoğunlaştığını gösteriyor (MAR). Karar: Çoklu atama (m=20) ve hassasiyet analizi. Veri sözlüğüne “gelir_kademesi — missing_handling: MICE, m=20, seed=1234; duyarlılık: complete-case ile kıyaslandı, bulgular yön değiştirmedi.” notunu düşersiniz.
5) Aykırı Değer Yönetimi: Uçlar Her Zaman Hata mı?
Aykırı değerler bazen ölçüm hatası, bazen nadir ama gerçek bir durumu temsil eder. Otomatik olarak silmek kolaydır ama hatalıdır. Önce aykırı adaylarını çoklu kriterle işaretleyin (z-puanı eşiği, kutu grafiği çitleri, sağlam (robust) ölçütler). Ardından bağlama dönün: Bu aykırılar yöntemle çelişiyor mu? Fiziksel olarak mümkün mü? Gerekçeli karar verin: dönüştür, winsorize et, ayrı analiz, ya da koru.
Örnek olay: Öğrencilerin haftalık çalışma saatinde “120 saat” bildirimi var. Bu, 7/24 çalışmak demek; ölçüm hatası muhtemel. “120” değerini geri izleme ile anket kaydına bağlayıp düzeltme mümkünse düzeltin; değilse, kararınızı (çıkarma ya da winsorize) veri günlüğüne yazın.
6) Ölçüm Tutarlılığı ve Kod Çözümü: Saha Hatalarını Şeffaflaştırmak
Görüşme ve anketlerde kod çözümleri, saha notlarının yorumlanması ve açık uçlu soruların sınıflandırılması insan hatasına açıktır. Kodlama şemasını (codebook) erken safhada kurun; iki kodlayıcıyla örneklem üzerinden tutarlılık ölçümü yapın (nitelde karşılaştırmalı temalandırma; nicelde Cohen’s kappa vb. ölçütler).
Uygulama: Kod kitabı, her tema için “kapsam tanımı, dahil/dahil değil örnekleri, kenar durumları ve örnek alıntılar” içerir. Kodlayıcılar arasındaki uyum %80’in altına düştüğü temalarda kuralı netleştirip yeniden kodlayın. Veri sözlüğüne “tema_X — kodlayıcı uyumu: %0,82; tarih: 2025-04-18” kaydını işleyin.
7) Dönüştürmelerin İzini Sürmek: Temiz Veri, Yeniden Üretilebilir İş Akışı
Veri temizliği ve dönüştürmeleri, tıklama dizisiyle değil, çalıştırılabilir betiklerle (script) yapılmalıdır. Böylece tüm adımlar tekrar edilebilir olur. “code/01_temaslama.R”, “code/02_temizleme.R”, “code/03_turetilmis_degiskenler.R” gibi sıralı dosyalar; her dosyada üstte kısa bir amaç açıklaması ve parametrelerin künyesi bulunmalıdır.
Örnek olay: Savunmada jüri “Bu türetilmiş ‘katilim_endeksi’ nasıl hesaplandı?” diye soruyor. “code/03_turetilmis_degiskenler.R” dosyasının başındaki yorum satırları ve veri sözlüğündeki formül açıklaması, karar şeffaflığını anında kanıtlar.
8) Türetilmiş Değişkenler: Endeksler, Puanlar ve Güvenirlik
Birden fazla sorudan oluşan ölçek puanları (ör. öz-yeterlik, doyum) için türetilmiş değişkenler üretirken, ters maddelerin işaretlenmesi, puanlama yönü, normalizasyon ve güvenirlik (ör. iç tutarlılık) adımlarını dokümante edin.
Uygulama: “oz_yeterlik_puan” değişkeni için “ters_maddeler: S3, S7; minimum=1, maksimum=5; normalize: 0–100 ölçeğine; cronbach_alpha=0,86; dışlama kriteri: >%20 kayıp yanıt.” gibi ayrıntılı bir künyeyi veri sözlüğüne ekleyin.
9) Versiyonlama ve Günlük (Log) Tutma: Dönüşü Mümkün Kılmak
Veri setinizin ve betiklerinizin sürüm geçmişi, hem hata ayıklamayı hem de tartışmalı kararların geri alınmasını sağlar. Temel kırılımlarda yeni bir “clean_v2”, “derived_v3” üretin; “logs/” içinde her çalıştırmanın tarihi, girdisi, çıktısı ve varsa hata mesajları saklansın.
Örnek olay: Son haftada yapılan bir isim standardizasyonu hatası yüzünden “okul_adı” değişkenindeki birleştirmeler bozuldu. Versiyon geçmişi, iki gün önceki “clean_v5”e dönmeyi sağladı ve panik engellendi.
10) Anonimleştirme ve Gizlilik: Etik Onayı Canlı Tutmak
Tez savunmasında en hassas nokta, kişisel verilerin korunmasıdır. Ad, e-posta, telefon, öğrenci numarası gibi tanımlayıcılar savunma verisinden ayrı tutulmalı, analiz setine asla girmemelidir. Anonimleştirme, yalnızca ad sütununu silmek değildir; nadir kombinasyonların (küçük hücreler) ifşa riskini azaltmak için sınıflandırmaların birleştirilmesi (ör. yaşları 5’lik gruplar), coğrafi çözünürlüğün düşürülmesi, serbest metinlerden isim/simge temizliği gibi adımlar gerekir.
Uygulama: “metadata/kimlik_esleme.enc” dosyasında kimlik–pseudonym eşlemeleri şifreli saklanır. Analiz seti “clean/” altında anonimdir. “docs/etik_notlar.md” içinde “küçük hücre <5” kuralı uygulanmış ve “coğrafi_bolge: il değil, NUTS2” düzeyine düşürülmüştür” açıklaması yer alır.
11) Birim, Ölçek ve Standartlaştırma: Elmalarla Armudun Dansı
Farklı kaynaklardan gelen verilerde birim uyuşmazlıkları (TL/Euro, dakika/saat, mm/cm) ve ölçek karmaşaları sık görülür. Tüm ölçümleri tek bir standarda çevirin ve bu standardı veri sözlüğünde sabitleyin. Analiz öncesinde z-puan, min–maks, robust ölçekleme gibi dönüşümler uygulanacaksa adlarını ve parametrelerini kaydedin.
Örnek olay: İki okulda sınav notları 100’lük ve 20’lik sistemde. Standartlaştırma kararını (ör. 100’lük sisteme dönüştürme) dokümante etmezseniz, bulgular “elma–armut” karşılaştırmasına dönüşür.
12) Entegrasyon ve Birleştirmeler: Anahtarların Hijyeni
Birden fazla dosyayı birleştirirken, anahtar değişkenlerin (id, okul_kodu, bölüm_kodu) benzersizliği ve tutarlılığı denetlenmelidir. Boşluk, büyük–küçük harf, aksan/şapka, lider sıfırlar birleşmede felaket doğurur. Birleştirme öncesi “standartlaştırma” betiğiyle anahtarları normalize edin.
Uygulama: “code/00_on_isleme.R” içinde “id = trim(tolower(gsub(‘[[:punct:]]’, ‘’, id)))” gibi bir normalizasyon kuralı; ardından “n_distinct(id) == nrow(df)” kontrolü. Başarısızsa, log kaydı ve hata.
13) Kalite Güvence Kontrolleri: Dört Katmanlı Denetim
Kalite güvenceyi rastgele bakışlara değil, sistematik kontroller zincirine bağlayın: (i) Yapısal kontrol (sütun sayısı, adlar, türler), (ii) İçerik kontrol (beklenen aralıklar, mantık kontrolleri), (iii) Tutarlılık kontrolü (metin–rakam uyumu, tarihlerin sırası, çapraz değişken uyumları), (iv) Yeniden üretilebilirlik kontrolü (betiğin baştan sona hatasız çalışması).
Örnek olay: “mezuniyet_tarihi” “kayıt_tarihi”nden önce olamaz. Mantık kontrolü bunu tespit eder ve ilgili satırları inceleme kuyruğuna atar.
14) Nitel Veri İçin Transkripsiyon ve Temizleme: Metin de Veridir
Görüşme kayıtlarının transkripsiyonu, gürültü temizliği, konuşmacı etiketleme, zaman damgaları ve anonimleştirme kuralları net olmalıdır. Transkriptlerinizde parantez içi kodlar (örn. [duraklama], [gülüyor]) bir standarda bağlanmalıdır. Metin temizliği sırasında kişisel adlar, kurum adları, konumlar uygun şekilde maskeleme kurallarına göre düzenlenmelidir.
Uygulama: “derived/transkript_clean” klasöründe her dosya “G01_clean.txt” gibi adlandırılır; “docs/transkript_standardi.md” belgesi, maskelerin biçimini ve kullanım örneklerini içerir.
15) Kodlama ve Temalandırma: İzlenebilir Karar Ağaçları
Nitel analizde temaların nasıl doğduğunu, hangi kodların hangi koşullarda birleştirildiğini ve neden bazı kodların atıldığını görünür kılın. Kod–tema haritası, karar ağaçları ve örnek alıntılarla desteklenmeli.
Örnek olay: “Motivasyon” teması başlangıçta “içsel–dışsal” alt kodlarıyla yürüyordu; saha notları “sosyal destek” diye üçüncü bir damar önerdi. Karar: Üçüncü kod eklendi; veri sözlüğüne “revizyon_2025-05-30: motivasyon_sosyal_destek kodu eklendi” girildi.
16) Nicel Veri İçin Varsayım Hazırlığı: Analize Uygunluk
Analitik teknikler (regresyon, ANOVA, lojistik, yapısal eşitlik, zaman serisi) belirli varsayımlar ister. Veri setini teslim etmeden önce varsayım kontrollerine hazırlayacak dönüşümler uygulanmalı; fakat bulguları “parlatmak” adına veriyi zorlamaktan kaçınılmalıdır. Normaliteye duyarsız yöntemler, sağlam (robust) istatistikler ya da dönüşümler (log, Box–Cox) için karar kayıtları tutulmalıdır.
Uygulama: “degisken_x pozitif çarpık; log dönüşümü uygulandı; sonuçlar dönüşümsüz setle duyarlılık analiziyle karşılaştırıldı; yön değişmedi” notu rapor edilir.
17) Belgelenmiş İstisnalar: Kenar Durumları Metne Taşıyın
Her veri setinde kuralın işlemediği kenar durumlar vardır. Bu durumları saklamak yerine, belgelenmiş istisna listesi oluşturun: “okul_kodu 101’de sınıf dağılımı eksik; müdür değişimi nedeniyle veri girişi yapılmamış; bu nedenle okul 101 analize dâhil edilmedi.”
Örnek olay: Savunmada “Neden 101 yok?” sorusunda paniklemek yerine “docs/istisnalar.md” dosyasındaki tarihli ve kanıtlı açıklamayı gösterirsiniz.
18) Yeniden Üretilebilirlik (Reproducibility): Bir Tuşla En Baştan
İdeal veri seti, tek komutla “raw/”dan “clean/”e kadar tüm akışı baştan kurabilmelidir. Bu amaçla betiklerin sırayla çalışmasını yöneten bir ana akış dosyası (ör. “code/run_all.R” veya “makefile”) hazırlayın.
Uygulamalı örnek: “run_all.R” çalıştırıldığında: 00_on_isleme → 01_temaslama → 02_temizleme → 03_turetilmis → 04_kalite_kontrol; sonunda “clean/anket_clean_v6.csv” ve “reports/temizleme_ozet.html” üretilir.
19) Değişiklik Günlüğü (Changelog): Hafızayı Kurumsallaştırmak
Tez süreci boyunca onlarca küçük düzeltme yapılır. “CHANGELOG.md” dosyasında sürüm, tarih, değişiklik listesi, etkilediği analiz bölümleri ve gerekçe yazılmalıdır.
Örnek olay: “v1.6 (2025-06-12): ‘gelir_kademesi’ 8’li sınıflandırmadan 6’lıya indirildi; gerekçe: hücre sayıları <5; etkilediği kısımlar: 4.2.3 ve Ek C.” Bu şeffaflık, savunma ve yayın süreçlerinde eleştirileri yumuşatır.
20) Otomatik Raporlama: Veri Temizliğinin Görsel Özeti
Veri temizliği kadar, temizliğin özetini görsel ve metinsel bir rapora dökmek değerlidir. Otomatik raporlar (ör. “reports/temizleme_ozet.html”) “kaç satır silindi/düzeltildi, kaç aykırı düzeltildi, hangi sütunlarda kaç kayıp vardı, hangi dönüştürmeler uygulandı” gibi istatistikleri sunar.
Uygulama: Bu raporu danışmanla paylaşıp, kritik karar noktalarını birlikte onaylayın. İtiraz gelirse, değişiklik betiklerinde küçük revizyonlarla raporu güncelleyebilirsiniz.
21) Güvenli Depolama ve Erişim: Yetki Matrisini Netleştirmek
Özellikle kişisel verilerde erişim, rol tabanlı olmalı. “raw/kimlikli” klasörüne yalnızca araştırmacı ve danışman erişir; “clean/anonim” klasörü ekip içi paylaşım için kullanılabilir. Bulut üzerinde iki faktörlü doğrulama ve şifreli bağlantılar standart hâle getirilmeli.
Örnek olay: Bir küme dosyayı yanlışlıkla ortak sürücüye atmanız, etik ihlale dönüşebilir. Yetki matrisini belgeleyin ve paylaşım kanallarını ayrı tutun.
22) Etik Dosyalar ve İzinler: Veri Setinin Görünmeyen Temeli
Etik kurul onayı, izin yazıları, katılımcı bilgilendirme ve onam formları, telif/yeniden kullanım izinleri “docs/etik/” altında bulunmalı ve veri setiyle mantıksal bağ kurulmalıdır. Analiz seti bu belgelere referans içerir.
Uygulama: “docs/etik/etik_onay_2025-02-26.pdf” ve “docs/etik/onam_formu_v2.pdf” dosyaları, veri sözlüğünün girişinde “Etik belgeler referansı” olarak anılır.
23) Test–Pilot Aşamalarını Ayırmak: Kalibrasyona İz Bırakmak
Pilot veri ile asıl veri aynı klasörde ve aynı isimlerle tutulduğunda, kalibrasyon kararlarının izi kaybolur. Pilot veriler “pilot/” klasöründe, karar notlarıyla birlikte saklanmalı.
Örnek olay: Pilot görüşmelerde iki soru anlaşılmıyor ve revize ediliyor. Asıl veri setinde bu soruların dağılımı değişmişse, pilot–asıl farkının kökeni karar defterinde görünür.
24) Geriye Doğru Kanıt Yolu: Analizden Veriye, Veriden Kaynağa
Savunmada sık gelen talep, belirli bir bulguyu veride göstermektir. Bunun tersi de istenir: Belirli bir veri satırının kaynağını (anket/görüşme) gösterin. Bu yüzden benzersiz satır anahtarları, zaman damgaları, veri toplama aracının sürümü ve gerekiyorsa taranmış imzalı formlara giden bağlantılar (etiksiz içerik göstermeden) olmalıdır.
Uygulama: “clean/anket_clean_v6.csv” içindeki “resp_id” alanı, “docs/kaynak_yolu.md” dosyasında “resp_id → raw/anket_2025-03.csv satır eşlemesi” açıklamasıyla bağlanır.
25) Teslim Paketi Kompozisyonu: Jüri-Okur Odaklı Son Düzen
Teslimde veri setini şu bileşenlerle sunmak idealdir: (i) “README.md” (paket haritası, kısa kullanım, iletişim), (ii) “docs/veri_sozlugu.md”, (iii) “CHANGELOG.md”, (iv) “code/run_all.[R|py]”, (v) “raw/” erişime kapalıysa bunun yerine “raw_summary/” (alan listesi ve örnek satırlar), (vi) “clean/” ve “derived/” dosyaları, (vii) “reports/temizleme_ozet.html”, (viii) “docs/etik/”.
Örnek olay: Jüri üyesi yalnızca “README”yi açarak paketin mantığını kavrar, detay isteyen yerde sözlük ve rapora geçer; sizden ek açıklama isteme ihtiyacı dramatik biçimde azalır.
26) Yayın ve Paylaşım İçin Hazırlık: Lisans, Atıf ve Arşiv
Tez sonrası veri paylaşımı planınız varsa, lisans (ör. CC BY-NC), atıf biçimi, anonimleştirme düzeyi ve erişim süresi netleştirilmelidir. Kurumsal arşiv ya da alan arşivleri (disiplininize uygun) için “paylaşıma hazır” bir alt paket üretin.
Uygulama: Paylaşılan paket “raw” içermez; “clean/anonim” dosyaları ve “docs/paylasim_notlari.md” ile birlikte yayınlanır; atıf cümlesi hazır verilir.
27) Zaman Planı: Veri Seti Hazırlığı için Son Düzlük Takvimi
Teslimden önceki dört haftayı özel olarak veri hazırlığa ayırın: Hafta 1—klasör ve adlandırma standardizasyonu; Hafta 2—temizleme ve dönüştürme betiklerinin birleştirilmesi; Hafta 3—kalite kontrol ve raporlama; Hafta 4—teslim paketi derleme ve prova çalıştırması.
Örnek olay: Bu ritim, “analiz bitmedi, veri setine bakamadım” mazeretini ortadan kaldırır ve sürprizleri son hafta yerine ikinci haftada yakalamanızı sağlar.
28) Sık Yapılan Hatalar: Vaka Temelli Bir Kara Liste
-
“raw” ile “clean”in karışması; tek dosyada hem ham hem temiz.
-
Değişken adlarının projede farklı biçimlerde kullanılması (“okulID”, “okul_id”, “okul-id”).
-
Kod kitabının olmaması; kodlayıcılar arası dağınıklık.
-
Aykırı değerlerin sorgusuz silinmesi.
-
Anonimleştirmenin yalnızca “ad” sütunu silmek sanılması.
-
Sürüm ismi olmadan kaydetme (“final_son_bu_gercekten.csv”).
Çözüm: Bu makaledeki mimari ve günlük tutma disiplini, kara listedeki her başlığı sistematik olarak kapatır.
29) Danışman ve Ekip İçi İnceleme: İkinci Gözün Gücü
Veri setini “tam” zannettiğiniz noktada, danışman ya da bir ekip arkadaşınıza kullanıcı gibi test ettirin. “README”yi okuyup “run_all”ı çalıştırabilmeli, sözlükten bir değişkeni anlayabilmeli, raporlardan temizleme özetini kavrayabilmeli.
Uygulama: Küçük bir “kabul testleri” listesi yazın: “run_all başarıyla bitti mi, clean dosyasında satır sayısı beklenen mi, sözlükte listelenen tüm değişkenler dosyada var mı?” Eksikler yakalanır.
30) Savunma Stratejisi: Veri Seti Anlatısını Kurgulamak
Savunmada bir “veri seti slaytı” hazırlayın: Mimari şema, ana karar noktaları (kayıp, aykırı, anonimleştirme), kalite kontrol grafikleri (ör. kayıp dağılımı), birleştirme anahtarlarının doğrulanması ve son teslim paketinin haritası. Bu slayt, bulgular kadar ikna edicidir; çünkü “inşa süreçlerinin” bilincinde bir araştırmacı imajı çizer.
Örnek olay: “Neden log dönüşümü?” sorusuna, varsayım hazırlığı slaytındaki çarpıklık ölçütleri ve duyarlılık karşılaştırmalarıyla gerekçeli yanıt verirsiniz.
Sonuç
Veri seti hazırlamak, tezin görünmeyen ama en belirleyici mimarisini kurmaktır. İyi bir veri seti; doğru sonuçlara giden yolu kısaltır, hataları erken yakalar, etik riskleri azaltır, savunmada güven verir ve yayın süreçlerine sorunsuz adapte olur. Bu makalede çerçevesini çizdiğimiz yaklaşım, beş temel değerin etrafında örgütlenir.
Birincisi izlenebilirliktir. Ham kaynaktan analiz setine kadar her adımın izi sürülebilir olduğunda, eleştiri fırsata, şüphe kanıta, belirsizlik açıklığa dönüşür. İkincisi tutarlılıktır. Değişken adlarından değer kodlarına, birimlerden anonimleştirme düzeyine kadar süregelen bir iç mantık, veriyi bir “yığın” olmaktan çıkarıp “sistem”e dönüştürür. Üçüncüsü yeniden üretilebilirliktir. Tıklamalarla değil, betiklerle inşa edilen veri; yarın veya başka bir makinede, yeni bir sürümle aynı sonucu verir. Dördüncüsü etik ve güvenliktir. Kişisel verilerle çalışırken, bilimsel merakın insan onuruyla sınırlandığını unutmadan; anonimleştirme, yetkilendirme ve maskeleme kültürü yerleştirilmelidir. Beşincisi iletişimtir. Readme’ler, sözlükler, raporlar ve değişiklik günlükleri, danışman–araştırmacı ilişkisinde ve jüri karşısında ortak bir dili mümkün kılar.
Bu disiplin yalnızca bugünü değil, yarını da garantiye alır. Teziniz makaleye dönüştüğünde, dergilerin veri paylaşımı ve ek materyal taleplerine saatler içinde yanıt verirsiniz. Veri temelli eleştiriler geldiğinde, log dosyalarınız ve karar günlüklerinizle tartışmayı ilerletirsiniz. İleride aynı temada yeni bir proje kurduğunuzda, mimariniz hazırdır; yeni veriler eski iskelete oturur ve üretkenliğiniz katlanır. Kısacası, veri seti hazırlığına gösterdiğiniz özen, araştırmanızın bilimsel etkisini olduğu kadar, araştırmacı olarak itibarinizi de taşır.
Tez tamamlama aşamasında zaman baskısı yoğun olabilir. Ancak bu makalede sunduğumuz yol, yoğunlukla değil, düzenle baş eder: Mimariyi baştan çizmek, sözlüğü erken kurmak, günlükleri otomatikleştirmek, pilot–asıl ayrımına dikkat etmek, kalite kontrollerini kademelendirmek, anonimleştirmeyi bir prosedür hâline getirmek ve savunma slaytında verinin hikâyesini anlatmak… Bütün bu adımlar, veriye “bir kez daha” bakmayı değil, ona “doğru bir kez” bakmayı sağlar. Teziniz bittiğinde geriye, yalnızca sonuçlar değil; onlara giden yolun temiz, şeffaf ve ikna edici bir kaydı kalır. İşte bu kayıt, akademik hayatınızın en güçlü referanslarından biri olacaktır.