Günümüzde ortaya çıkan büyük veriden faydalanmak için sağlıklı analizler yapmak hayati önemde. Bu analizleri yapabilmek için ise doğru metotların kullanılması gerekir. Doğru metotlar sayesinde bu devasa veriler en kısa sürede analiz edilerek faydalı sonuçlara ulaşılabilir. Bu nedenle büyük veriyi yönetebilmenin bir yolunun, bu veriyi küçültebilmekten geçtiğini söyleyebiliriz.
Veri setinizin küçük bir alt setini belirgin matematiksel ilişkilerini koruyarak belirleyebilirseniz, tüm set üzerinden oldukça zaman alacak analizlerinizi, bu küçük alt setler üzerinden daha hızlı yapabilirsiniz.
Ancak bu tarz “çekirdek setler” oluşturmak uygulamadan uygulamaya da farklılık gösterir. Ortaya çıkan yeni teknikler sayesinde bilgisayar görüşü, sinyal işleme, tavsiye sistemleri, hava tahmini, finans ve nörolojik bilim gibi alanlarda kullanılan analiz araçları ile tamamen uyumlu çekirdek veriler üretilebiliyor. Devasa bir matristen çekirdek veri setleri elde ederek mümkün olmayan işlemler yapılabiliyor.
Örneğin, bazı araştırmacılar Wikipedia’daki makaleleri ve bu makalelere uygun kelimelerden tablo şeklinde bir matris oluşturdu. Bu tablonun satırlarında 1,4 milyon Wikipedia makalesi, sütunlarında ise 4,4 milyon kelime vardı. Bu analiz için oldukça büyük bir veri seti olduğundan araştırmacılar Wikipedia’da en yaygın 100 başlığı temsil eden kelime kümeleri çıkardı. Bu kümede örneğin “giyim,” “gelin,” “nedime” gibi evlilik ile ilgili kelimeler veya “silah”, “ateş”, “tabanca”, “vurmak” gibi avcılık ile ilgili kelimeler farklı kümelerde bir araya getirildi. Sonuçta birçok değişkenden oluşan veri setinden daha az değişkenlerden oluşan çekirdek bir veri seti oluşturuldu.
Bu çekirdek set oluşturma tekniğinde birleştirme ve azaltma yöntemi de kullanılıyor. Örneğin bir veri seti içerisinde 20 veri noktası alınıyor. Daha sonra bu 20 içerisinden 10 tanesi seçiliyor. Aynı yöntem başka 20 veri noktasından oluşan başka bir sete uygulanıyor. Ortaya iki adet 10’luk set çıkıyor ve bu setler birleştirilerek yeni 20 veri noktasından oluşan yeni bir veri seti elde ediliyor. Ardından bu set tekrar 10’a düşürülüyor.
Bu ve buna benzer çekirdek set oluşturma yöntemleri ile veriler üzerinde analizler yapmak çok daha kısa sürecektir. Böylece milyonlarca değişkenlerden oluşan bir veri setini ayıklayarak çekirdek setler oluşturabilirsiniz. Bu noktada, temel bileşenler analizi gibi yaygın kullanılan tekniklerin kullanımı değişkenlerin sayısını yüze hatta daha düşük seviyelere kadar düşürebilir.