Yapay zeka derin hudut ağları (DNN) eğitimi kelam konusu olduğunda, grafik sürece ünitelerinin (GPU) birçok işlemciden (CPU) kıymetli ölçüde daha güzel olduğu biliniyor. Bunda daha fazla yürütme ünitesine yahut çekirdeğe sahip olmaları değerli bir etken. Rice Üniversitesi bilgisayar bilimcileri ise sundukları yeni bir algoritma ile işlemcileri yapay zeka işlerinde birtakım öncü GPU’lardan 15 kat daha süratli hale getirdiklerini sav etti.
En karmaşık hesaplama zorlukları ekseriyetle daha fazla donanım yahut misyonu çözebilecek özel maksatlı donanım icatları ile çözülüyor. DNN eğitimi de günümüzde en ağır bilgi süreç gerektiren iş yükleri ortasında yer alıyor. Bundan ötürü programcılar, azamî eğitim performansı istiyorlarsa, bu iş yükleri için GPU’ları kullanıyor. Birden fazla algoritma matris çarpımlarına dayandığından, hesaplama GPU’larını kullanarak yüksek performans elde etmek daha kolay.
Rice Üniversitesi Brown Mühendislik Okulu’nda bilgisayar bilimi profesörü olan Yardımcı Doçent Anshumali Shrivastava ve meslektaşları ise çağdaş AVX512 ve AVX512_BF16 faal işlemcilerde DNN eğitimini büyük ölçüde hızlandırabilecek bir algoritma sunmuş durumda. Bilim insanları bunun için SLIDE (Sub-LInear Deep Learning Engine) isimli akıllı hash rasgele algoritmalarını işlemci üzerinde mütevazı çok çekirdekli paralellik ile birleştiren ve Intel AVX512 ile AVX512-bfloat16 destekleyen işlemciler için ağır bir halde optimize eden C ++ OpenMP tabanlı bir motoru kullanıyor.
Motor, her güncelleme sırasında uyarlamalı olarak nöronları tanımlamak için LSH /Cocality Sensitive Hashhing) kullanıyor ve bu hesaplama performansı ihtiyaçlarını optimize ediyor. Araştırmaya nazaran değişiklik yapılmasa dahi, duvar saati mühleti açısından 200 milyon parametreli bir hudut ağını eğitmenin bir NVIDIA V100 GPU’da optimize edilmiş TensorFlow uygulamasından daha süratli olabileceği tabir ediliyor.
Hashing’i daha süratli hale getirmek için, bilim insanları algoritmayı vektörleştirip nicelleştiriyor. Böylelikle Hashing, AVX512 ve AVX512_BF16 motorları tarafından daha düzgün işlenebiliyor. Ek olarak, birtakım bellek optimizasyonları da uygulanmış. Grup, matris çarpımlarına takılıp kalınmaması durumunda çağdaş işlemcilerin gücünden yararlanılabileceğini ve yapay zeka modellerini en güzel özel donanımlardan 4 ila 15 kat daha süratli eğitebileceklerini gösterdiklerinin altını çizmiş.
Amazon-670K, WikiLSHTC-325K ve Text8 bilgi kümeleriyle elde ettikleri sonuçlar, optimize edilmiş SLIDE motoruyla sahiden epeyce umut verici gözüküyor. Intel Cooper Lake (CPX) işlemcisi, NVIDIA Tesla V100’ü Amazon-670K ile yaklaşık 7.8 kat, WikiLSHTC-325K ile yaklaşık 5.2 kat ve Text8 ile yaklaşık 15.5 kat geride bırakabiliyor. Hatta optimize edilmiş bir Cascade Lake (CLX) işlemci bile NVIDIA Tesla V100’ünden 2.55–11.6 kat daha süratli olabiliyor.
IBM’in yapay zeka sistemiyle antibiyotik üretilmesini sağladığını da hatırlatalım.