Online istatistik portalı Statista, yapay zeka dil modellerinin hangi kaynakları ne sıklıkta kullandığını araştırdı. Statista’nın Haziran ayında gerçekleştirdiği araştırmanın sonuçlarına göre, yılın ilk çeyreğinde büyük dil modelleri tarafından en çok alıntılanan web sitesi açık ara farkla reddit.com oldu.
Araştırma verilerine göre, büyük dil modellerinin sorgulama cevaplarında kullandığı kaynaklar arasında Reddit, yüzde 40,11 gibi yüksek bir oranla ilk sırada yer aldı.
Uzmanlar, yapay zekanın gerçek kişilerin belli konular üzerine yaptığı tartışmaların yer aldığı Reddit’ten alıntı yapmasını, dil modellerini geliştirenlerin resmî ve düzenlenmiş bilgilerden ziyade, gerçek kişilerin doğal konuşmalarını daha çok önceliklendirdiğini gösterdiğini belirtiyor.
Büyük dil modelleri, Reddit’ten sonra en çok alıntıyı ise yüzde 26,3 oranıyla “internet ansiklopedisi” olarak tanımlanan Wikipedia’dan alıyor. Araştırma, düzenlenmiş makaleleri kullanan Wikipedia’nın, herhangi bir düzenleme süzgecinden geçmeyen Reddit verilerinin bir hayli gerisinde kaldığını ortaya koyuyor.
Hangi büyük dil modelinin hangi kaynağı ne kadar sıklıkla gösterdiğini belirten listeye göre, ilk sıralarda yer alan diğer kaynaklar ve alıntı oranları şu şekilde sıralanıyor:
Yapay zeka modellerinin eğitilmesi konusunda sosyal medya devleri ile yapay zeka üreticileri arasında yapılan anlaşmalar da bu durumu pekiştiriyor.



