Connect with us

TEKNOLOJİ

Çin’den ChatGpt’ye rakip geldi, DeepSeek Chat ile tanışın

Çin yapay zekâ alanında bir diğer güçlü hamlesini DeepSeek AI ile yaptı. Popüler model boyutlarını kullanarak geniş bir kullanıcı kitlesine hizmet etmeyi amaçlıyor.

Yayınlanma tarihi:

ChatGPT bu hafta ilk yaş gününü kutlarken, Çinli startup DeepSeek AI, kendi konuşabilen yapay zekâ teklifi olan DeepSeek Chat ile hâkimiyetini ele geçirmek için harekete geçiyor.

Alfa testinin bir parçası olarak başlatılan asistan, İngilizce ve Çince dillerinde 2 trilyon tokenden oluşan bir veri kümesi üzerinde eğitilmiş 7B ve 67B parametreli DeepSeek LLM’leri kullanıyor. Karşılaştırmalara göre, bu modellerin her ikisi de kodlama ve matematik de dâhil olmak üzere bir dizi değerlendirmede güçlü performans sunuyor ve Meta’nın ünlü Llama 2-70B’siyle eşleşiyor (hatta bazen daha iyi performans gösteriyor) .

Haber, Qwen, 01.AI ve Baidu’nun son sürümlerini takiben başka bir Çinli oyuncunun AI yarışına girdiğini gösteriyor. DeepSeek, hem akademik hem de ticari topluluklarda daha fazla araştırmayı teşvik etmek için modelleri (hem temel hem de talimatlara göre ayarlanmış sürümler) açık kaynaklı hale getirdiğini söyledi.

AGI’nın gizemini merakla çözmek için birkaç ay önce kurulan şirket, belirli koşullar altında ticari kullanıma da izin veriyor.

DeepSeek Chat Hakkında Bilinenler

DeepSeek Chat’e, kullanıcıların çeşitli görevler için oturum açabileceği ve modelle etkileşimde bulunabileceği bir web ara yüzü (ChatGPT gibi) aracılığıyla erişilebilir. Bu arayüz üzerinden yalnızca 67B sürümü mevcuttur.

Şirkete göre her iki model de Llama ile aynı otomatik gerileyen transformatör kod çözücü mimarisini kullanarak oluşturulmuş ancak çıkarım yaklaşımları farklı. Daha küçük model, bir dikkat mekanizmasından paralel olarak birkaç kez geçen çok kafalı dikkati (MHA) kullanırken, daha büyük olan, sonuç üretmek için gruplandırılmış sorgu dikkatinden (GQA) yararlanır.

“7B modelinin eğitimi 2304 toplu iş boyutunu ve 4,2e-4 öğrenme oranını içeriyordu; 67B modeli ise 4608 toplu iş boyutunu ve 3,2e-4 öğrenme oranını içeriyordu. Eğitim sürecimizde çok adımlı bir öğrenme oranı çizelgesi kullanıyoruz. Öğrenme oranı 2000 ısınma adımıyla başlıyor ve ardından 1,6 trilyon token ile maksimumun %31,6’sına ve 1,8 trilyon token ile maksimumun %10’una adım atılıyor” diye yazdı modellerin Github sayfasında.

Teste tabi tutulduğunda DeepSeek LLM 67B Base, akıl yürütme, kodlama, matematik ve Çince anlama gibi alanlarda Llama2 70B Base’den daha iyi performans göstererek üstün genel yetenekler sergiledi. Aslına bakılırsa, Llama’nın biraz daha iyi performans gösterdiği tek ölçüt 5 atışlık bilgi kalite kontrol (79,5’e karşı 78,9) oldu.

Modelin ekstra talimat verileriyle ince ayar yapılan sohbet sürümü de daha önce hiç görülmemiş testlerde olağanüstü iyi performans gösterdi.

Çin’in Yapay Zekâ Yarışı

DeepSeek LLM’lerin (dil modelleri) piyasaya sürülmesi, Çin’in yapay zekâ alanındaki bir başka kayda değer hamlesine işaret ediyor ve ülkenin tekliflerini tüm popüler model boyutlarını kapsayacak şekilde genişleterek geniş bir son kullanıcı yelpazesine hizmet veriyor.

Kaynak: Venturebeat

Son gelişmelerden ilk siz haberdar olmak için bizi takip edin.
Continue Reading
Advertisement
Yorum yapmak için tıkla