LucyHQ tarafından geliştirildi

LLuMi

Çok dilli zekayı yeniden tanımlıyor. LLuMi, güçlü instruction tuning'i DeepSeek-R1'den ilham alan muhakeme kalıplarıyla birleştiren ve gerçek dünyada eşsiz performans sağlayan son teknoloji 70B modelidir.

Yayın Tarihi: 24 Şubat 2025
research@vorden.ai
LLuMi v2 şu anda eğitiliyor ve çok yakında yayınlanacak.

1. Giriş

Sağlam Llama 3.3 70B mimarisi üzerine inşa edilmiş son teknoloji çok dilli büyük dil modeli (LLM) LLuMi'yi sunuyoruz. LLuMi, gerçek dünya uygulamalarında — özellikle çok dilli diyalog ve karmaşık muhakeme görevlerinde — üstün performans göstermek için instruction tuning ile eğitildi.

DeepSeek-R1 çerçevesinden ilham alan gelişmiş iyileştirme ve damıtma tekniklerinden yararlanan LLuMi; Llama 3.3 temelinin çekirdek güçlerini korumakla kalmayıp aynı zamanda daha yüksek performans ve verimlilik sunar. Büyük ölçekli pekiştirmeli öğrenmeyi doğrudan temel modele entegre eden LLuMi; sofistike düşünce zinciri davranışları ile gelişmiş öz doğrulama sergiler ve tekrar ile dil karışımı gibi sorunları azaltır.

Damıtma

Büyük modellerin gelişmiş muhakeme kalıplarının, daha küçük ve daha verimli modellere damıtılabileceğini gösteriyoruz. Bu yaklaşım, yalnızca küçük modellerde pekiştirmeli öğrenme ile elde edilen muhakeme stratejilerine kıyasla gelişmiş performans sağlar. Açık kaynaklı DeepSeek-R1 çerçevesi — ve API'si — bunu mümkün kılmada kritik bir rol oynar.

Eğitim Sonrası

Ön adım olarak denetimli ince ayara (SFT) ihtiyaç duymadan, pekiştirmeli öğrenmeyi (RL) doğrudan temel LLuMi modeline uyguluyoruz. Bu yaklaşım, LLuMi'nin karmaşık problemleri çözmek için gelişmiş düşünce zinciri (CoT) yeteneklerini keşfetmesini sağlar.

2. Model Damıtma ve Mimari

LLuMi 70B modeli, DeepSeek-R1 Distill Llama 3.3 70B'nin gelişmiş teknikleri kullanılarak titizlikle geliştirildi. Ayrıca, daha küçük LLuMi 8B ve 3B modellerimize GRPO (Guided Reasoning Policy Optimization) kullanarak benzersiz bir düşünme özelliği kattık.

İki RL Aşaması

Gelişmiş muhakeme kalıplarını keşfetmek ve modeli insan tercihleriyle hizalamak için tasarlandı.

İki SFT Aşaması

Modelin hem muhakeme hem de muhakeme dışı yeteneklerinin temel tohumu olarak hizmet eder.

3. Model İndirmeleri

LLuMi Think Modelleri

ModelTemel Modelİndir
LLuMi Think 3BQwen2.5-3B-Instruct🤗 HuggingFace
LLuMi Think 8BLlama-3.1-8B-Instruct🤗 HuggingFace
LLuMi Think 70BLlama-3.3-70B-Instruct🤗 HuggingFace

4. Nasıl Kullanılır

Bu depo; transformers ve bitsandbytes kod tabanıyla kullanılmak üzere LLuMi Think LLM Modellerinin üç sürümünü içerir.

transformers ile kullanım

transformers >= 4.48.3 sürümünden itibaren, Transformers pipeline soyutlamasını veya Auto sınıflarını generate() fonksiyonuyla kullanarak konuşma tabanlı çıkarım yapabilirsiniz.

import transformers
import torch

model_id = "thellumi/LLuMi_Think_70B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Why are tomatoes red?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

bitsandbytes kullanımı

Model kontrol noktaları, bitsandbytes ve transformers kullanılarak ek bellek optimizasyonu için 8-bit ve 4-bit'te kullanılabilir.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "thellumi/LLuMi_Think_70B"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

quantized_model = AutoModelForCausalLM.from_pretrained(
  model_id, device_map="auto", torch_dtype=torch.bfloat16,
  quantization_config=quantization_config)

tokenizer = AutoTokenizer.from_pretrained(model_id)
input_text = "Why are tomatoes red?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

output = quantized_model.generate(**input_ids, max_new_tokens=10)

print(tokenizer.decode(output[0], skip_special_tokens=True))

4-bit'te yüklemek için yalnızca load_in_4bit=True parametresini iletmeniz yeterlidir.

5. Kullanım Önerileri

DeepSeek-R1 serisi modelleri kullanırken (benchmark dahil) beklenen performansı elde etmek için aşağıdaki yapılandırmalara uymanızı öneriyoruz:

  1. Sonsuz tekrar veya tutarsız çıktıları önlemek için sıcaklığı 0.5-0.7 aralığında (0.6 önerilir) ayarlayın.
  2. Sistem istemi eklemekten kaçının; tüm talimatlar kullanıcı istemi içinde yer almalıdır.
  3. Matematiksel problemler için prompt'unuza şöyle bir yönerge eklemeniz önerilir: "Lütfen adım adım düşün ve nihai cevabı \boxed{} içine yaz".
  4. Model performansını değerlendirirken birden fazla test yapmanız ve sonuçların ortalamasını almanız önerilir.

Ayrıca DeepSeek, DeepSeek-R1 serisi modellerin belirli sorgulara yanıt verirken düşünme kalıbını atlamaya (yani yalnızca "<think>\n\n</think>" çıktısı üretmeye) eğilimli olduğunu gözlemledi; bu durum modelin performansını olumsuz etkileyebilir.Modelin kapsamlı muhakeme yapmasını sağlamak için, her çıktının başında yanıtını "<think>\n" ile başlatmasını zorunlu tutmanızı öneririz.

6. Eğitim Verisi

Genel Bakış

LLuMi, herkese açık veri kümelerinden alınan yaklaşık 15 trilyon token üzerinde önceden eğitilmiş güçlü Llama 3.3 mimarisine dayanır. İnce ayar için LLuMi; herkese açık instruction veri kümelerinin ve Hugging Face'ten elde edilen 10 milyondan fazla örneğin bir bileşiminden yararlanır. Bu kapsamlı eğitim derlemi, Türkçe ve diğer dillere özel destek sağlayarak çeşitli dillerde yüksek performans elde edecek şekilde özenle hazırlanmıştır.

Veri Tazeliği

Ön eğitim verisi, LLuMi'nin son dil trendleri ve gelişmeleriyle uyumlu olmasını sağlayacak şekilde Ağustos 2024 kesim tarihine kadar olan içerikleri içerir.

7. Karşılaştırmalar

ModelAIME 2024 (pass@1)MATH-500 (pass@1)GPQA DiamondLiveCodeBenchCodeForces
Claude-3.5-Sonnet-102216.078.365.038.9717
OpenAI o1-121779.296.475.763.42061
OpenAI o1-mini63.690.060.053.81820
OpenAI GPT-4o-05139.374.649.932.9759
QwQ-32B-Preview44.090.654.541.91316
DeepSeek R179.897.371.565.92209
LLuMi Think 70B69.394.164.856.91603

Benchmark Sonuçları Hakkında Not: Donanım kısıtlamaları nedeniyle tam ölçekli benchmark testleri gerçekleştirilememiş olup sonuçlar değişebilir. Bu kısıtlamalar konusunda tam şeffafız ve yakın gelecekte kapsamlı değerlendirmeler yapmak için gerekli kaynakları sağlamaya çalışıyoruz.

8. Sorumluluk ve Güvenlik

LLuMi olarak, teknolojimizin sorumlu ve etik kullanımını teşvik etmeye kararlıyız. Büyük dil modellerinin doğasında bulunan riskleri ve kötüye kullanım potansiyelini biliyor ve bu zorlukları azaltmak için çeşitli önlemler alıyoruz:

  • Önyargı Azaltma:Model çıktılarındaki önyargıyı en aza indirmek için eğitim sırasında çeşitli stratejiler uyguladık. Ancak kullanıcılar, bu çabalara rağmen zaman zaman önyargı veya istenmeyen çıktılarla karşılaşabileceklerinin farkında olmalıdır.
  • Kullanım Yönergeleri:LLuMi araştırma ve sorumlu konuşlandırma için tasarlanmıştır. Kullanıcıları; modeli kullanırken etik yönergelere, ilgili yasalara ve en iyi uygulamalara uymaya şiddetle teşvik ederiz. Zararlı, yanıltıcı veya saldırgan içerik üretmek kesinlikle yasaktır.
  • Güvenlik Önlemleri:LLuMi'yi gerçek dünya uygulamalarında kullanan kullanıcılar, ek güvenlik filtreleri ve izleme mekanizmaları uygulamalıdır. Modelin çıktılarının kabul edilebilir etik sınırlar içinde kalmasını sağlamak için düzenli denetimler ve değerlendirmeler yapmanızı öneririz.
  • Topluluk Katılımı:Topluluğu, kullanım sırasında karşılaşılan herhangi bir güvenlik veya etik konu hakkında geri bildirim sağlamaya davet ediyoruz. Bu işbirlikçi yaklaşım, modeli sürekli iyileştirmek ve potansiyel riskleri ele almak için hayati önem taşır.
  • Şeffaflık ve Hesap Verebilirlik:LLuMi'yi açık kaynak yaparak şeffaflık ve hesap verebilirliği teşvik etmeyi amaçlıyoruz. Modelin güvenlik ve etik performansını iyileştirmeye odaklanan süregelen araştırma ve güncellemelere bağlıyız.

LLuMi'yi kullanarak bu yönergelere uymayı ve daha güvenli, daha sorumlu bir AI ekosistemine katkıda bulunmayı kabul ediyorsunuz.