Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
Uncategorized
1
Posts
1
Posters
2
Views
-
Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
Taalas ha praticamente inciso i 32 strati di Llama 3.1 in sequenza su un chip: i pesi del modello sono transistor fisici incisi nel silicio.
Dovrebbe essere 10 volte più economico in termini di costi di gestione rispetto ai sistemi di inferenza basati su GPU e 10 volte meno energivoro. Non ci sono DRAM/HBM esterne, ma una piccola quantità di SRAM on-chip. -
undefined informapirata@poliverso.org shared this topic
undefined cybersecurity@poliverso.org shared this topic