Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
-
Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
Taalas ha praticamente inciso i 32 strati di Llama 3.1 in sequenza su un chip: i pesi del modello sono transistor fisici incisi nel silicio.
Dovrebbe essere 10 volte più economico in termini di costi di gestione rispetto ai sistemi di inferenza basati su GPU e 10 volte meno energivoro. Non ci sono DRAM/HBM esterne, ma una piccola quantità di SRAM on-chip. -
undefined informapirata@poliverso.org shared this topic
undefined cybersecurity@poliverso.org shared this topic
-
Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
Taalas ha praticamente inciso i 32 strati di Llama 3.1 in sequenza su un chip: i pesi del modello sono transistor fisici incisi nel silicio.
Dovrebbe essere 10 volte più economico in termini di costi di gestione rispetto ai sistemi di inferenza basati su GPU e 10 volte meno energivoro. Non ci sono DRAM/HBM esterne, ma una piccola quantità di SRAM on-chip.Sembrano buoni per l'automotive e le telecamere del futuro distopico
-
Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo
Taalas ha praticamente inciso i 32 strati di Llama 3.1 in sequenza su un chip: i pesi del modello sono transistor fisici incisi nel silicio.
Dovrebbe essere 10 volte più economico in termini di costi di gestione rispetto ai sistemi di inferenza basati su GPU e 10 volte meno energivoro. Non ci sono DRAM/HBM esterne, ma una piccola quantità di SRAM on-chip.@informapirata @aitech
Se il prodotto si rivelerà reale, popcorn e patatine guardando cosa succede alle megacentrali elettriche, agli immensi datacenter e soprattutto alle prenotazioni dei wafer di silicio fatte dai soliti giganti.Attendere prego...
-
undefined informapirata@mastodon.uno shared this topic