Lightbits, inovasi dalam efisiensi inferensi AI menurunkan biaya cloud

robot
Pembuatan abstrak sedang berlangsung

Kemajuan industri teknologi sedang dipercepat melalui inovasi di bidang kecerdasan buatan (AI). Lightbits Labs baru-baru ini merilis arsitektur baru yang bertujuan mengatasi masalah bottleneck memori dalam inferensi AI skala besar. Arsitektur ini dikembangkan bekerja sama dengan ScaleFlux dan FarmGPU, menggabungkan penyimpanan memori non-volatile yang cepat, infrastruktur inferensi GPU, serta perangkat lunak Lightbits, membantu sistem AI mengelola cache data yang dihasilkan selama proses inferensi secara lebih efisien.

Dalam konteks operator cloud yang menghadapi tekanan biaya saat menangani tugas inferensi, peluncuran ini diharapkan menjadi kabar baik. Biaya tinggi GPU telah menjadi pengeluaran utama operasional, dan untuk memperbaiki hal ini, Lightbits menargetkan peningkatan efisiensi penggunaan GPU.

Platform baru Lightbits meningkatkan efisiensi inferensi dengan menambah jumlah permintaan yang dapat diproses oleh satu GPU. Hal ini secara langsung mengurangi biaya per proses, yang sangat berarti. Menurut hasil pengujian Lightbits, mereka mampu meningkatkan jumlah permintaan yang diproses hingga tiga kali lipat pada GPU yang sama, sekaligus mengurangi biaya listrik dan infrastruktur sebesar 65%.

Solusi inti dari arsitektur ini adalah “KV cache”. Cache ini menyimpan vektor tengah yang dihasilkan selama proses inferensi, dan menghindari perhitungan yang tidak perlu dengan menggunakan kembali hasil perhitungan sebelumnya. Namun, seiring dengan meningkatnya skala model, kapasitas cache juga meningkat secara drastis. Kebutuhan memori meningkat lebih dari dua kali lipat setiap tahun, dan dalam jangka panjang, masalah ini membutuhkan berbagai upaya untuk diatasi. Untuk itu, Lightbits memperkenalkan metode inovatif yang memprediksi perpindahan data dan menyediakan informasi yang diperlukan ke GPU sebelumnya.

Sistem LightInferra mampu mengelola dan mempercepat perpindahan data antar lapisan memori, memastikan GPU tidak perlu menunggu data. Sistem ini dapat menjaga kelancaran proses inferensi tanpa melebihi kapasitas memori GPU. Operator cloud dapat memanfaatkan desain ini untuk mengoptimalkan penggunaan GPU atau meningkatkan kapasitas pemrosesan secara keseluruhan dalam infrastruktur yang ada. Arsitektur ini sedang bekerja sama dengan NeoCloud dan direncanakan akan mulai digunakan secara produksi mulai Juli.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan