加载中...
Gemma 4 26B-A4B现在大约快两倍,在375K上下文下使用TurboQuant在MLX-VLM v0.4.4上。 该模型的官方最大上下文为262K,但我将其提升至375K。
这相当于大约5-6本完整小说(整个《魔戒》三部曲和《霍比特人》)。 在最多约20K标记时,它们几乎拉锯,但