Em 3 de junho, Kunlun Wanwei anunciou que o modelo esparso de 200 bilhões de código aberto tem um forte desempenho e custos de raciocínio mais baixos.Skywork-MOE, com base no modelo de skywork-13b de código aberto Kunlun Wanwei, o ponto de verificação expande-o. Razão.
Endereço de código aberto
O peso do modelo e o relatório técnico do Skywork-MOE são de código aberto completamente, comercial gratuito, nenhuma aplicação é necessária. bingo chilli
Arquitetura de modelo
Este modelo de céu aberto de código aberto pertence à série de modelos de P&D do Tiantong 3.0 O tamanho de um especialista é 13b e cada um dos quais é ativado 2 especialista.
Habilidade do modelo
Kunlun Wanwei avaliou o Skywork-MOE na lista atual de avaliação dos principais modelos de mainstream. Raciocínio do raciocínio do modelo O custo caiu quase três vezes.Ao mesmo tempo, o tamanho total do parâmetro do Skywork-MOE é 1/3 menor que os parâmetros totais do DeepSeekv2, e o tamanho dos parâmetros menores atinge habilidades semelhantes.
bingo chilli
Para resolver o problema das dificuldades de treinamento do modelo MOE e do mau desempenho da generalização, em comparação com o mixtral-moe, o Skywork-MOE projetou dois algoritmos de otimização de treinamento:
1. Operação de apoio de logits de bloqueio
Kunlun Wanwei adicionou uma operação de normalização na lógica de distribuição de token na camada de bloqueio para distribuir a lógica, tornando o aprendizado de parâmetros da camada de bloqueio mais na moda para os especialistas mais top-2 selecionados para aumentar a confiança do modelo MOE para o Top-2: Top-2:
2. Perda adaptativa de auxílio
Diferente da perda auxiliar do fator fixo tradicional (Superium fixo), Kunlun Wanwei em diferentes estágios do treinamento de MOE permite que o modelo se adapte ao coeficiente superserial de perda AUX apropriado, de modo que a taxa de token de queda é mantida em um intervalo adequado que não pode Alcance apenas o equilíbrio da distribuição de especialistas, mas também faz diferenciação de aprendizado de especialistas, melhorando assim o desempenho geral e a generalização do modelo.No estágio inicial do treinamento de MOE, a taxa de token de queda era muito alta (muita diferença na distribuição do token) porque o aprendizado de parâmetros não estava em vigor. , portanto, é necessária uma perda de Aux mais baixa para reduzir a correção. bingo chilli
Treinamento infra
Como realizar com eficiência o treinamento distribuído em grande escala no modelo MOE é um desafio difícil.A Skywork-MOE propõe dois projetos importantes de otimização paralela, de modo a alcançar o treinamento de 38%da MFU em todo o cluster Kenka. bingo chilli
1.expert dados paralelos
Diferente do design do EP (Paralelo de Especialistas) e ETP (EP Expert Tensor Parallel) EP (Paralelo de Especialistas) na comunidade Megatron-LM. coberto na maior extensão.Comparado com a limitação do número de GPUs e a ineficiência do ETP no cluster Kenka, o EDP pode resolver melhor os pontos de dor paralelos de MOE de treinamento distribuído em grande escala. e fácil de expandir. bingo chilli
2. Água de desvio de corte não uniforme paralelo bingo chilli
Devido à computação de incorporação do primeiro estágio e à computação de perda do último estágio e à existência de buffer de tubulação, a carga de cálculo do estágio e a carga de memória da carga de computação em estágio e carga de memória de vídeo quando são cortadas uniformemente.Kunlun Wanwei propõe a divisão paralela não uniforme e não uniforme e o método de calcular a camada para tornar a carga geral de computação/memória mais equilibrada e cerca de 10%do treinamento final a end ao longo da extremidade -para treinamento.
MOE Know-how
Além disso, o Skywork-MOE também por meio de uma série de experimentos com base em leis de escala para explorar quais restrições afetarão a qualidade do upcling e dos modelos MOE de treinamento de zero.
Uma das regras de experiência que pode ser seguida é: se os falhas do modelo de Treinamento MOE forem mais do que o dobro do modelo denso de treinamento, será melhor escolher entre o treino de arranhões. .
4090 Raciocínio
A Skywork-MOE é o maior modelo MOE de código aberto que atualmente pode razoável no servidor 8x4090.O servidor 8x4090 possui um total de 192 GB de memória de vídeo GPU
Kunlun Wanwei espera que esse modelo de céu-milho de código aberto, relatório técnico e resultados experimentais relacionados possam contribuir com mais experiência em treinamento de MOE e know-how para a comunidade de código aberto. , e contribua com um pouco de poder no caminho para a AGI.
Fale conosco. Envie dúvidas, críticas ou sugestões para a nossa equipe através dos contatos abaixo:
Telefone: 0086-10-8805-0795
Email: portuguese@9099.com