No futuro, haverá cada vez mais inovações radicais. Pode não ser fácil de entender agora, porque todo o grupo social precisa ser educado por fatos. Quando essa sociedade permitir que as pessoas que inovam de forma radical tenham sucesso, a mentalidade coletiva mudará. Precisamos apenas de um conjunto de fatos e de um processo. - Liang Wenfeng, fundador da DeepSeek
Nos últimos dias, o DeepSeek explodiu em todo o mundo, mas, como a empresa é muito discreta e não fez nenhum anúncio, o público sabe muito pouco sobre essa empresa de tecnologia com grande potencial, seja em relação ao histórico de fundação, ao escopo dos negócios ou ao layout do produto.
Depois de terminar de classificar todos os materiais, escrevi este artigo
Qual é o histórico dos atuais jogadores de IA, o que eles estão fazendo e quem estão recrutando?
e provavelmente a visão geral histórica mais completa do DeepSeek.
No ano passado, um amigo da Magic Cube Quant veio até mim e perguntou: "Você quer construir um modelo grande na China?" E eu simplesmente passei a tarde tomando café. Como era de se esperar, a vida ainda depende de escolhas.
O O Quant do Magic Cube mencionado aqui é o investidorou empresa controladora, do DeepSeek.
O chamado "quant" é uma instituição de investimento que toma decisões não por força humana, mas por algoritmos. O estabelecimento da Quant Fantasy não é longo, começando em 2015. Em 2021, quando completou seis anos de existência, a escala de gestão de ativos da Quant Fantasy ultrapassou 100 bilhões, e ela foi aclamada como um dos "quatro grandes reis quant" da China.
O fundador da Fantasy Square, Liang Wenfeng, que também é o fundador da DeepSeek, é um líder financeiro "não convencional" nascido na década de 1980: ele não tem experiência de estudo no exterior, não é vencedor de competições olímpicas e se formou no Departamento de Engenharia Eletrônica da Universidade de Zhejiang, com especialização em inteligência artificial. Ele é um especialista em tecnologia nativo que age de maneira discreta, "lendo artigos, escrevendo códigos e participando de discussões em grupo" todos os dias.
Liang Wenfeng não tem os hábitos de um empresário tradicional, mas se assemelha mais a um puro "nerd da tecnologia". Muitos especialistas do setor e pesquisadores do DeepSeek elogiaram muito Liang Wenfeng: "alguém que tem fortes capacidades de engenharia de infraestrutura e de pesquisa de modelos, e que também pode mobilizar recursos", "alguém que pode fazer julgamentos precisos de alto nível, mas que também se destaca nos detalhes em relação aos pesquisadores da linha de frente", e que também tem "uma capacidade de aprendizado assustadora".
Muito antes da fundação da DeepSeek, a Huanfang já havia começado a fazer planos de longo prazo no setor de IA. Em maio de 2023, Liang Wenfeng mencionou em uma entrevista com a Darksurge: "Depois que a OpenAI lançou o GPT3 em 2020, a direção do desenvolvimento da IA ficou muito clara, e o poder de computação se tornará um elemento-chave; mas mesmo em 2021, quando investimos na construção do Firefly 2, a maioria das pessoas ainda não conseguia entendê-lo".
Com base nesse julgamento, a Huanfang começou a criar sua própria infraestrutura de computação. "Desde o primeiro cartão até 100 cartões em 2015, 1.000 cartões em 2019 e, depois, 10.000 cartões, esse processo aconteceu gradualmente. Antes de algumas centenas de cartões, estávamos hospedados em um IDC. Quando a escala se tornou maior, a hospedagem não podia mais atender aos requisitos, então começamos a construir nossa própria sala de computadores."
Mais tarde, o Finance Eleven informou: "Não há mais do que cinco empresas nacionais com mais de 10.000 GPUs e, além de alguns dos principais fabricantes, também incluem uma empresa de fundos quantitativos chamada Magic Cube." Em geral, acredita-se que 10.000 chips Nvidia A100 é o limite da capacidade de computação para treinar modelos grandes.
Em uma entrevista anterior, Liang Wenfeng também mencionou um ponto interessante: Muitas pessoas pensariam que há uma lógica comercial desconhecida por trás disso, mas, na verdade, ela é motivada principalmente pela curiosidade.
DeepSeekO primeiro encontro do
Em uma entrevista com Darksurge em maio de 2023, quando perguntado "Não faz muito tempo, a Huanfang anunciou sua decisão de criar modelos grandes. Por que um fundo quantitativo faria isso?"
A resposta de Liang Wenfeng foi retumbante: "Nossa decisão de criar um modelo grande não tem nada a ver com quantificação ou finanças. Para isso, criamos uma nova empresa chamada DeepSeek. Muitos dos principais membros da equipe da Mianfang estão envolvidos com inteligência artificial. Na época, tentamos vários cenários e, por fim, decidimos pelo setor financeiro, que já é bastante complexo. A inteligência artificial geral pode ser uma das próximas coisas mais difíceis de alcançar, portanto, para nós, é uma questão de como fazer isso, não de por quê.
Não é motivado por interesses comerciais ou pela busca de tendências de mercado, mas simplesmente pelo desejo de explorar a própria tecnologia AGI e por uma busca persistente da "coisa mais importante e difícil". o nome "DeepSeek" foi confirmado oficialmente em maio de 2023. Em 17 de julho de 2023, a "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." foi incorporada.
Em Em 2 de novembro de 2023, o DeepSeek entregou sua primeira resposta: DeepSeek Coder, um grande modelo de código-fonte aberto. Esse modelo inclui vários tamanhos, como 1B, 7B e 33B. O conteúdo de código aberto inclui o modelo Base e o modelo de ajuste de comando.
Naquela época, entre os modelos de código aberto, o CodeLlama da Meta era a referência do setor. No entanto, quando o DeepSeek Coder foi lançado, ele demonstrou uma posição de liderança multifacetada em comparação com o CodeLlama: na geração de código, o HumanEval estava 9,3% à frente, o MBPP estava 10,8% à frente e o DS-1000 estava 5,9% à frente.
Lembre-se de que o DeepSeek Coder é um modelo 7B, enquanto o CodeLlama é um modelo 34B. Além disso, o modelo DeepSeek Coder, após ser ajustado com instruções, superou amplamente o GPT3.5-Turbo.
Além da geração de código ser impressionante, o DeepSeek Coder também mostra seus músculos em matemática e raciocínio.
Três dias depois, em 5 de novembro de 2023, o DeepSeek lançou uma grande quantidade de conteúdo de recrutamento por meio de sua conta pública no WeChat, incluindo cargos como estagiário de modelo grande AGI, especialista em dados, talento em arquitetura de dados, engenheiro sênior de coleta de dados, engenheiro de pesquisa e desenvolvimento de aprendizagem profunda, etc., e começou a expandir ativamente a equipe.
Como disse Liang Wenfeng, Os "requisitos obrigatórios" da DeepSeek para o recrutamento de talentos são "paixão e habilidades básicas sólidas"e enfatizou que "A inovação requer o mínimo possível de intervenção e gerenciamento, para que todos tenham a liberdade de cometer erros e tentar coisas novas. A inovação geralmente vem de dentro, não de arranjos deliberados, e certamente não vem do ensino."
Os modelos são lançados com frequência, e o código aberto é praticado
Depois que o DeepSeek Coder fez sucesso, o DeepSeek voltou sua atenção para o campo de batalha principal: modelos gerais de linguagem.
Em Em 29 de novembro de 2023, o DeepSeek lançou seu primeiro modelo de linguagem grande de uso geral, o DeepSeek LLM 67B. Esse modelo é comparado ao modelo LLaMA2 70B do Meta do mesmo nível e teve um desempenho melhor em quase 20 listas de avaliação pública em chinês e inglês. Em particular, suas habilidades de raciocínio, matemática e programação (por exemplo, HumanEval, MATH, CEval e CMMLU) são excelentes.
O DeepSeek LLM 67B também escolheu o caminho do código aberto e apóia o uso comercial. Para demonstrar ainda mais sua sinceridade e determinação em relação ao código-fonte aberto, o DeepSeek, sem precedentes, abriu simultaneamente o código-fonte de dois modelos de escalas diferentes, o 7B e o 67B, e até mesmo tornou públicos os nove pontos de verificação gerados durante o processo de treinamento do modelo para que os pesquisadores possam fazer download e usar. Esse tipo de operação, que é semelhante a "ensinar tudo", é extremamente raro em toda a comunidade de código aberto.
Para avaliar de forma mais abrangente e objetiva os verdadeiros recursos do DeepSeek LLM 67B, a equipe de pesquisa do DeepSeek também elaborou cuidadosamente uma série de "novas perguntas" para "testes de estresse". Essas perguntas abrangem testes de alto nível e alta discriminação, como perguntas de exames de matemática do ensino médio húngaro, conjuntos de avaliação de comandos do Google e perguntas da competição semanal LeetCode. Os resultados do teste foram animadores. O DeepSeek LLM 67B demonstrou um potencial incrível em termos de sua capacidade de generalização além da amostra, e seu desempenho geral foi até mesmo próximo ao do modelo GPT-4 mais avançado da época.
Em Em 18 de dezembro de 2023, o DeepSeek abriu o código-fonte do modelo Vincent 3D DreamCraft3DO AIGC é uma ferramenta de análise de dados que permite gerar modelos 3D de alta qualidade a partir de uma frase, alcançando o salto de planos 2D para o espaço 3D no AIGC. Por exemplo, se o usuário inserir: "Correndo pela floresta, uma imagem híbrida engraçada da cabeça de um porco e o corpo do Rei Macaco", o DreamCraft3D pode gerar conteúdo de alta qualidade:
Em princípio, o modelo primeiro completa o diagrama de Venn e, em seguida, complementa a estrutura geométrica geral com base no mapa conceitual 2D:
Na avaliação subjetiva que se seguiu, mais de 90% dos usuários disseram que o DreamCraft3D tinha uma vantagem na qualidade da geração em comparação com os métodos de geração anteriores.
Em 7 de janeiro de 2024, o DeepSeek divulgou o relatório técnico do DeepSeek LLM 67B. Esse relatório de mais de 40 páginas contém muitos detalhes do DeepSeek LLM 67B, incluindo leis de escala autoconstruídas, detalhes práticos completos de alinhamento de modelos e um sistema abrangente de avaliação da capacidade de AGI.
Em Em 11 de janeiro de 2024, o DeepSeek abriu o código-fonte do primeiro grande modelo MoE (arquitetura mista de especialistas) na China, o DeepSeekMoE: uma arquitetura totalmente nova que suporta chinês e inglês e é gratuita para uso comercial. A arquitetura MoE foi considerada, na época, como a chave para o avanço do desempenho do OpenAI GPT-4. A arquitetura MoE desenvolvida pelo próprio DeepSeek é líder em várias escalas, como 2B, 16B e 145B, e sua computação também é muito louvável.
Em 25 de janeiro de 2024, o DeepSeek lançou o relatório técnico do DeepSeek Coder. Este relatório fornece uma análise técnica abrangente de seus dados de treinamento, métodos de treinamento e desempenho do modelo. Neste relatório, podemos ver que, pela primeira vez, ele construiu dados de código em nível de depósito e usou a classificação topológica para analisar as dependências entre arquivos, aumentando significativamente a capacidade de entender arquivos cruzados de longa distância. Em termos de métodos de treinamento, o método Fill-In-Middle foi adicionado, o que melhorou muito a capacidade de conclusão de código.
Em 30 de janeiro de 2024, a plataforma aberta DeepSeek foi lançada oficialmente, e o serviço DeepSeek Large Model API começou a ser testado. Registre-se para obter 10 milhões de tokens gratuitamente. A interface é compatível com a interface da API OpenAI, e ambos os modelos duplos de Chat/Coder estão disponíveis. Nessa época, a DeepSeek começou a explorar o caminho de um provedor de serviços de tecnologia, além de pesquisa e desenvolvimento de tecnologia.
Em Em 5 de fevereiro de 2024, o DeepSeek lançou outro modelo de domínio vertical, o DeepSeekMathum modelo de raciocínio matemático. Esse modelo tem apenas 7 bilhões de parâmetros, mas sua capacidade de raciocínio matemático é próxima à do GPT-4. Na lista de referência MATH, ele supera a multidão e supera vários modelos de código aberto com tamanhos de parâmetros entre 30B e 70B. O lançamento do DeepSeekMath demonstra totalmente a força técnica do DeepSeek e o layout voltado para o futuro na pesquisa e desenvolvimento de verticais e seu layout voltado para o futuro na pesquisa e desenvolvimento de modelos.
Em Em 28 de fevereiro de 2024, para aliviar ainda mais as preocupações dos desenvolvedores sobre o uso dos modelos de código aberto do DeepSeek, o DeepSeek lançou um FAQ sobre a política de código abertoque fornece respostas detalhadas a perguntas frequentes, como modelos de licenciamento de código aberto e restrições de uso comercial. O DeepSeek adota o código aberto com uma atitude mais transparente e aberta:
Em Em 11 de março de 2024, o DeepSeek lançou o modelo multimodal de grande porte DeepSeek-VL. Essa é a tentativa inicial do DeepSeek de usar a tecnologia de IA multimodal. O modelo tem 7B e 1,3B de tamanho, e o modelo e os documentos técnicos são de código aberto simultaneamente.
Em Em 20 de março de 2024, a Huanfang AI & DeepSeek foi mais uma vez convidada a participar da conferência NVIDIA GTC 2024, e o fundador Liang Wenfeng fez um discurso técnico intitulado "Harmony in Diversity: Alinhando e desacoplando os valores de grandes modelos de linguagem". Foram discutidas questões como "o conflito entre um grande modelo de valor único e uma sociedade e cultura pluralistas", "a dissociação do alinhamento de valores de grandes modelos" e "os desafios multidimensionais do alinhamento de valores dissociados". Isso demonstrou o cuidado humanístico e a responsabilidade social da DeepSeek para o desenvolvimento de IA, além de sua pesquisa e desenvolvimento tecnológico.
Em março de 2024, API DeepSeek lançou oficialmente os serviços pagos, o que acendeu completamente o prelúdio da guerra de preços no mercado chinês de modelos grandes: 1 yuan por milhão de tokens de entrada e 2 yuan por milhão de tokens de saída.
Em 2024, o DeepSeek ultrapassou com sucesso o recorde de modelos grandes na China, eliminando os obstáculos políticos para a abertura total de seus serviços de API.
Em maio de 2024, foi lançado o DeepSeek-V2, um modelo grande de MoE geral de código aberto, e a guerra de preços começou oficialmente. O DeepSeek-V2 usa MLA (mecanismo de atenção latente de várias cabeças), o que reduz o espaço de memória do modelo para 5%-13% do que o MHA tradicional. Ao mesmo tempo, ele também desenvolveu de forma independente a estrutura esparsa do DeepSeek MoE Sparse, o que reduz bastante a complexidade computacional do modelo. Graças a isso, o modelo mantém um preço de API de "1 yuan/milhão de entradas e 2 yuan/milhão de saídas".
O DeepSeek teve um grande impacto. A esse respeito, o analista líder da SemiAnalysis acredita que o artigo DeepSeek V2 "pode ser um dos melhores deste ano". Da mesma forma, Andrew Carr, ex-funcionário da OpenAI, acredita que o documento está "repleto de uma sabedoria incrível" e aplicou suas configurações de treinamento em seu próprio modelo.
Deve-se observar que esse é um modelo que faz referência ao GPT-4-Turbo, e o preço da API é apenas 1/70 do último
Em junho Em 17 de novembro de 2024, o DeepSeek mais uma vez fez um grande esforço, lançando o modelo de código DeepSeek Coder V2 e afirmando que seus recursos de código superavam o GPT-4-Turbo, o modelo de código fechado mais avançado da época. O DeepSeek Coder V2 continua a estratégia consistente de código aberto do DeepSeek, com todos os modelos, códigos e documentos de código aberto, e duas versões, 236B e 16B, são fornecidas. Os serviços de API do DeepSeek Coder V2 também estão disponíveis on-line, e o preço permanece em "1 yuan/milhão de entradas e 2 yuan/milhão de saídas".
Em 21 de junho de 2024, o DeepSeek Coder suportou a execução de código on-line. No mesmo dia, foi lançado o Claude3.5 Sonnet, com o novo recurso Artifacts, que gera código automaticamente e o executa diretamente no navegador. No mesmo dia, o assistente de código no site DeepSeek também lançou o mesmo recurso: gerar código e executá-lo com um clique.
Vamos analisar os principais eventos desse período:
Avanços contínuos, atraindo atenção global
Em maio de 2024, o DeepSeek ficou famoso da noite para o dia ao lançar o DeepSeek V2, um modelo de código aberto baseado no MoE. Ele igualou o desempenho do GPT-4-Turbo, mas a um preço de apenas 1 yuan/milhão de entrada, que era 1/70 do GPT-4-Turbo. Naquela época, o DeepSeek tornou-se um conhecido "açougueiro de preços" no setor e, em seguida, os principais players, como Zhicheng, ByteDance e Alibaba... e outros grandes players, rapidamente seguiram o exemplo e reduziram seus preços. Foi também nessa época que houve outra rodada de proibição de GPT, e um grande número de aplicativos de IA começou a experimentar modelos domésticos pela primeira vez.
Em julho de 2024, o fundador da DeepSeek, Liang Wenfeng, mais uma vez aceitou uma entrevista com a Dark Surge e respondeu diretamente à guerra de preços: "Muito inesperado. Eu não esperava que o preço deixasse todo mundo tão sensível. Nós apenas fazemos as coisas em nosso próprio ritmo e depois definimos o preço com base no custo. Nosso princípio é não perder dinheiro ou obter lucros exorbitantes. Esse preço também está um pouco acima do custo, com um pouco de lucro."
Pode-se observar que, ao contrário de muitos concorrentes que pagam do próprio bolso para subsidiar, o DeepSeek é lucrativo a esse preço.
Algumas pessoas podem dizer: cortes de preços são como roubar os usuários, e esse é geralmente o caso em guerras de preços na era da Internet
Em resposta, Liang Wenfeng também respondeu: "Roubar os usuários não é nosso principal objetivo. Reduzimos o preço porque, por um lado, o custo diminuiu à medida que exploramos a estrutura do modelo de próxima geração e, por outro lado, achamos que tanto a API quanto a IA devem ser econômicas e acessíveis a todos."
Assim, a história continua com o idealismo de Liang Wenfeng.
Em 4 de julho de 2024, a API DeepSeek ficou on-line. O preço do contexto de 128K permaneceu inalterado. O custo de inferência de um modelo está intimamente relacionado ao tamanho do contexto. Portanto, muitos modelos têm restrições rigorosas quanto a esse tamanho: a versão inicial do GPT-3.5 tem apenas 4k de contexto.
Nesse momento, o DeepSeek aumentou o comprimento do contexto dos 32k anteriores para 128k, mantendo o preço inalterado (1 yuan por milhão de tokens de entrada e 2 yuan por milhão de tokens de saída).
Em Em 10 de julho de 2024, os resultados da primeira Olimpíada de IA (AIMO) do mundo foram anunciados, e o modelo DeepSeekMath tornou-se a escolha comum das principais equipes. Todas as equipes vencedoras do Top 4 escolheram o DeepSeekMath-7B como base para seus modelos de entrada e obtiveram resultados impressionantes na competição.
Em Em 18 de julho de 2024, o DeepSeek-V2 liderou a lista de modelos de código aberto no Chatbot Arena, superando modelos estelares como Llama3-70B, Qwen2-72B, Nemotron-4-340B e Gemma2-27B, e tornando-se uma nova referência para modelos grandes de código aberto.
Em Em julho de 2024, o DeepSeek continuou a recrutar talentos e recrutou os melhores talentos de todo o mundo em vários campos, incluindo algoritmos de IA, Infra de IA, Tutor de IA e produtos de IA, para se preparar para futuras inovações tecnológicas e desenvolvimento de produtos.
Em Em 26 de julho de 2024, a API do DeepSeek deu início a uma importante atualização, com suporte total a uma série de recursos avançados, como substituição, conclusão de FIM (Fill-in-the-Middle), chamada de função e saída JSON. A função FIM é muito interessante: o usuário fornece o início e o fim, e o modelo grande preenche o meio, o que é muito adequado para o processo de programação para preencher o código exato da função. Tomemos como exemplo a escrita da sequência de Fibonacci:
Em Em 2 de agosto de 2024, o DeepSeek introduziu de forma inovadora a tecnologia de cache de disco rígido, reduzindo os preços de API até os tornozelos. Anteriormente, os preços da API eram de apenas ¥1 por milhão de tokens. Agora, no entanto, quando o cache é atingido, a taxa da API cai diretamente para ¥ 0,1.
Esse recurso é muito prático quando há conversas contínuas e tarefas de processamento em lote envolvidas.
Em Em 16 de agosto de 2024, o DeepSeek lançou seu modelo de prova de teorema matemático DeepSeek-Prover-V1.5 como código-fonte aberto, que superou muitos modelos de código-fonte aberto bem conhecidos em testes de comprovação de teoremas matemáticos do ensino médio e superior.
Em Em 6 de setembro de 2024, o DeepSeek lançou o modelo de fusão DeepSeek-V2.5. Anteriormente, o DeepSeek oferecia principalmente dois modelos: o modelo de bate-papo, voltado para habilidades gerais de conversação, e o modelo de código, voltado para habilidades de processamento de código. Desta vez, os dois modelos foram combinados em um só e atualizados para o DeepSeek-V2.5, que se alinha melhor com as preferências humanas e também obteve melhorias significativas em tarefas de escrita, acompanhamento de comandos e outros aspectos.
Em Em 18 de setembro de 2024, o DeepSeek-V2.5 estava mais uma vez na lista mais recente da LMSYS, liderando os modelos domésticos e estabelecendo novas melhores pontuações para modelos nacionais em várias habilidades individuais.
Em Em 20 de novembro de 2024, o DeepSeek lançou o DeepSeek-R1-Lite no site oficial. Esse é um modelo de inferência comparável ao o1-preview e também fornece uma quantidade suficiente de dados sintéticos para o pós-treinamento do V3.
Em Em 10 de dezembro de 2024, a série DeepSeek V2 chegou ao seu final com o lançamento da versão final ajustada do DeepSeek-V2.5-1210. Essa versão aprimora de forma abrangente várias habilidades, incluindo matemática, codificação, escrita e interpretação de papéis por meio do pós-treinamento.
Com a chegada dessa versão, o aplicativo da Web DeepSeek também abriu a função de pesquisa de rede.
Em Em 13 de dezembro de 2024, o DeepSeek fez outro avanço no campo da multimodalidade e lançou o modelo grande multimodal de código aberto DeepSeek-VL2. O DeepSeek-VL2 adota a arquitetura MoE, que melhora significativamente seus recursos visuais. Ele está disponível em três tamanhos: 3B, 16B e 27B, e tem uma vantagem em todas as métricas.
Em Em 26 de dezembro de 2024, o DeepSeek-V3 foi lançado com código aberto: o custo estimado de treinamento foi de apenas US$ 5,5 milhões. O DeepSeek-V3 comparou totalmente o desempenho dos principais modelos de código fechado no exterior e melhorou muito a velocidade de geração.
O preço dos serviços de API foi ajustado, mas, ao mesmo tempo, foi definido um período de teste preferencial de 45 dias para o novo modelo.
Em 15 de janeiro de 2025, o aplicativo oficial do DeepSeek foi lançado oficialmente e totalmente comercializado nos principais mercados de aplicativos iOS/Android.
Em 20 de janeiro de 2025, próximo ao Ano Novo Chinês, o modelo de inferência DeepSeek-R1 foi oficialmente lançado e de código aberto. O DeepSeek-R1 alinhou totalmente seu desempenho com a versão oficial do OpenAI o1 e abriu a função de saída da cadeia de pensamento. Ao mesmo tempo, o DeepSeek também anunciou que a licença de código aberto do modelo seria alterada para a licença do MIT, e o contrato do usuário permitiria explicitamente a "destilação do modelo", adotando ainda mais o código aberto e promovendo o compartilhamento de tecnologia.
Mais tarde, esse modelo se tornou muito popular e deu início a uma nova era
Como resultado, em 27 de janeiro de 2025, o aplicativo DeepSeek ultrapassou com sucesso o ChatGPT e ficou no topo da lista de downloads de aplicativos gratuitos na iOS App Store dos EUA, tornando-se um aplicativo de IA fenomenal.
Em 27 de janeiro de 2025, à 1h00 da véspera de Ano Novo, o DeepSeek Janus-Pro foi lançado como código-fonte aberto. Esse é um modelo multimodal que leva o nome do deus de duas faces Janus, da antiga mitologia romana: ele encara tanto o passado quanto o futuro. Isso também representa as duas habilidades do modelo - compreensão visual e geração de imagens - e seu domínio de várias classificações.
A popularidade explosiva do DeepSeek desencadeou imediatamente uma onda de choque tecnológica global, fazendo até mesmo com que o preço das ações da NVIDIA despencasse 18% e o valor de mercado do mercado global de ações de tecnologia evaporasse em cerca de 1 trilhão de dólares americanos. Wall Street e a mídia de tecnologia exclamaram que a ascensão da DeepSeek está subvertendo o cenário global do setor de IA e representando um desafio sem precedentes para os gigantes da tecnologia americana.
O sucesso do DeepSeek também despertou grande atenção internacional e discussões acaloradas sobre os recursos de inovação tecnológica de IA da China. O presidente dos EUA, Donald Trump, em um raro comentário público, elogiou a ascensão do DeepSeek como "positiva" e disse que era um "alerta" para os Estados Unidos. O CEO da Microsoft, Satya Nadella, e o CEO da OpenAI, Sam Altman, também elogiaram o DeepSeek, chamando sua tecnologia de "muito impressionante".
É claro que também devemos entender que seus elogios são, em parte, um reconhecimento da força do DeepSeek e, em parte, um reflexo de seus próprios motivos. Por exemplo, embora a Anthropic reconheça as conquistas do DeepSeek, ela também está pedindo ao governo dos EUA que reforce os controles de chips na China.
O Anthropic CEO publica um artigo de 10.000 palavras: A ascensão do DeepSeek significa que a Casa Branca deve intensificar os controles
Resumo e perspectivas
Olhando para os últimos dois anos da DeepSeek, ela foi realmente um "milagre chinês": de uma startup desconhecida à "misteriosa potência oriental" que agora está brilhando no cenário global de IA, a DeepSeek escreveu um "impossível" após o outro com sua força e inovação.
O significado mais profundo dessa expedição tecnológica já transcendeu há muito tempo o escopo da concorrência comercial. O DeepSeek anunciou com fatos que No campo estratégico da inteligência artificial, que diz respeito ao futuro, as empresas chinesas são totalmente capazes de alcançar os patamares da tecnologia principal.
O "sinal de alarme" anunciado por Trump e o medo oculto da Anthropic confirmam precisamente a importância dos recursos de IA da China: ela não apenas pode surfar nas ondas, mas também está reformulando a direção da maré
Deepseek produto liberação marcos
- 2 de novembro de 2023: Codificador DeepSeek modelo grande
- 29 de novembro de 2023: DeepSeek LLM 67B Modelo Universal
- 18 de dezembro de 2023: Modelo 3D do DreamCraft3D
- 11 de janeiro de 2024: DeepSeekMoE MoE modelo grande
- 5 de fevereiro de 2024: DeepSeekMath Modelo de raciocínio matemático
- 11 de março de 2024: DeepSeek-VL Modelo multimodal grande
- Maio de 2024: Modelo geral do MoE DeepSeek-V2
- 17 de junho de 2024: Codificador DeepSeek Modelo de código V2
- 6 de setembro de 2024: DeepSeek-V2.5 fusão dos modelos de competência geral e de código
- 13 de dezembro de 2024: Modelo de MoE multimodal DeepSeek-VL2
- 26 de dezembro de 2024: DeepSeek-V3 nova série de modelos grandes de uso geral
- 20 de janeiro de 2025: Modelo de inferência DeepSeek-R1
- 20 de janeiro de 2025: Aplicativo oficial do DeepSeek (iOS e Android)
- 27 de janeiro de 2025: DeepSeek Modelo multimodal Janus-Pro