Cinematic video from references
O Seedance 2.0 Fast Reference to Video é o modelo de geração de vídeo mais avançado da ByteDance, especificamente concebido para criadores que necessitam de vídeos de qualidade cinematográfica com áudio rico e sincronizado — tudo gerado a partir de uma combinação flexível de prompts de texto, imagens de referência, vídeos de referência e até entradas de áudio. Seja você um cineasta a pré-visualizar uma cena, um designer a animar um conceito ou um criador de conteúdo a produzir clips para redes sociais que param o scroll, este modelo oferece controlo ao nível de realizador sobre a sua narrativa visual.
No seu núcleo, o Seedance 2.0 Fast Reference to Video transforma a sua visão criativa em saída de vídeo polida com física do mundo real, movimento natural e geração de áudio nativo. O que o distingue é o seu sistema de referência multimodal: pode fornecer até nove imagens de referência, até três vídeos de referência e até três ficheiros de áudio, depois integrá-los diretamente no seu prompt de texto para guiar a geração. Por exemplo, pode carregar um retrato de personagem, uma foto de ambiente de fundo e um clip de voiceover, depois escrever um prompt que indica ao modelo exatamente como combiná-los — referenciando cada entrada de forma natural na sua descrição. Isto torna-o numa ferramenta extraordinariamente poderosa para dar vida a storyboards, criar animações estilizadas e produzir vídeos de talking heads com lip-sync.
A geração de áudio nativo está ativada por predefinição e produz efeitos sonoros sincronizados, paisagens sonoras ambiente e fala com lip-sync que correspondem à ação visual no ecrã. Isto significa que os seus vídeos gerados chegam prontos a usar — sem necessidade de procurar ou sincronizar áudio manualmente na pós-produção. Se preferir um vídeo silencioso ou planear adicionar a sua própria pista de áudio, pode simplesmente desativar a geração de áudio.
O Seedance 2.0 oferece uma gama versátil de controlos criativos que lhe permitem moldar a saída exatamente às suas necessidades. Pode escolher entre sete opções de rácio de aspeto: 16:9 para conteúdo landscape padrão e widescreen, 9:16 para vídeos verticais e em retrato perfeitos para plataformas sociais como TikTok ou Instagram Reels, 1:1 para formatos quadrados, 4:3 e 3:4 para composições clássicas e altas, 21:9 para formatos cinematográficos ultralargos ideais para sequências ao estilo de filme, ou auto para deixar o modelo decidir inteligentemente com base no seu prompt. A duração do vídeo é igualmente flexível, variando de 4 a 15 segundos, com uma opção auto que permite ao modelo determinar o comprimento ideal com base na narrativa descrita no seu prompt. A resolução pode ser definida para 720p para um equilíbrio entre qualidade e velocidade de geração, ou 480p quando quiser resultados mais rápidos — útil para iterações rápidas e pré-visualização de ideias antes de commitar num render final.
O fluxo de trabalho baseado em referências é onde este modelo brilha verdadeiramente para profissionais criativos. Ao carregar imagens de referência (JPEG, PNG ou WebP, até 30 MB cada), pode guiar o estilo visual do modelo, aparência da personagem ou composição da cena. Vídeos de referência (MP4 ou MOV, com duração combinada entre 2 e 15 segundos) permitem fornecer referências de movimento, indicações de ritmo ou footage existente para construir em cima. Ficheiros de áudio de referência (MP3 ou WAV, até 15 segundos combinados) podem impulsionar animação de lip-sync ou definir o tom sonoro para uma cena — embora entradas de áudio exijam pelo menos uma imagem ou vídeo de referência ao lado. Pode combinar até 12 ficheiros no total através de todos os tipos de entrada, dando-lhe uma latitude criativa tremenda. No seu prompt, simplesmente referencia estas entradas usando tags naturais como @Image1, @Video2 ou @Audio1 para indicar ao modelo como cada referência deve influenciar a saída final.
Este modelo é especialmente adequado para animação de personagens, pré-visualização de efeitos visuais, conceitos de vídeos musicais, demonstrações de produtos, conteúdo para redes sociais e curtas narrativas. As suas forças em conteúdo estilizado, transformação e capacidades de lip-sync tornam-no uma escolha destacada para criadores que trabalham nestes géneros. A simulação de física do mundo real significa que objetos caem, a água flui e as personagens se movem com peso e momento credíveis, conferindo um polimento cinematográfico que eleva o conteúdo gerado para além do vídeo AI típico.
Para reprodutibilidade, pode definir um valor de seed para gerar resultados semelhantes em múltiplas execuções, o que é útil quando itera num conceito e quer saídas consistentes. Note que, mesmo com o mesmo seed, podem ocorrer ligeiras variações entre gerações.
Algumas considerações práticas a ter em mente: os vídeos de referência devem ter resolução aproximadamente entre 480p e 720p para melhores resultados. Ficheiros de imagem individuais podem ter até 30 MB, enquanto o tamanho total de todos os vídeos de referência deve ficar abaixo de 50 MB, e cada ficheiro de áudio não deve exceder 15 MB. O número total de ficheiros através de imagens, vídeos e áudio combinados não deve exceder 12. Trabalhar dentro destas diretrizes garante que o modelo pode processar as suas referências eficazmente e entregar a saída de qualidade mais elevada.
O Seedance 2.0 Fast Reference to Video representa um avanço significativo na geração de vídeo acessível e de alta qualidade. Combina flexibilidade de entrada multimodal, qualidade visual cinematográfica, áudio nativo com lip-sync e controlos criativos intuitivos num único ferramenta criativa poderosa — concebida para criadores que exigem resultados profissionais sem a complexidade dos fluxos de trabalho de produção tradicionais.
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
Descreva a cena do seu vídeo com movimento, ângulos de câmara e ambiente
O modelo cria movimento cinematográfico com física e iluminação natural
Descarregue e partilhe o seu vídeo pronto para produção
Demonstra a simulação de física do mundo real e dinâmicas atmosféricas do modelo — renderizando sistemas meteorológicos credíveis, movimento animal e transformações ambientais dramáticas com linguagem cinematográfica de qualidade Netflix e áudio nativo.
Mostra a precisão do Seedance 2.0 com física de objetos, dinâmicas de líquidos, detalhe macro e transições estilizadas perfeitas — ideal para cinematografia de produtos de luxo com foley sincronizado e áudio atmosférico.
“Cinematic reveal of a sleek black luxury sports car in a dark studio. Camera starts close on the chrome badge, slowly pulling back while orbiting 180 degrees around the vehicle. Dramatic rim lighting gradually intensifies, highlighting the car's sculptural curves and glossy finish. Reflections dance across the body as the camera moves. Dust particles float in volumetric light beams. Final wide shot reveals the full silhouette against a gradient backdrop. 8 seconds, smooth motion, 24fps cinematic quality.”
Mude para a síntese guiada por raciocínio hoje

Smooth, coherent AI video generation
2 créditos

Fast, high-quality text-to-video
2.1 créditos

Character-driven video from references
2 créditos

Film-grade video with audio
0.1 créditos
![Kling Video v3 Text to Video [Pro]](/marketing-assets/_next/image?url=https%3A%2F%2Fv3b.fal.media%2Ffiles%2Fb%2F0a8cfd13%2Ft6TSkWzl6cFAzvO1PCdDu_f38263f637d245929f03881454951540.jpg&w=3840&q=75)
Cinematic video, fluid motion, audio
4 créditos

Fast cinematic video with audio
0.1 créditos

High-quality, fast video generation
2 créditos

Stylish text-to-video generation
0.1 créditos

Cinematic video from references
10 créditos