Use IA para transformar qualquer eBook em audiolivro com voz realista — e o melhor: totalmente gratuito

Published on: 2025-10-18
Post image
pt ebook2audiobook audiolivros inteligencia-artificial text-to-speech voz-realista ia-gratuita conversao-de-ebooks leitura-em-audio tts open-source

O ebook2audiobook é uma ferramenta de código aberto que transforma livros digitais em audiolivros completos, preservando capítulos, metadados e até o estilo de voz. Desenvolvido para uso local ou remoto, o sistema oferece suporte a mais de 1110 idiomas e pode operar tanto em CPU quanto em GPU, tornando-se acessível e eficiente em diferentes plataformas.

Seu funcionamento baseia-se em avançados modelos de conversão de texto em fala, como XTTSv2, Bark, VITS, Fairseq, YourTTS e Tacotron, com possibilidade de clonagem de voz. O objetivo é gerar áudio de alta qualidade que represente fielmente o conteúdo textual e respeite a organização original do livro digital. É importante destacar que o uso do software é permitido apenas com eBooks legalmente adquiridos e sem restrições de direitos digitais (DRM).

Conceito e Propósito do ebook2audiobook

O propósito principal do ebook2audiobook é automatizar a conversão de textos literários ou técnicos em arquivos de áudio organizados. Essa conversão é realizada por meio de mecanismos inteligentes de síntese de voz, que interpretam e vocalizam o conteúdo do livro. O resultado final é um audiolivro completo, dividido por capítulos e com informações de metadados, como título e autor, incorporadas ao arquivo sonoro.

A ferramenta foi pensada para manter a estrutura narrativa e o ritmo de leitura. Isso é feito por meio de separação automática de capítulos e inserção de pausas personalizadas. Na ausência de uma estrutura padronizada no texto de entrada, é necessário remover manualmente trechos que não devem ser convertidos.

Tecnologias de Conversão de Texto em Áudio

O ebook2audiobook utiliza uma coleção de motores de Text-to-Speech (TTS) que trabalham com modelos neurais. Entre eles estão o Coqui XTTSv2 para voz natural, o Bark para geração com nuances emocionais, e o Tacotron, conhecido por sua dicção precisa. Também há suporte a modelos como VITS, Fairseq e YourTTS, cada um especializado em aspectos diferentes da síntese de voz.

Esses modelos são baseados em redes neurais profundas e funcionam mapeando fonemas e entonações para formar vozes naturais. A clonagem de voz é um recurso opcional e permite que o usuário crie uma voz personalizada a partir de um arquivo de referência. Esse processo exige uma amostra curta de áudio e é ideal para projetos que desejam manter uma identidade vocal específica.

Compatibilidade e Idiomas Suportados

Um dos pontos mais notáveis do ebook2audiobook é sua ampla compatibilidade linguística. O sistema suporta mais de 1110 idiomas e dialetos, incluindo português, inglês, espanhol, francês, chinês, árabe e hindi. Essa abrangência é possível graças ao uso de modelos multilíngues e pré-treinados que reconhecem e reproduzem fonéticas variadas.

A configuração do idioma é feita por códigos ISO (tais como “pt” para português ou “en” para inglês). Quando não especificado, o aplicativo utiliza o idioma padrão definido em seu arquivo de configuração. Essa flexibilidade permite a conversão de bibliotecas inteiras mantendo-se a coerência entre idioma e voz sintetizada.

Requisitos e Desempenho

O ebook2audiobook foi projetado para funcionar em computadores com o mínimo de 4 GB de memória RAM, sendo recomendado 8 GB para melhor desempenho. Ele opera tanto em CPUs comuns quanto em GPUs de fabricantes como NVIDIA, AMD e Intel, tirando proveito da aceleração gráfica quando disponível. Também há suporte ao MPS, compatível com processadores Apple Silicon.

Mesmo em modo CPU, o sistema oferece bons resultados, embora o tempo de conversão seja maior. A utilização de uma GPU permite conversões quase em tempo real, especialmente em idiomas que exigem menor processamento fonético. Essa característica torna o sistema viável tanto para uso doméstico quanto em servidores dedicados.

Interface Gráfica e Execução em Linha de Comando

O programa pode ser executado em dois modos distintos: interface gráfica com Gradio e modo headless (sem interface). A interface gráfica facilita a operação local ou remota, tornando possível arrastar e soltar livros digitais para iniciar a conversão. Já o modo headless é útil para automação, onde são usados parâmetros de terminal para processar vários arquivos sequencialmente.

A interface web é executada normalmente em localhost:7860 após a inicialização do script. No modo sem interface, o comando base inclui argumentos como caminho do eBook, idioma e arquivo de voz de clonagem. A flexibilidade dos parâmetros permite ajustar velocidade de fala, penalização de repetição e temperatura dos modelos, afetando o estilo e fluidez da narração.

# Exemplo de execução em modo headless no Linux
./ebook2audiobook.sh --headless --ebook ./livro.epub --language pt --voice ./voz_ref.wav

Instalação e Execução Local

A instalação pode ser feita clonando o repositório do projeto e executando o script correspondente ao sistema operacional. O uso básico requer que programas como Calibre, FFmpeg e Node.js estejam instalados, pois eles participam da extração e processamento de texto e áudio. Um ambiente Python 3.12 é necessário para rodar o aplicativo principal.

Após a instalação, o programa pode ser iniciado com os comandos de inicialização fornecidos. Na primeira execução, os modelos de voz são baixados automaticamente. O sistema também suporta compartilhamento público opcional, gerando um link acessível remotamente via parâmetro --share.

Uso com Docker e Suporte a GPU

Para simplificar a instalação, o ebook2audiobook possui suporte completo a Docker. Essa opção encapsula todos os componentes em um contêiner isolado, eliminando conflitos de dependências. É possível rodar a aplicação em modo CPU ou GPU, dependendo do hardware e da imagem escolhida durante a execução.

As versões pré-compiladas do Docker podem ser obtidas diretamente e executadas com um único comando. A versão com GPU acelera drasticamente a conversão, tornando ideal para uso profissional. Em casos avançados, o usuário pode construir sua própria imagem Docker e definir a versão CUDA desejada para otimização do desempenho.

# Exemplo de execução com GPU no Docker
docker run --pull always --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook

Formatos de Entrada e Saída

O ebook2audiobook é compatível com uma ampla variedade de formatos de eBook, indo de .epub e .mobi até arquivos .pdf, .txt e .html. Para melhores resultados de detecção de capítulos e estrutura, os formatos .epub e .mobi são os mais recomendados. Textos que não possuem marcações padronizadas podem requerer edição prévia para evitar conteúdos desnecessários no áudio final.

Os audiolivros gerados podem ser exportados em formatos como mp3, m4a, wav e flac, entre outros. Além da conversão, o sistema insere metadados relevantes, possibilitando a correta organização dos arquivos em tocadores e bibliotecas digitais. Isso confere um resultado profissional, comparável a produções comerciais de audiolivros.

Personalização e Modelos Ajustados

Para projetos que exigem personalização vocal, o ebook2audiobook permite o uso de modelos ajustados (fine-tuned) e modelos customizados em arquivo .zip. Esses modelos contêm parâmetros específicos que influenciam o timbre, o ritmo e a expressividade da voz sintetizada. Também é possível realizar treinamentos de novos modelos XTTSv2 com vozes próprias, desde que haja dados limpos e bem calibrados.

Essa flexibilidade torna o sistema adequado para aplicações educacionais, literárias e corporativas. Ele permite manter identidade vocal em produções de áudio diversificadas e multilíngues, com adaptabilidade de gênero, sotaque e emoção.

Responsabilidade e Uso Ético

Os criadores do ebook2audiobook deixam claro que o software deve ser utilizado apenas com materiais de origem legal e sem restrições de Digital Rights Management (DRM). O uso indevido de obras protegidas por direitos autorais é proibido e pode implicar consequências legais. Assim, o foco do projeto é promover acessibilidade, aprendizagem e inclusão digital por meio do áudio.

Ao respeitar essas diretrizes, o sistema torna-se uma ferramenta poderosa para disseminação de conhecimento em múltiplos formatos, permitindo que textos de estudo, literatura e pesquisa sejam transformados em experiências auditivas de alta qualidade.

Repositório

GitHub: https://github.com/DrewThomasson/ebook2audiobook/