Dois anos
de acesso à Alura

30% OFF

Falta pouco!

00

DIAS

00

HORAS

00

MIN

00

SEG

Logo do curso
Curso

Word2Vec:

interpretação da linguagem humana com Word embedding

Quero estudar na alura

10h

Para conclusão

2907

Pessoas nesse curso

9.2

Avaliação média

Certificado

De participação

Introdução_

O que você aprenderá_

  • Aprenda como representar palavras com One-hot encode, vantagens e desvantagens
  • Entenda o que é Word2Vec e suas vantagens
  • Use modelos de Word2Vec já treinados
  • Compreenda os impactos dos vieses nos modelos de Word2Vec
  • Combine vetores de palavras para representar textos e classificá-los

Público alvo_

Pessoas com interesse em criar aplicações que envolvam interpretação da linguagem humana, utilizando machine learning e inteligência artificial.

Thiago G Santos

linkedin

Um quase físico, apaixonado por dados e educação. Atuou durante alguns anos na área de Data Science na maior fabricante de eletrodomésticos do mundo e trabalhou em projetos de Processamento de Linguagem Natural para a Petrobrás. Atualmente dedica-se à aplicação de machine learning na área da educação e na democratização do acesso ao ensino de Data Science no Brasil.

Curso atualizado em 09/04/2025

Ementa

  1. One-hot encode

    • Importando dados a partir do drive
    • One-hot encode
    • Utilizando CountVectorizer
  2. Word2Vec: primeiro contato

    • Conhecendo o Word2Vec
    • Arquiteruras de treinamento: Word2Vec
    • Carregando um modelo Word2Vec
    • Analisando os embeddings
  3. Explorando melhor o Word2Vec

    • Por trás das 300 dimensões
    • Explorando as relações entre palavras
    • Utilizando a lib python Gensim
  4. Combinando vetores

    • Construindo um Tokenizador
    • Combinando vetores Word2Vec
    • Analisando o pré-processamento do Word2Vec
    • Combinação de Word embedding
  5. Classicando com Word2wec

    • Classificando os textos com regressão logistica
    • Interpretando a classificação
    • Comparando classificadores
    • Métricas de avaliação
  6. Classicação com Word2vec Skip-gram

    • Classificando com arquitetura Skip-gram
    • CBOW vs. Skip-gram

Descubra se esse curso é pra você! Leia as primeiras aulas

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Este e mais 8 cursos fazem parte das seguintes formações

Nossas formações são uma sequência de cursos e conteúdo para você se profissionalizar e se tornar quem o mercado procura!
Escola

Data Science

Trabalhe com dados. Aprofunde seu conhecimento nas principais ferramentas de uma pessoa data scientist. Descubra as diferentes possibilidades de análise de dados, do Excel ao Python, e mergulhe em frameworks e bibliotecas, como Pandas, Scikit-Learn e Seaborn.

Conheça a escola

Faça parte da nossa comunidade no discord!

Troque conhecimentos com a comunidade da Alura

nossos alunos e alunas

Experiências de quem já mergulhou com a gente.

Gostei muito do curso em geral e é fundamental abordar o enviesamento dos conjuntos de dados. Inclusive este seria um excelente tema para novo curso rsObs: no listbox das aulas, o título da aula 5 está escrito errado.

Word2Vec: interpretação da linguagem humana com Word embedding

Wilson Ronaldo de Souza Assis

Muito boa. A profundidade do conteúdo, a didática e os exercícios práticos para fixação das bibliotecas do Sklearn referentes Word2vec foram os pontos altos de curso. Além disso, a dica de artigos e consulta a várias documentações contribuíram bastante para ampliação dos conhecimentos sobre o assunto.

Word2Vec: interpretação da linguagem humana com Word embedding

Luiz Peralta

Foi muito legal você mostrar como combinar o uso do gensim com word-vecs pré-treinados para língua portuguesa. O material do NILC da USP é realmente muito bom. Se puder contribuir, acho que ainda falta alguns cursos com um nível mais avançado de dificuldade. Por exemplo, em vez de usar soma (ou média) de palavras, como usar uma LSTM e processar a sequência inteira como uma série temporal. Outro detalhe é que se a sua frase tiver um excesso de 'unknowns', essa soma de palavras vai ficar "enviesada" pelo embedding 'unknown', e o classificador não vai funcionar. Nesse caso, poderíamos procurar por palavras mais próximas da string de entrada ou corrigir (se for um typo), ou até descartar. Por fim, um outro assunto interessante é: como treinar vetores de palavras específicas pra ressignificá-las, sem mexer no emdding do corpus completo? Por exemplo, inicializar com skip_gram do NILC, mas retreinar as palavras mais (ou menos) frequentes do corpus do seu dataset particular, em função da tarefa que está sendo realizada. Sei que são projetos mais complexos, mas seria legal ter cursos mais avançados nessa linha.

Word2Vec: interpretação da linguagem humana com Word embedding

Bruno Fontana da Silva

Mais tempo para a sua evolução, na velocidade do mercado. Comece hoje e aproveite por 2 anos.

Conheça os Planos para Empresas