Curso Online Word2Vec: interpretação da linguagem humana com Word embedding

interpretação da linguagem humana com Word embedding

Quero estudar na alura

10h

Para conclusão

2907

Pessoas nesse curso

9.2

Avaliação média

Certificado

De participação

O que você aprenderá_

Aprenda como representar palavras com One-hot encode, vantagens e desvantagens
Entenda o que é Word2Vec e suas vantagens
Use modelos de Word2Vec já treinados
Compreenda os impactos dos vieses nos modelos de Word2Vec
Combine vetores de palavras para representar textos e classificá-los

Público alvo_

Pessoas com interesse em criar aplicações que envolvam interpretação da linguagem humana, utilizando machine learning e inteligência artificial.

Thiago G Santos

Um quase físico, apaixonado por dados e educação. Atuou durante alguns anos na área de Data Science na maior fabricante de eletrodomésticos do mundo e trabalhou em projetos de Processamento de Linguagem Natural para a Petrobrás. Atualmente dedica-se à aplicação de machine learning na área da educação e na democratização do acesso ao ensino de Data Science no Brasil.

Curso atualizado em 09/04/2025

Já estuda na Alura?

Comece o curso agora

Ementa

One-hot encode
- Importando dados a partir do drive
- One-hot encode
- Utilizando CountVectorizer
Word2Vec: primeiro contato
- Conhecendo o Word2Vec
- Arquiteruras de treinamento: Word2Vec
- Carregando um modelo Word2Vec
- Analisando os embeddings
Explorando melhor o Word2Vec
- Por trás das 300 dimensões
- Explorando as relações entre palavras
- Utilizando a lib python Gensim
Combinando vetores
- Construindo um Tokenizador
- Combinando vetores Word2Vec
- Analisando o pré-processamento do Word2Vec
- Combinação de Word embedding
Classicando com Word2wec
- Classificando os textos com regressão logistica
- Interpretando a classificação
- Comparando classificadores
- Métricas de avaliação
Classicação com Word2vec Skip-gram
- Classificando com arquitetura Skip-gram
- CBOW vs. Skip-gram

Descubra se esse curso é pra você! Leia as primeiras aulas

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Este e mais 8 cursos fazem parte das seguintes formações

Nossas formações são uma sequência de cursos e conteúdo para você se profissionalizar e se tornar quem o mercado procura!

Formação
Machine Learning Avançada

10h
De curso

55
Atividades

Escola

Data Science

Trabalhe com dados. Aprofunde seu conhecimento nas principais ferramentas de uma pessoa data scientist. Descubra as diferentes possibilidades de análise de dados, do Excel ao Python, e mergulhe em frameworks e bibliotecas, como Pandas, Scikit-Learn e Seaborn.

Conheça a escola

Cursos relacionados em Machine Learning

curso

Troque conhecimentos com a comunidade da Alura

nossos alunos e alunas

Experiências de quem já mergulhou com a gente.

Gostei muito do curso em geral e é fundamental abordar o enviesamento dos conjuntos de dados. Inclusive este seria um excelente tema para novo curso rsObs: no listbox das aulas, o título da aula 5 está escrito errado.

Word2Vec: interpretação da linguagem humana com Word embedding

Wilson Ronaldo de Souza Assis

Muito boa. A profundidade do conteúdo, a didática e os exercícios práticos para fixação das bibliotecas do Sklearn referentes Word2vec foram os pontos altos de curso. Além disso, a dica de artigos e consulta a várias documentações contribuíram bastante para ampliação dos conhecimentos sobre o assunto.

Word2Vec: interpretação da linguagem humana com Word embedding

Luiz Peralta

Foi muito legal você mostrar como combinar o uso do gensim com word-vecs pré-treinados para língua portuguesa. O material do NILC da USP é realmente muito bom. Se puder contribuir, acho que ainda falta alguns cursos com um nível mais avançado de dificuldade. Por exemplo, em vez de usar soma (ou média) de palavras, como usar uma LSTM e processar a sequência inteira como uma série temporal. Outro detalhe é que se a sua frase tiver um excesso de 'unknowns', essa soma de palavras vai ficar "enviesada" pelo embedding 'unknown', e o classificador não vai funcionar. Nesse caso, poderíamos procurar por palavras mais próximas da string de entrada ou corrigir (se for um typo), ou até descartar. Por fim, um outro assunto interessante é: como treinar vetores de palavras específicas pra ressignificá-las, sem mexer no emdding do corpus completo? Por exemplo, inicializar com skip_gram do NILC, mas retreinar as palavras mais (ou menos) frequentes do corpus do seu dataset particular, em função da tarefa que está sendo realizada. Sei que são projetos mais complexos, mas seria legal ter cursos mais avançados nessa linha.

Word2Vec: interpretação da linguagem humana com Word embedding

Bruno Fontana da Silva

Mais tempo para a sua evolução, na velocidade do mercado. Comece hoje e aproveite por 2 anos.

Conheça os Planos para Empresas

Word2Vec:

O que você aprenderá_

Público alvo_

Thiago G Santos

One-hot encode

Word2Vec: primeiro contato

Explorando melhor o Word2Vec

Combinando vetores

Classicando com Word2wec

Classicação com Word2vec Skip-gram

Este e mais 8 cursos fazem parte das seguintes formações

Data Science

Cursos relacionados em Machine Learning

Modelos preditivos em dados

detecção de fraude

Clustering aplicado

recomendando músicas com K-Means

Word2Vec

treinamento de Word Embedding

Clusterização de dados

segmentação de clientes

Cursos relacionados em Machine Learning

Modelos preditivos em dados

detecção de fraude

Clustering aplicado

recomendando músicas com K-Means

Word2Vec

treinamento de Word Embedding

Clusterização de dados

segmentação de clientes

Faça parte da nossa comunidade no discord!

nossos alunos e alunas

Experiências de quem já mergulhou com a gente.

Wilson Ronaldo de Souza Assis

Luiz Peralta

Bruno Fontana da Silva

Mais tempo para a sua evolução, na velocidade do mercado. Comece hoje e aproveite por 2 anos.

Plus (1 ano)

Pro (1 ano)

Ultra (1 ano)

Plus 24 (2 anos)

Pro 24 (2 anos)

Ultra 24 (2 anos)

Cursos

Cursos universitários FIAP