One-hot 编码:早期的笨方法

Input
词汇字典
10,000+ 个词
苹果
...
编码
Processing
One-hot 编码
独热编码
只有1个位置为1
输出
Output
稀疏向量
超长向量表示
=
1
0
0
...
=
0
1
0
...
苹果 =
0
0
1
...
核心问题:维度爆炸

如果你的字典里有 10,000 个词,每个词都要变成一个拥有 10,000 个数字的超长向量

在这个向量里,只有属于这个词的那个位置标记为 1,其余 9,999 个位置全是 0

10万词字典
10万维向量
算力崩塌