基于感知机的人名性别分类 5.3.2 特征提取

问题更新为:

简单特征的提取:已知训练集有2个,{赵伏琴,女 ;钱伏阳,男},男用1表示,女用-1表示。可以提取3个特征(即三维特征空间O-XYZ:X表示是否含有“伏”、Y:是否含有“琴”、Z:是否含有“阳”),对应的数学样本是{(1,1,0),-1},{(1,0,1),1}。可以怎样理解吗?

原问题: CheapFeatureClassifier类中的 protected List extractFeature(String text, FeatureMap featureMap)中的FeatureMap featureMap具体作用是什么?featureMap.dat.base.data为什么有数万条数据。idof函数调了一圈是要干啥?

本质上,是上如何将已标记的姓名,性别数据转化为二分类的数字样本数据? :joy:

请仔细看书:

其中, FeatureMap 负责将字符串形式的特征映射为独一无二的特征id

请仔细阅读第二章。