独热编码
OneHotEncoder
是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。
对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。
每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。
示例:
List <Row> df = Arrays.asList( Row.of("a", 1), Row.of("b", 1), Row.of("c", 1), Row.of("e", 2), Row.of("a", 2), Row.of("b", 1), Row.of("c", 2), Row.of("d", 2), Row.of(null, 1) ); BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int"); OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR); // 或者单独设置输出列 // OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output"); one_hot.fit(inOp).transform(inOp).print();
输出结果如下所示:
query | weight |
---|---|
$5$0:1.0 | 1 |
$5$1:1.0 | 1 |
$5$2:1.0 | 1 |
5 5 5 | 2 |
$5$0:1.0 | 2 |
$5$1:1.0 | 1 |
$5$2:1.0 | 2 |
$5$3:1.0 | 2 |
$5$4:1.0 | 1 |
向量聚合
VectorAssembler
是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量,通常用于特征工程的最后阶段,以准备机器学习模型的输入特征。
对于每个样本,VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数,每个维度对应一个特征列的值。
合并的特征列仅支持数值类型。
示例:
List <Row> df = Arrays.asList( Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"), Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"), Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2") ); MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string"); VectorAssembler res = new VectorAssembler() .setSelectedCols("c0", "c1") .setOutputCol("table2vec"); res.transform(data).print();
输出结果如下所示:
id | c0 | c1 | table2vec |
---|---|---|---|
0 | $6$1:2.0 2:3.0 5:4.3 | 3.0 2.0 3.0 | $9$1:2.0 2:3.0 … 8:3.0 |
1 | $8$1:2.0 2:3.0 7:4.3 | 3.0 2.0 3.0 | $11$1:2.0 2:3.0 … 10:3.0 |
2 | $8$1:2.0 2:3.0 7:4.3 | 2.0 3.0 2.2 | $11$1:2.0 2:3.0 … 10:2.2 |
特征哈希
FeatureHasher
是用于将多列特征进行哈希映射,将特征合并成特征向量的类。
对于每个样本,将选定的特征列的值进行哈希映射,得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度,形成一个特征向量。
这种方式可以降低特征维度,减少内存和计算资源的消耗,尤其适用于高维稀疏特征。
不限于数值类型的数据
示例:
List<Row> df1 = Arrays.asList( Row.of(1.1, true, 2, "A"), Row.of(1.1, false, 2, "B"), Row.of(1.1, true, 1, "B"), Row.of(2.2, true, 1, "A") ); BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string"); FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);
输出结果如下所示:
double | bool | number | str | output |
---|---|---|---|---|
1.1000 | true | 2 | A | $3$0:3.0 1:1.1 2:1.0 |
1.1000 | false | 2 | B | $3$0:3.0 1:1.1 2:1.0 |
1.1000 | true | 1 | B | $3$0:2.0 1:1.1 2:1.0 |
2.2000 | true | 1 | A | $3$0:2.0 1:2.2 2:1.0 |
文本特征生成
DocCountVectorizer
用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理,以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理(NLP)任务,如文本分类、情感分析、主题建模等。
特征抽取过程:
对于每个文本数据,
DocCountVectorizer
统计每个词汇在文本中的出现次数,作为特征向量的值。每个文本对应一个特征向量,特征向量的维度为词汇表的大小。
Alink库封装的DocCountVectorizer
支持生成多种类型的特征向量,支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型,即单词出现的频率。
示例:
List <Row> df = Arrays.asList( Row.of(0, "二手旧书:医学电磁成像"), Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"), Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"), Row.of(3, "二手中国糖尿病文献索引"), Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书") ); BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string"); Pipeline pipeline = new Pipeline() .add(new Segment().setSelectedCol("text")) // 分词 .add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec")); pipeline.fit(inOp).transform(inOp).print();
输出结果如下所示:
id | text | vec |
---|---|---|
0 | 二手 旧书 : 医学 电磁 成像 | $37$10:0.1831020481113516 14:0.1831020481113516 … 34:0.1831020481113516 |
1 | 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 | $37$0:0.04077336356234972 1:0.04077336356234972 … 35:0.06462425227459469 |
2 | 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 | $37$5:0.0915510240556758 6:0.0915510240556758 … 36:0.1831020481113516 |
3 | 二手 中国 糖尿病 文献 索引 | $37$8:0.21972245773362198 9:0.21972245773362198 … 32:0.21972245773362198 |
4 | 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 | $37$0:0.046209812037329684 1:0.046209812037329684 … 30:0.07324081924454065 |
文本哈希特征生成
DocHashCountVectorizer
将文本数据中的每个词汇通过哈希函数映射到特征向量的维度,得到特征向量。
特征向量的维度由用户设置的参数 numFeatures
决定,通常较小以减少维度。
示例:
List <Row> df = Arrays.asList( Row.of(0, "二手旧书:医学电磁成像"), Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"), Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"), Row.of(3, "二手中国糖尿病文献索引"), Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书") ); BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string"); Pipeline pipeline = new Pipeline() .add(new Segment().setSelectedCol("text")) .add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3)); pipeline.fit(inOp).transform(inOp).print();
输出结果如下所示:
id | text | vec |
---|---|---|
0 | 二手 旧书 : 医学 电磁 成像 | $3$0:-0.7331685343967134 1:-0.5207269374140805 |
1 | 二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969 | $3$0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705 |
2 | 二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社 | $3$0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163 |
3 | 二手 中国 糖尿病 文献 索引 | $3$0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662 |
4 | 二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书 | $3$0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132 |
Word2Vec
Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,它主要用于将单词表示成高维空间中的向量,以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系,这对于自然语言处理任务非常有用。
Word2Vec有两种主要模型:Skip-gram和Continuous Bag of Words (CBOW)。
Skip-gram模型是预测上下文单词,而CBOW模型是预测中心单词。
示例:
List <Row> df = Arrays.asList( Row.of("A B C") ); BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string"); Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec"); word2vec.fit(inOp).transform(inOp).print();
输出结果如下所示:
tokens | vec |
---|---|
A B C | 0.7309789158041142 0.40841706187852966 |
最后
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
五、面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】