当前位置: 首页 > news >正文

sklearn 计算 tfidf 得到每个词分数

from sklearn.feature_extraction.text import TfidfVectorizer# 语料库 可以换为其它同样形式的单词
corpus = [list(range(-5, 5)),list(range(-6,4)),list(range(12)),list(range(13))]# corpus = [
#    ['Two', 'wrongs', 'don\'t', 'make', 'a', 'right', '.'],
#    ['The', 'pen', 'is', 'mightier', 'than', 'the', 'sword'],
#    ['Don\'t', 'put', 'all', 'your', 'eggs', 'in', 'one', 'basket', '.']]def dummy_fun(doc):return doctfidf_vec = TfidfVectorizer(analyzer='word',tokenizer=dummy_fun,preprocessor=dummy_fun,token_pattern=None)  # 使用 fit_transform() 得到 TF-IDF 矩阵。此为 scipy 稀疏矩阵
tfidf_matrix = tfidf_vec.fit_transform(corpus)
# print(tfidf_matrix)# 使用 get_feature_names() 得到不重复的单词
print(tfidf_vec.get_feature_names_out())# 得到每个单词对应的 ID
print(tfidf_vec.vocabulary_)

在这里插入图片描述

# 得到 corpus 中每个词得分
for i in range(len(corpus)):column_indexes = [tfidf_vec.vocabulary_[key] for key in corpus[i]]tf_idf = tfidf_matrix[i, column_indexes].toarray()[0]print(tf_idf)

在这里插入图片描述
参考:
Applying scikit-learn TfidfVectorizer on tokenized text
sklearn.feature_extraction.text.TfidfVectorizer

相关文章:

  • [C#][opencvsharp]opencvsharp sift和surf特征点匹配
  • lua只读表
  • Security ❀ TCP异常报文详解
  • 【JavaEE进阶】 图书管理系统开发日记——肆
  • git的分支的使用,创建分支,合并分支,删除分支,合并冲突,分支管理策略,bug分支,强制删除分支
  • 字面跳动前端面试题:React Hook为什么不能放在if/循环/嵌套函数里面?
  • js数组和字符串之间的转换方式以及数组的一些方法
  • 51单片机实验课二
  • 二、人工智能之提示工程(Prompt Engineering)
  • JAVA中枚举的方法
  • Java基础 集合(二)List详解
  • 【CSS + ElementUI】更改 el-carousel 指示器样式且隐藏左右箭头
  • Qt应用软件【数据篇】大小端数据转换
  • Linux进程信号处理:深入理解与应用(2​​)
  • 【Tomcat与网络6】 Tomcat是如何扩展Java线程池的?
  • Google 是如何开发 Web 框架的
  • “大数据应用场景”之隔壁老王(连载四)
  • ➹使用webpack配置多页面应用(MPA)
  • Angular4 模板式表单用法以及验证
  • CSS居中完全指南——构建CSS居中决策树
  • EventListener原理
  • NLPIR语义挖掘平台推动行业大数据应用服务
  • PHP 小技巧
  • php面试题 汇集2
  • Python学习之路13-记分
  • SQLServer之索引简介
  • v-if和v-for连用出现的问题
  • VirtualBox 安装过程中出现 Running VMs found 错误的解决过程
  • VuePress 静态网站生成
  • Vue官网教程学习过程中值得记录的一些事情
  • 百度小程序遇到的问题
  • 等保2.0 | 几维安全发布等保检测、等保加固专版 加速企业等保合规
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 面试总结JavaScript篇
  • 温故知新之javascript面向对象
  • 原创:新手布局福音!微信小程序使用flex的一些基础样式属性(一)
  • 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes ...
  • ​LeetCode解法汇总2670. 找出不同元素数目差数组
  • ​VRRP 虚拟路由冗余协议(华为)
  • #ifdef 的技巧用法
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • (delphi11最新学习资料) Object Pascal 学习笔记---第7章第3节(封装和窗体)
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (六)Hibernate的二级缓存
  • (转)Android中使用ormlite实现持久化(一)--HelloOrmLite
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .net 中viewstate的原理和使用
  • .NET的微型Web框架 Nancy
  • .NET面试题解析(11)-SQL语言基础及数据库基本原理
  • .NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
  • .net图片验证码生成、点击刷新及验证输入是否正确
  • @FeignClient注解,fallback和fallbackFactory
  • @Import注解详解
  • @TableId注解详细介绍 mybaits 实体类主键注解