当前位置: 首页 > news >正文

【Python机器学习】NLP概述——超空间简述

将词合并到更小的向量维数中,以缓解维数灾难的问题,并可能为我们所用。当这些向量相互投影以确定向量对之间的距离时,这将是对它们语义相似性而不是统计性词用法的合理估计。这个向量距离度量方法称为余弦距离。我们甚至可以将这些向量投影到二维平面上,以便在图表中对它们进行观察,看我们的大脑能否从中找到某些模式。然后,我们就可以教计算机识别这些模式,并以反映产生这些向量的词的隐性含义的方式对其进行处理。

尽管我们确实会不断重复自己写过的东西,但仍然有太多的可能性。当这些词分别被视为单独的、不同的维度时,我们并不知道“Good morning Tom”和“Good Morgen Tom”其实具有相同的含义。我们需要为消息创建一些降维的向量空间模型,这样就可以用一组连续值来标记它们。我们可以根据主题和情感等特点对消息和文字进行评级。

这样,我们就可以考虑下面的问题:

这条消息有多大可能成为一个被提问的问题?

这条消息有多大可能是和人有关的?

这条消息有多大可能是关于我自己的?

这条消息听起来愤怒或高兴的程度有多高?

这条消息是否需要我做出回复?

想想我们能赋予语句的所有评级,我们可以把这些评级按照孙旭排列,然后为每条语句计算评级,从而为每条语句生成一个向量。我们能为一组语句给出的评级列表或维度应该比可能的语句数量小得多。意义相同的语句应该有相似的分值。

这些评级向量变成了机器可以编程进行回复的对象,我们可以通过对语句聚类(聚集)进一步简化和泛化向量,使它们在某些维度上接近,意义相同的语句应该有相似的分值。

计算机应该如何为这些向量的每一个维度赋值?我们可以把向量维度建简化成“它包含XX这个词吗”等问题。我们可以看到,这里可以提出100万个左右的问题,这就是计算机可以分配给一个短语的数值范围。这是第一个实际的向量空间模型,称为位向量语言模型,或者说是独热编码向量的求和结果。得益于计算机硬件的发展,NLP越来越实用,增长的常数内存、线性代数算法时机器破解自然语言编码的最后一块拼图。

还有一个更简单但更强大的表示法可以用于聊天机器人。如果我们的向量维度完全描述了字符的精确序列,比如包含以下问题的答案:“第一个字母是A吗?是B吗?...第二个字母是A吗?是B吗?...”等等。这个向量的优点是,它保留了原始文本中所包含的所有信息,包括字符和词的顺序。这种独热字符序列编码表示法主要用于精确记录和重放原始片段,而非编写新内容。在这种表示法下,比文档的原始ASCII编码表示还要常。为了保留每个字符序列的信息,文档表示的可能数量会爆炸。这里,我们虽然保留了字符和词的顺序,但是扩展了NLP问题的维度。

在上述基于字符的向量空间中,这些文档表示不能很好地通过聚类聚在一起。但是有一种方法,可以快速地找到这个空间下序列(字符串)之间的相似性。只使用这种简单的、机械的语言视图,莱文斯坦算法就能使创建一些超级有趣和有用的聊天机器人称为可能。但是,当我们想到如何将这些高维空间压缩/嵌入到具有模糊含义的低维空间得到所谓的主题向量时,就可以创建更密集、更有意义的语句和文档的向量表示。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 如何在项目管理中完成项目立项?
  • 图论:描述有限离散集合中元素间关系
  • 春游c++
  • 聚合智链已获道富环球投资,正式上线AI合约策略资金托管平台
  • 参考博客汇总
  • Android.bp和Android.mk文件有的区别
  • 深入理解 GC 原理、调度与调优
  • IO进程文件操作
  • scrapy--图片管道-ImagesPipeline
  • Flutter Web 正式官宣弃用 HTML renderer , Canvas 路线成为唯一
  • [mysql][sql]安装完mysql8跨主机不能访问解决办法
  • Science Robotics 与蜜蜂群互动的蜂窝型机器人系统
  • web测试之功能测试常用的方法有哪几种?有什么要点要注意?
  • Leetcode 3266. Final Array State After K Multiplication Operations II
  • Pytorch 模型保存与加载
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • avalon2.2的VM生成过程
  • Bytom交易说明(账户管理模式)
  • CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...
  • css选择器
  • DOM的那些事
  • FastReport在线报表设计器工作原理
  • JS正则表达式精简教程(JavaScript RegExp 对象)
  • JWT究竟是什么呢?
  • Python打包系统简单入门
  • python学习笔记 - ThreadLocal
  • web标准化(下)
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 工作手记之html2canvas使用概述
  • 机器学习中为什么要做归一化normalization
  • 基于HAProxy的高性能缓存服务器nuster
  • 码农张的Bug人生 - 初来乍到
  • 前嗅ForeSpider教程:创建模板
  • 前言-如何学习区块链
  • 使用权重正则化较少模型过拟合
  • 收藏好这篇,别再只说“数据劫持”了
  • 网页视频流m3u8/ts视频下载
  • 微信开源mars源码分析1—上层samples分析
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 用jQuery怎么做到前后端分离
  • 终端用户监控:真实用户监控还是模拟监控?
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • #git 撤消对文件的更改
  • #ubuntu# #git# repository git config --global --add safe.directory
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • $().each和$.each的区别
  • (10)STL算法之搜索(二) 二分查找
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (2)MFC+openGL单文档框架glFrame
  • (Git) gitignore基础使用
  • (LeetCode C++)盛最多水的容器
  • (离散数学)逻辑连接词
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (十)Flink Table API 和 SQL 基本概念
  • (转)VC++中ondraw在什么时候调用的