当前位置: 首页 > news >正文

mahout的数据文件格式

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

Mahout支持许多格式的文件以便实现各种工作。
文件格式
可导入的文件格式
1. 文本文件
        (1)满足以下格式的文本可以转化为流数据文件导入:
            (行号,行文本)
            (文件名,文件的全部内容)
            (行号,行份的用正则表达式模式)
        (2)可以解析为Lucene索引的文本:
                精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
2. ARFF文件
        WEKA(来源)项目文本数据格式
        可以<Int,Vector>格式生成流文件的数据
3. 邮箱文件
           满足以下格式的邮件可以转化为流数据文件导入:
            (邮件ID,电子邮件消息的文本正文)
            没有HTML或附件支持
4.CSV文件
        不导入行头和列头
        没有“多个值,每列”选项
5. Hadoop的流文件
        规范的,没有变化。目前没有使用的元数据。
6.Lucene索引
        转换为流文件
            精确的索引设计?

可导出的格式

    hadoop的流文件
    文本行,可以使用toString()函数的类型
    MatrixWritable ConfusionMatrix
    可供MatrixWritable使用的CSV
    一个特殊的CSV格式集群
    GraphML XML集群

流文件中存储的内容的格式
“简化的”文本vectors
文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

编码的文本载体
文档以vectors的形式存储。然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。

字典
每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

矩阵
矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。

集群
复杂的数据结构被存储在集群。

FPGrowth集群
这些都存储在一个自定义的数据结构。

生命周期

所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。

转载于:https://my.oschina.net/airship/blog/3015084

相关文章:

  • 微信小程序开发总结
  • 编码占用字节数
  • spring boot 整合mybatis 无法输出sql的问题
  • 小程序上传图片到七牛云(支持多张上传,预览,删除)
  • 动态魔术使用DBMS_SQL
  • Mac 鼠须管 Rime 输入法 安装五笔输入法 教程
  • 接力10G,25G将成为数据中心首选解决方案
  • Redash本地开发环境搭建
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • Chrome 被曝 0day 漏洞,可让黑客获取用户数据
  • Linux权限管理(week1_day5)--技术流ken
  • 基于ArcFace2.0+红外双目摄像头的活体检测 [Windows][C#][.NET][WPF]
  • Android 架构优化~MVP 架构改造
  • python列表,字典,集合
  • 关于移动端页面在手机调整字体大小后无法正常显示(已解决)
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • centos安装java运行环境jdk+tomcat
  • Codepen 每日精选(2018-3-25)
  • CSS相对定位
  • Django 博客开发教程 16 - 统计文章阅读量
  • JavaScript HTML DOM
  • Java多线程(4):使用线程池执行定时任务
  • JS函数式编程 数组部分风格 ES6版
  • Linux Process Manage
  • Node项目之评分系统(二)- 数据库设计
  • PV统计优化设计
  • vue 个人积累(使用工具,组件)
  • VuePress 静态网站生成
  • Webpack 4x 之路 ( 四 )
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 设计模式(12)迭代器模式(讲解+应用)
  • 使用parted解决大于2T的磁盘分区
  • 听说你叫Java(二)–Servlet请求
  • 延迟脚本的方式
  • Nginx实现动静分离
  • (1)(1.9) MSP (version 4.2)
  • (附源码)spring boot校园拼车微信小程序 毕业设计 091617
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (南京观海微电子)——I3C协议介绍
  • (淘宝无限适配)手机端rem布局详解(转载非原创)
  • (五)IO流之ByteArrayInput/OutputStream
  • (五)MySQL的备份及恢复
  • (转)关于多人操作数据的处理策略
  • (轉貼) VS2005 快捷键 (初級) (.NET) (Visual Studio)
  • . ./ bash dash source 这五种执行shell脚本方式 区别
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .NET Core MongoDB数据仓储和工作单元模式封装
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .Net Core与存储过程(一)
  • .NET 使用 JustAssembly 比较两个不同版本程序集的 API 变化
  • .net 无限分类
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)
  • .NET开源项目介绍及资源推荐:数据持久层
  • .net实现客户区延伸至至非客户区
  • .NET是什么