V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
anonymoustian
V2EX  ›  Hadoop

Spark 上如何构建 M*N 矩阵? 现有的例子都是直接传入的一个矩阵的 txt 文件

  •  
  •   anonymoustian · 2016-05-17 10:38:10 +08:00 · 2692 次点击
    这是一个创建于 3123 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在有一个 M * N 矩阵,但是在 Spark 里面是用 JavaPairRDD<String, String>一行一行来存储的。 其中 tuple_1 代表 用户, tuple_2 代表 食物, 也就是说 形成了一种 用户与食物的对应关系。 我要构建一个矩阵,行代表用户,列代表食物,如果有这样一条 RDD 记录的话, 构建 的 M * N 矩阵 那个值为 1 , 否则为 0

    现有的例子我查到的 都是直接 读入一个 txt 文件, 但是 并没有讲如何构建这个矩阵?

    而且我的矩阵行和列是有意义的,是要映射出去的,现有的例子也没有。 就是说如果对这个矩阵进行运算的话,希望 第 i 行 映射到 小明, 第 j 列 映射到 薯条 这样子;

    另外这个 RDD 的条目大概有一千万条, 如何写程序构建这个矩阵并且可以进行相关的运算? 大家有没有什么好的例子?

    谢谢!

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1042 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:39 · PVG 03:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.