V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lusuon
V2EX  ›  问与答

如何固化大型的 RDF?(GB 级的 Turtle)

  •  
  •   lusuon · 2019-03-14 18:55:27 +08:00 · 1202 次点击
    这是一个创建于 2070 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近被老师交了个任务:向数据库导入交大的学术知识图谱Acemap,此前考虑过以下的方法导入:

    1. neo4j (配合neosemantic插件,但 neo4j 在千万级结点后插入、查询等操作极为缓慢,基本不可用)

    2. jena TDB2 (当前正在尝试,但 tdb2loader 的导入性能也不容乐观,7 千万结点后可能因为本地测试机内存有限,速度也慢下来了)

    目前我的思路是:将数据分为较小的块( chunk ),再分为每个 5 千万条三元组的 Turtle 分批进行导入。但使用 Github 上的相关 repo:rdfsplit 不能做出理想的效果。

    而且对数据进行实验操作的平台比较羸弱:本地测试机的 RAM 仅 8G,服务器 RAM 16G,可能也因此制约了导入的效率。

    作为语义网 /知识图谱领域的门外汉,网络上语义网 / 构建大型知识图谱相关的内容较少,Google 一番后仍得不到较好的答案。在此向 V2EX 里的各位请教以下问题:

    1.如何在单机环境下,将大型 RDF 文件固化进数据库?( GB 级,最大近 40G )

    2.同时,有哪种处理 RDF 工具(目前想要对 RDF 进行分割)值得一用?

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5848 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:13 · PVG 14:13 · LAX 22:13 · JFK 01:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.