阿里云 OSS是一个对象存储服务,类似于 Amazon 的 S3 。相比于自建存储,使用 OSS 能够迅速帮您搞定存储,并且大大地节省成本,提升可靠性和安全性。
现在,喜欢 Ruby 的同学终于可以优雅地使用 OSS 了。先看看 Rubyist 如何上传和下载文件吧:
require 'aliyun/oss'
bucket = Aliyun::OSS::Client.new(
endpoint: 'http://oss-cn-hangzhou.aliyuncs.com',
access_key_id: 'xxx',
access_key_secret: 'yyy').get_bucket('bucket')
bucket.put_object('ruby') { |s| s << 'hello world' }
bucket.get_object('ruby') { |c| puts c }
bucket.put_object('rails', :file => '/tmp/x')
bucket.get_object('rails', :file => '/tmp/y')
是不是 so easy ? OSS SDK for Ruby 支持 OSS 目前绝大部分功能,主要的 highlights 包括:
下面我们随便挑几个来聊一聊:
OSS 用户在一个 bucket 下可能有成千上万的 objects ,所以 OSS 不会将 object 列表一次性全部返回,每次最多返回 1000 条。如果我要列出前 1001 个 object 怎么办?一般来说用户可能要调用两次接口。但是在 ruby 中你只需要一行:
bucket.list_objects.take(1001)
再比如用户要找 files/下文件名包含'ruby'的文件:
bucket.list_objects(prefix: 'files/').find { |x| x.key.include?('ruby') }
是不是非常方便?
流式上传允许用户动态地一边生成内容,一边上传到 OSS ,上传的数据可以 generated on the fly 。如下面的例子:
bucket.put_object('numbers') do |stream|
(1..1_000_000).each { |i| stream << i << "\n" }
end
注意:这里并不是要 100 万个数字都生成完后再发送,而是一边生成一边发送的。
要做到上面的效果并不容易,试想一下,put_object
要如何调用所接受的 block 参数?如果调用那么 100 万个数字都一口气生成完了,所以,如何能做到对一个函数调用一半? 答案就是使用Fiber
。
def hello
puts 'hello'
Fiber.yield
puts 'world'
end
def world
fiber = Fiber.new { hello }
puts 'first'
fiber.resume # puts 'hello'
puts 'second'
fiber.resume # puts 'world'
end
world
类似上面的代码,stream#<<
内每接受一部分内容,会将自己 yield 出去,这样已经接受的内容就可以立即发送出去。有兴趣可以查看SDK 代码。
在上传大文件时如果中途失败了,要重新上传是不是很沮丧?有了断点上传,中途失败后可以接着上次的进度继续上传。在 ruby 中只需要:
bucket.resumable_upload('object_key', 'local_file')
断点上传依赖于 OSS 提供的 multipart 功能,类似于一个事务:
只有最后一步成功后文件才算上传成功,在此之前文件对用户是不可见的。
文件被中断后如何恢复上传?如何知道哪些 parts 已经上传成功?这需要记录事务的状态信息。 SDK 的做法是将这些信息(称为 checkpoint )保存在一个本地的 json 文件中。每上传完一个 part 就更新一次 checkpoint 。恢复上传时从 checkpoint 文件中恢复上传的进度。
另外断点上传 /下载中也利用多线程实现加速,先看结果:
$ruby tests/test_large_file.rb -n test_large_file_1gb
Run options: -n test_large_file_1gb --seed 7587
# Running:
user system total real
Upload with put_object: 20.810000 1.880000 22.690000 ( 62.843336)
Upload with resumable_upload: 28.720000 9.740000 38.460000 ( 33.963555)
Download with get_object: 17.300000 4.550000 21.850000 ( 47.132476)
Download with resumable_download: 23.260000 9.530000 32.790000 ( 31.883211)
Ruby 或者 Python 的多线程一直是个“迷”,但是对于这种 IO 多场景,用多线程效果还是很明显的。因为进行 IO 的标准库函数在需要等待 IO 时会将当前线程切出去。参考: http://yehudakatz.com/2010/08/14/threads-in-ruby-enough-already/
借助 rails ,可以在 15 分钟内搭建一个oss 文件管理器,可以查看 /上传 /下载文件,效果图如下: