论坛首页 Web前端技术论坛

微博API timeline压缩的想法

浏览 1456 次
精华帖 (0) :: 良好帖 (3) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-11-12  
智能手机的用户越来越多,但是据统计有一半使用智能手机的人通过GPRS这样的慢速网络上网,当微博客户端使用慢速网络上网时,时间线的数据大小就成为用户体验的关键,如果能压缩数据传输,好处自然是不用说的。

让我们看看一个典型的Timeline是什么样的格式。实例如下.
{ created_at: 'Tue Nov 08 11:50:41 +0800 2011',
 id: 3377424618238221,
 text: '11月7日,开发区管委会与全美华人金融协会战略合作协议签订仪式在开发区投资服务中心举行。开发区(南港工业区)管委会党组副书记、管委会副主任孙胜,开发区(南港工业区)管委会副主任郎东会见全美华人金融协会会长、汉世纪投资管理有限公司管理合伙人、总裁吴皓一行,并共同出席签字仪式。',
 source: '<a href="http://weibo.com" rel="nofollow">新浪微博</a>',
 favorited: false,
 truncated: false,
 in_reply_to_status_id: '',
 in_reply_to_user_id: '',
 in_reply_to_screen_name: '',
 thumbnail_pic: 'http://ww1.sinaimg.cn/thumbnail/81ab7491tw1dmwcy8hekuj.jpg',
 bmiddle_pic: 'http://ww1.sinaimg.cn/bmiddle/81ab7491tw1dmwcy8hekuj.jpg',
 original_pic: 'http://ww1.sinaimg.cn/large/81ab7491tw1dmwcy8hekuj.jpg',
 geo: null,
 mid: '3377424618238221',
 user: 
  { id: 2175497361,
    screen_name: '天津开发区投促三局',
    name: '天津开发区投促三局',
    province: '12',
    city: '26',
    location: '天津 滨海新区',
    description: '天津开发区热情欢迎国内外客商来区考察、投资。有关区域发展详情和投资程序可咨询天津开发区投资网www.investteda.org',
    url: '',
    profile_image_url: 'http://tp2.sinaimg.cn/2175497361/50/5602903704/1',
    domain: '',
    gender: 'm',
    followers_count: 1328,
    friends_count: 154,
    statuses_count: 168,
    favourites_count: 0,
    created_at: 'Mon Jun 13 00:00:00 +0800 2011',
    following: false,
    allow_all_act_msg: false,
    geo_enabled: true,
    verified: true } }

以上代码是新浪微博一个典型消息的JSON格式,timeline就是由20个这样格式的消息组成。一个timeline请求通常响应大约30K的数据,经过gzip -9压缩后,仍然有大约7K字节数据。那么其尺寸消耗在哪里呢?第一部分:对象中很多属性客户端并不需要,也传了过去,另外一部分:属性名字占的字节数通常比属性值还要大。

属性名的作用是当我们拿到一个属性值的时候不知道其意义,需要名字来标识区分的。那么如果客户端和服务器端约定了某个字段是的意义,就不需要传输名字了。

基于以上两个想法,我在开源项目node-fanfou (https://github.com/FanfouAPI/node-fanfou)上实现了如下的压缩/解压缩过程
1. 指定了需要传输的timeline 属性名, 如下
var status_fields = ['id', 'text', 'created_at',
                     ['user', 'id'], ['user', 'name'],
                     ['user', 'screen_name'], ['user', 'profile_image_url'],
                     ['user', 'friends_count'], ['user', 'followers_count'],
                     ['user', 'statuses_count']];

这样的指定,以后也很方便添加新的属性
2: 对于从API获得的每个status对象,将一个属性的值放在一起,最后行程一个javascript对象
{
  'id': [111, 222, ...],
  'name': ['tom', 'jacky', 'mike', ...],
  'profile_image_url': [...]
  ...
}

对象的每个字段值是个等长的数组。
3: 由于我们知道字段名字的顺序,仅有的字段名字都可以省略, 变成如下结构,然后传送给客户端
[
  [111, 222, ...],
  ['tom', 'jacky', 'mike', ...],
  [...]
  ...
]

接收端根据约定好的字段进行解码就可以使用了。只要约定不出问题,就不会导致数据混乱。
由于node-fanfou是使用nodejs编程的,服务器端也使用javascript, 所有我偷了个巧,一个定义字段的文件同时被客户端和服务器端使用,就不需要考虑分发和修改的问题了。

结果是一个30K大小左右的timeline经过以上编码,尺寸变为6K字节大小。而gzip -9 压缩后2.6K字节大小,能有效缩小传输尺寸一半以上。

再顺便说下node-fanfou, 这是一个饭否的实验性移动互联网网站,主要使用的技术有 css3, html5 localStorage, backbone.js, jquery还有服务器端的nodejs. 源代码在 https://github.com/FanfouAPI/node-fanfou 。欢迎参看.




论坛首页 Web前端技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics