【探索】利用 canvas 實現數據壓縮 - index-html－IT工程師數位筆記本

文章出處

前言

HTTP 支持 GZip 壓縮，可節省不少傳輸資源。但遺憾的是，只有下載才有，上傳并不支持。如果上傳也能壓縮，那就完美了。特別適合大量文本提交的場合，比如博客園，就是很好的例子。

雖然標準不支持「上傳壓縮」，但仍可以自己來實現。

Flash

首選方案當然是 Flash，畢竟它提供了壓縮 API。除了 zip 格式，還支持 lzma 這種超級壓縮。因為是原生接口，所以性能極高。而且對應的 swf 文件，也非常小。

JavaScript

Flash 逐漸淘汰，但取而代之的 HTML5，卻沒有提供壓縮 API。只能自己用 JS 實現。

這雖然可行，但運行速度就慢多了，而且相應的 JS 也很大。如果代碼有 50kb，而數據壓縮后只小 10kb，那就不值了。除非量大，才有意義。

其他

能否不用 JS，而是利用某些接口，間接實現壓縮？事實上，在 HTML5 剛出現時，就注意到了一個功能：canvas 導出圖片。可以生成 JPG、PNG 等格式。

如果在思考的話，相信你也想到了。沒錯，就是 PNG —— 它是無損壓縮的圖片格式。我們把普通數據當成像素點，畫到 canvas 上，然后導出成 PNG，不就是一個特殊的壓縮包了嗎！

下面開始探索。。。

編碼

數據轉像素，并不麻煩。1 個像素可以容納 4 個字節：

R = bytes[0]
G = bytes[1]
B = bytes[2]
A = bytes[3]

事實上有現成的方法，可批量將數據填充成像素：

var img = new ImageData(bytes, w, h);
context.putImageData(img, 0, 0);

但是，圖片的寬高如何設定？

尺寸

最簡單的，就是用 1px 的高度。比如有 1000 個像素，則填在 1000 x 1 的圖片里。

但如果有 10000 像素，就不可行了。因為 canvas 的尺寸，是有限制的。

不同的瀏覽器，最大尺寸不一樣。有 4096 的，也有 32767 的。。。

以最大 4096 為例，如果每次都用這個寬度，顯然不合理。

比如有 n = 4100 個像素，我們使用 4096 x 2 的尺寸：

| 1    | 2    | 3    | 4    | ...  | 4095 | 4096 |
| 4097 | 4098 | 4099 | 4100 | ...... 未利用 ......

第二行只用到 4 個，剩下的 4092 個都空著了。

但 4100 = 41 * 100。如果用這個尺寸，就不會有浪費。

所以，得對 n 分解因數：

n = w * h

這樣就能將 n 個像素，正好填滿 w x h 的圖片。

但 n 是質數的話，就無解了。這時浪費就不可避免了，只是，怎樣才能浪費最少？

于是就變成這樣一個問題：

如何用 n + m 個點，拼成一個矩形。求矩形的 w 和 h。（n 已知，m 越小越好，0 < w <= MAX, 0 < h <= MAX）

考慮到 MAX 不大，窮舉就可以。

我們遍歷 h，計算相應的 w = ceil(n / h)，然后找出最接近 n 的 w * h。

var MAX = 4096;
var beg = Math.ceil(n / MAX);
var end = Math.ceil(Math.sqrt(n));

var minSize = 9e9;

var bestH = 0,          // 最終結果
    bestW = 0;

for (h = beg; h <= end; h++) {
    var w = Math.ceil(n / h);
    var size = w * h;

    if (size < minSize) {
        minSize = size;
        bestW = w;
        bestH = h;
    }
    if (size == n) {
        break;
    }
}

因為 w * h 和 h * w 是一樣的，所以只需遍歷到 sqrt(n) 就可以。

同樣，也無需從 1 開始，從 n / MAX 即可。

這樣，我們就能找到最適合的圖片尺寸。

當然，連續的空白像素，最終壓縮后會很小。這一步其實并不特別重要。

渲染

定下尺寸，我們就可以「渲染數據」了。

渲染看似簡單，然而事實上卻有個意想不到的坑 —— 同個像素寫入后再讀取，數據居然會有偏差！這里有個測試：

var canvas = document.createElement('canvas');
var ctx = canvas.getContext('2d');

// 寫入的數據
var bytes = [100, 101, 102, 103];

var buf = new Uint8ClampedArray(bytes);
var img = new ImageData(buf, 1, 1);
ctx.putImageData(img, 0, 0);

// 讀取的數據
img = ctx.getImageData(0, 0, 1, 1);
console.log(img.data);

// 期望     [100, 101, 102, 103]
// 實際
// chrome  [99,  102, 102, 103]
// firefox [101, 101, 103, 103]
// ...

讀取的值和寫入的很接近，但并不相同。而且不同的瀏覽器，偏差還不一樣！這究竟是怎么回事？

原來，瀏覽器為了提高渲染性能，有一個 Premultiplied Alpha 的機制。但是，這會犧牲一些精度！雖然視覺上并不明顯，但用于數據存儲，就有問題了。

如何禁用它？一番嘗試都沒成功。于是，只能從數據上琢磨。如果不使用 Alpha 通道，又會怎樣？

// 寫入的數據
var bytes = [100, 101, 102, 255];
...
console.log(img.data);  // [100, 101, 102, 255]

設置 A = 255，這樣倒是避開了問題。

看來，只能從數據上著手，跳過 Alpha 通道：

// pixel 1
new_bytes[0] = bytes[0]     // R
new_bytes[1] = bytes[1]     // G
new_bytes[2] = bytes[2]     // B
new_bytes[3] = 255          // A

// pixel 2
new_bytes[4] = bytes[3]     // R
new_bytes[5] = bytes[4]     // G
new_bytes[6] = bytes[5]     // B
new_bytes[7] = 255          // A

...

這時，就不受 Premultiplied Alpha 的影響了。

出于簡單，也可以 1 像素存 1 字節：

// pixel 1
new_bytes[0] = bytes[0]
new_bytes[1] = 255
new_bytes[2] = 255
new_bytes[3] = 255

// pixel 2
new_bytes[4] = bytes[1]
new_bytes[5] = 255
new_bytes[6] = 255
new_bytes[7] = 255

...

這樣，整個圖片最多只有 256 色。如果能導出成「索引型 PNG」的話，也是可以嘗試的。

解碼

最后，就是將圖像導出成可傳輸的數據。如果 canvas 能直接導出成 blob，那是最好的，因為 blob 可通過 AJAX 上傳。

canvas.toBlob(function(blob) {
    // ...
}, 'image/png')

不過，大多瀏覽器都不支持，只能導出 data uri 格式：

uri = canvas.toDataURL('image/png')  // data:image/png;base64,xxxx

然而 base64 會增加 1/3 的長度，這樣壓縮效果就大幅降低了。所以，我們還得解碼成二進制：

base64 = uri.substr(uri.indexOf(',') + 1)
binary = atob(base64)

這時的 binary，就是最終想要的數據了嗎？如果將 binary 通過 AJAX 提交的話，會發現實際傳輸字節，會比 binary.length 大！

原來 atob 函數返回的數據，仍是字符串型的，所以傳輸時會涉及到字集編碼。因此我們還需再轉換一次，變成真正的二進制類型：

var len = binary.length
var buf = new Uint8Array(len)

for (var i = 0; i < len; i++) {
    buf[i] = binary.charCodeAt(i)
}

這時的 buf，才能被 AJAX 原封不動的傳輸。

演示

綜上所述，我們簡單演示下：Demo

找一個大塊的文本測試。例如 qq.com 首頁 HTML，有 637,101 字節。

先使用「每像素 1 字節」的編碼，各個瀏覽器生成的 PNG 大小：

	Chrome	FireFox	Safari
體積	289,460	203,276	478,994
比率	45.4%	31.9%	75.2%

其中火狐壓縮率最高，減少了 2/3 的體積。生成的 PNG 看起來是這樣的：

不過遺憾的是，所有瀏覽器生成的圖片，都不是「256 色索引」的。

再測試「每像素 3 字節」，看看會不會有改善：

	Chrome	FireFox	Safari
體積	297,239	202,785	384,183
比率	46.7%	31.8%	60.3%

Safari 有了不少的進步，不過 Chrome 卻更糟了。

FireFox 有略微的提升，壓縮率仍是最高的。生成如下圖片：

結論

由于 canvas 導出圖片時，無法設置壓縮等級，而默認的壓縮率并不高。所以這種方式，最終效果并不理想。

同樣的數據，相比 Flash 壓縮，差距就很明顯了：

	deflate 算法	lzma 算法
體積	133,660	108,015
比率	21.0%	17.0%

并且 Flash 生成的是通用格式，后端解壓時，使用標準庫即可；而 PNG 還得位圖解碼、像素處理等步驟，很麻煩。

所以，現實中還是優先使用 Flash，本文只是開腦洞而已。

用例

雖然是個然并卵的黑科技，不過實際還是有用到過，曾用在一個較大日志上傳的場合（并且不能用 Flash）。

好在后端僅僅儲存而已，并不分析。所以，可以讓管理員將日志對應的 PNG 圖片下回本地，在自己電腦上解析。

解壓更容易，就是將像素還原回數據，這里有個簡陋的 Demo。

這樣，既減少了上傳流量，也節省服務器存儲空間。

文章列表

不含病毒。www.avast.com

大師兄

IT工程師數位筆記本

大師兄發表在痞客邦留言(0) 人氣()

E-mail轉寄

IT工程師數位筆記本

If you give someone a program , you will frustrate them for a day; if you teach them how to program, you will frustrate them for a lifetime.IT 這段話的意思是，如果你交給某人一隻程式，你將折磨他一整天;如果你教會某人如何寫程式，你將折磨他一輩子。

BloggerAds

【探索】利用 canvas 實現數據壓縮 - index-html

前言

Flash

JavaScript

其他

編碼

尺寸

渲染

解碼

演示

結論

用例

歷史上的今天

留言列表

參觀人氣

文章搜尋

最新文章

文章精選

誰來我家

熱門文章

文章分類

最新留言

QR Code

POWERED BY