Data compression

prefLabel
  • Data Compression
definition
  • Compression services are defined as Data Handling Services that reduce the proportions (file size, physical size, volume or mass) of Earth science data. Data can be reduced by mechanical means (e.g., dehydration) or by computer algorithms (e.g., .zip). EXAMPLES: Dehydration or Deflation (mechanical). ZIP, TAR, JAR, GZIP (computer).
inScheme
broader
Abstract from DBPedia
    In information theory, data compression, source coding, or bit-rate reduction is the process of encoding information using fewer bits than the original representation. Any particular compression is either lossy or lossless. Lossless compression reduces bits by identifying and eliminating statistical redundancy. No information is lost in lossless compression. Lossy compression reduces bits by removing unnecessary or less important information. Typically, a device that performs data compression is referred to as an encoder, and one that performs the reversal of the process (decompression) as a decoder. The process of reducing the size of a data file is often referred to as data compression. In the context of data transmission, it is called source coding; encoding done at the source of the data before it is stored or transmitted. Source coding should not be confused with channel coding, for error detection and correction or line coding, the means for mapping data onto a signal. Compression is useful because it reduces the resources required to store and transmit data. Computational resources are consumed in the compression and decompression processes. Data compression is subject to a space–time complexity trade-off. For instance, may require expensive hardware for the video to be decompressed fast enough to be viewed as it is being decompressed, and the option to decompress the video in full before watching it may be inconvenient or require additional storage. The design of data compression schemes involves trade-offs among various factors, including the degree of compression, the amount of distortion introduced (when using lossy data compression), and the computational resources required to compress and decompress the data.

    データ圧縮(データあっしゅく、英: data compression)とは、あるデータを、そのデータの実質的な性質(情報量)をできる限り保ったまま、データ量を減らした別のデータに変換すること。高効率符号化ともいう。 データ圧縮は、データ転送におけるトラフィックやデータ蓄積に必要な記憶容量の削減といった面で有効である。しかし圧縮されたデータは、利用する前に伸長(解凍)するという追加の処理を必要とする。つまりデータ圧縮は、空間計算量を時間計算量に変換することに他ならない。例えば映像の圧縮においては、それをスムーズに再生するために高速に伸長(解凍)する高価なハードウェアが必要となるかもしれないが、圧縮しなければ大容量の記憶装置を必要とするかもしれない。データ圧縮方式の設計には様々な要因のトレードオフがからんでおり、圧縮率をどうするか、(非可逆圧縮の場合)歪みをどの程度許容するか、データの圧縮伸長に必要とされる計算リソースの量などを考慮する。 データ圧縮には、可逆圧縮と非可逆圧縮の2種類がある。可逆圧縮は、統計的冗長性を特定・除去することでビット数を削減する。可逆圧縮では情報が失われない。可逆圧縮は、数値データや文書、プログラムなど、1ビットの変化で情報の価値が大きく毀損されるようなデータに対して用いられる。一方で、非可逆圧縮は不必要な情報を特定・除去することでビット数を削減する。非可逆圧縮ではいくらかの情報が失われる。非可逆圧縮は、音声や画像、動画など、細部が変化しても情報の意味が変わりにくいデータに対して用いられる。 アナログ技術を用いた通信技術においては通信路の帯域幅を削減する効果を得るための圧縮ということで帯域圧縮ともいわれた。デジタル技術では、情報を元の表現よりも少ないビット数で符号化することを意味する。 新たな代替技法として、圧縮センシングの原理を使ったリソース効率のよい技法が登場している。圧縮センシング技法は注意深くサンプリングすることでデータ圧縮の必要性を避けることができる。

    (Source: http://dbpedia.org/resource/Data_compression)