De acuerdo con la Teoría Matemática de la Información (TMI), dado un sistema $X$, el cual puede describirse mediante un cierto número de estados aleatorios $n$, cada uno con la correspondiente probabilidad de que se dé, $p_i$ ($i=1\,\ldots,n$), y recordemos que por el teorema de la probabilidad total, ha de cumplirse que $\displaystyle \sum_{i=1}^{n}\,p_i=1$, entonces la cantidad de información del sistema $X$ en un cierto estado $i$ (autoinformación de dicho estado) viene dada por $I(X=x_i):=\log_b\,\dfrac{1}{p_i}$, ya que la información es tanto mayor cuánto mayor es la sorpresa que se causa al ser recibido (como mensaje) el estado en el que se encuentra el sistema; y por tanto cuánto menor es la probabilidad de que se dé dicho estado.
Para describir la información media del sistema al tener en cuenta que, como es lógico, pueden darse todos y cada uno de los estados del mismo, se define la entropía de Shannon como la media ponderada del contenido informativo de cada uno de dichos estados, por tanto escribiremos $\displaystyle H(X):=\sum_{i=1}^{n}\,p_i\cdot \log_b\,\dfrac{1}{p_i}$, que, por las propiedades de los logaritmos, puede expresarse de manera equivalente como $\displaystyle H(X)=-\sum_{i=1}^{n}\,p_i\cdot \log_b\,p_i$.
Así, por ejemplo, si el sistema es determinista, uno de los estados se dará con probabilidad igual a $1$, y los demás con probabilidad igual a cero, por lo que la entropía de Shannon de un sistema determinista es nula, pues la situación del sistema es totalmente predecible (no causa sorpresa alguna); en otro extremo, si los estados del sistema son equiprobables, y por tanto con probabilidad $p_i=\dfrac{1}{n}$ para todo $i=1,\ldots,n$, la entropía de Shannon alcanza el valor máximo, que, claro está, es $H_{máx}(X)=-n\,(\dfrac{1}{n}\cdot \log_2\cdot \dfrac{1}{n}=\log_b\,n)$. Por consiguiente, la manera en que se encuentra el sistema, $X$, entre un caso extremo y otro, tendremos toda la casuística, y la entropía de Shannon del mismo estará acotada de la forma $0 \le H(X) \le \log_b\,n$.
Cuando la base logarítmica es $b=2$, la unidad de medida de la entropía de Shannon es el shannon o $bit$ de información; si los logaritmos se toman en base $e$, la unidad de medida es el nat; si se toman en base $10$, la entropía es el dit (también llamada hartley o ban, y si se toman los logaritmos en base $3$, la unidad de medida de la entropía es el trit.
Ejemplo
Consideremos un sistema $X$ con cuatro estados posibles ($i=1,2,3,4$) y cuyas respectivas probabilidades son $p_1=\dfrac{1}{3}$, $p_2=\dfrac{1}{4}$, $p_1=\dfrac{2}{5}$ y $p_4=\dfrac{1}{60}$, entonces la entropía de Shannon (expresada en dits) es $H(X)=-\left(\dfrac{1}{3}\cdot \log_{10}\,\dfrac{1}{3}+\dfrac{1}{4}\cdot \log_{10}\,\dfrac{1}{4}+\dfrac{2}{5}\cdot \log_{10}\,\dfrac{2}{5}+\dfrac{1}{60}\cdot \log_{10}\,\dfrac{1}{60}\right)\approx 0,4984\,\text{dit}$, es menor que la entropía máxima $log_{10}\,4\approx 0,6021\, \text{dit}$, como debe ser. Y para expresarla en bits, teniendo en cuenta que $\log_2\,p_i=\dfrac{\log_{10}\,p_i}{\log_{10}\,2}$ para cada $i=1,\ldots,4$, al extraer factor común $\dfrac{1}{\log_{10}\,2}$ en la suma, basta con dividir el resultado obtenido en dits por $\log_{10}\,2$, y obtendremos $H(X)=\dfrac{0,4984}{\log_{10}\,2}=1,6556\,\text{bit}$. $\diamond$