Rev. Téc. Ing. Univ. Zulia. Vol. 40, No. 1, 26-33, 2017


Proposal of a methodology to calculate propagation of a variable statistical error (VEE): applications to well log data and thermocronologic dating

Hely Saúl Socorro Mac-Quhae1, Mauricio A. Bermúdez2

1Escuela de Geología, Minas y Geofísica, Facultad de Ingeniería, Universidad Central de Venezuela. Caracas 1050.

Email: socorroh1@gmail.com

2Facultad de Ciencias Naturales y Matemáticas, Universidad de Ibagué, Colombia


Abstract


The purpose of this research on Basic Statistics is to propose an alternative method to calculate errors based on the data natural variability. Because of the world wide application of the Standard Deviation formula, proposed methodology is defined in a similar manner. This methodology consists in defining an Error Function corresponding to the regression function with maximum Pearson correlation factor of deviation magnitudes, which are defined in relation to a generic model, arithmetic average in this case. Accordingly, firstly deviations are calculated, secondly negative signs are discarded by means of absolute value function, thirdly, to propagate error over the statistical set of samples, regression function with maximum correlation factor is taken as “Error function” and, finally, errors are calculated for each sample. This way, statistical error varies as inverse function to representativeness, more representative samples/observations, which are closer to average have a relative smaller error, less representative samples/observations are associated to greater errors. Proposed methodology is applied to well log and thermocronologic data, the latter experimentally obtained in the laboratory.


Keywords: Error function; Pearson correlation factor; standard deviation; representativeness; regression.


Propuesta de una metodología para el cálculo de la propagación de un error estadístico variable (EEV): aplicaciones a registros de pozos y datación termocronológica


Resumen


El objeto de la presente investigación de estadística básica es proponer un método alternativo para el cálculo de errores tomando en cuenta la variabilidad natural de los datos. Debido a lo universalmente aplicada de la fórmula desviación estándar, la metodología propuesta se define de una manera semejante. La metodología consiste en definir una función error correspondiente a la función de regresión de máximo factor de correlación, tipo Pearson, de las magnitudes de las desviaciones respecto a un modelo genérico, en este caso el promedio aritmético. Así, primeramente, se calculan las desviaciones respecto al promedio aritmético, segundo se descarta el signo negativo, por medio de la función valor absoluto, tercero, con la finalidad de propagar el error sobre el conjunto muestral, se toma la función de regresión de máximo coeficiente de correlación como la “Función error” y, finalmente se calcula la magnitud del error para cada muestra. De esta manera, el error varía según la representatividad, a mayor representatividad, mayor cercanía al promedio, el error es menor, en caso contrario es mayor. La metodología propuesta es aplicada a datos provenientes de registros de pozos y a medidas termocronológicas obtenidas experimentalmente en el laboratorio.

Palabras clave: Función error; factor de correlación de Pearson; desviación estándar; representatividad; regresión.


  1. Introducción


    La propagación del error o propagación de incertidumbres se define como el efecto de variables de incertidumbre de una respuesta obtenida a partir de un cálculo o expresión matemática [1]. Generalmente, este último depende de diferentes medidas o parámetros. Si tales medidas son usadas en los cálculos existe una incertidumbre asociada a las mismas. Socorro [2,3] ha estudiado la forma como el error se propaga para datos de saturación de petróleo, tomando en cuenta los distintos parámetros de la ley de Darcy [4].

    El error estadístico de uso universal es el definido por Karl Pearson y denominado desviación estándar [5,6], éste asocia un único error a todas y cada una de las observaciones o muestras dentro de un conjunto muestral. La desviación estándar se define como la raíz cuadrada positiva de la varianza y se usa para asociar la muestra a su intervalo de error. La desviación estándar muestral viene representada por la siguiente expresión [5,6]:

    n

    usarse una función generalizada para la incertidumbre, la cual es obtenida considerando la aproximación de Taylor [7,8]. En muchas aplicaciones de ingeniería de petróleo y geología no se conoce esa fórmula explícita, sino que esta es obtenida por un conjunto de medidas experimentales en el laboratorio o en el campo, lo cual hace difícil el uso de una expresión similar para estimar el error o propagar la propiedad en el error, a menudo los errores sobre las observaciones poseen cierto grado de incertidumbre ya que podrían depender de factores como tiempo, en estos casos es necesario una metodología para estimar el error o incertidumbre, lo cual constituye el objetivo del presente artículo.


  2. Caso de Estudio: El error estadístico y la representatividad de las muestras


    2a. Posible condición variable del error estadístico básico

    En esta investigación se considera al error estadístico

    como susceptible de variabilidad, desde el punto de vista

    i

    i

    x x

    ^

    2

    prom

    de estadística básica. Se considera que los siguientes

    aspectos ilustran la posibilidad de aceptar un error

    i1

    n 1


    (1)

    estadístico variable: 1) Cuando se tiene un error con

    tendencia definida, opuesta al llamado comportamiento “errático”. Esto es muy común en el error asociado al

    En esta última x , x

    y n representan la i-ésima

    cálculo iterativo, el cual es variable y dicha variación

    i prom

    observación, el promedio de las observaciones y el

    número total de observaciones, respectivamente.

    Matemáticamente se puede expresar así:


    ^

    comúnmente se relaciona con un criterio de convergencia

    previamente definido [9]. 2) El descarte de muestras fuera de rango (outliers): Esto se realiza debido a que las desviaciones muestrales (o residuos) se consideran pertenecientes a un cierto rango representativo, asociado

    i

    i

    i

    i

    f x , x

  3. Metodología propuesta

    S a , a ,+K...+, a


    n

    p x y 2

    n

    n

    a


  4. Aplicaciones y resultados


    4a. Aplicación a registros de pozos y características de yacimientos de petróleo

    i

    i

    i

    i

    EEV x f x , x

    (3)

    Como ejemplo, se usa la relación de la resistividad

    Para definir la función f utilizamos el método de regresión polinomial [7]. Suponiendo que se conocen los datos o duplas (x ,y ), (x ,y ), (x ,y ),…, (x ,y ), con x ,x ,…,x

    total (Rt) y la saturación de petróleo (So). La tabla 1 contiene los valores de profundidad, resistividad total (Rt) y saturación de petróleo (So) de un pozo productor

    0 0 1 1 2 2 n n

    0 1 n

    de petróleo del yacimiento Lagna-05, en el Bloque 70/80,

    números distintos, se desea encontrar un polinomio:

    denominado Pozo A, operado por la empresa mixta de

    pm x a0

    a1 x K...

    m

    m

    con m<n, (4)

    PDVSA Lagopetrol, en el Noreste de la Cuenca del Lago de Maracaibo. Para las saturaciones se usa el modelo

    tal que

    siguiente [10]:



    So + Sw = 1 (5)

    Los valores anteriormente mencionados de la tabla 1 se usaron para calcular el EEV objeto de esta investigación, así como la proporción de la muestra que representa el error y su comparación con la desviación estándar. Para estos datos el valor de la desviación estándar es 4,713 y la So promedio es de 56,64. Cabe mencionar que las variables Rt y So presentan un excelente coeficiente de correlación (r = 0,998), por medio de un polinomio de 2° grado (y=-0,0512x2 + 3,783x con R2=1). En la figura 1, se muestran las magnitudes de las desviaciones calculadas


    y la curva de regresión polinomial asociada, la cual tiene grado 2 y también una correlación excelente (r = 0,95), también se incluye la desviación estándar. El EEV se hace mínimo alrededor del valor promedio (So promedio = 56,6%) y máximo en la muestra u observación más alejada del promedio. Estos valores de la función error calculados son en su mayoría menores a la desviación estándar (σ=4,713), esto hace que representen una proporción menor de la muestra y un intervalo de error menor: 6,51

    % para el EEV y 8,38 % para la desviación estándar (Ver tabla 1).


    Tabla 1

    Parámetros calculados para la estimación del EEV y su comparación con la desviación estándar (* Indica que se estima como porcentaje de la muestra)


    #

    Prof. Med.

    Rt (Ω-m)

    So (%)

    Desv. So

    EEV

    %EEV*

    %Desv. est*

    1

    4780,5

    19,69

    52,69

    -3,9536

    2,7353

    5,19

    8,94

    2

    4781

    21,15

    54,75

    -1,8936

    1,7531

    3,20

    8,61

    3

    4781,5

    23,32

    57,31

    0,6664

    1,6820

    2,93

    8,22

    4

    4782

    24,63

    58,53

    1,8864

    2,0964

    3,58

    8,05

    5

    4782,5

    26,78

    60,4

    3,7564

    3,2932

    5,45

    7,80

    6

    4783

    28,79

    61,92

    5,2764

    4,7668

    7,70

    7,61

    7

    4783,5

    28,76

    61,78

    5,1364

    4,6123

    7,47

    7,63

    8

    4784

    26,46

    59,74

    3,0964

    2,7931

    4,68

    7,89

    9

    4784,5

    23,64

    57,05

    0,4064

    1,6311

    2,86

    8,26

    10

    4785

    19,82

    52,41

    -4,2336

    2,9325

    5,60

    8,99

    11

    4785,5

    16,27

    46,5

    -10,1436

    10,6507

    22,90

    10,14

    Promedios

    6,51

    8,38



    Figura 1. Magnitud de las desviaciones y regresión

    polinomial asociada (r=0,95)

    4a-1. Consideración de la mediana en vez

    del promedio aritmético

    Al tomar como fuente del error estadístico la desviación respecto a la mediana los resultados obtenidos fueron son muy similares: El EEV es en la mayoría de los casos menor a la desviación estándar y representa en promedio, un porcentaje menor de las muestras. Los valores mínimos se dan en las cercanías de la mediana, mientras que los valores máximos están en las muestras más alejadas. También la función del EEV resultó bastante similar, con un factor de correlación casi idéntico.

    4a-2. Consideración de la moda en lugar del

    promedio aritmético

    En el caso de la moda la consideración es más difícil ya queningúnvalordelporcentajede Soserepite(Vertabla 1), sin embargo la aproximación a números enteros conlleva la aparición de observaciones con más de una ocurrencia. Dicha distribución es polimodal con 2 ocurrencias para


    los valores 57, 60 y 62, entre estos valores 57 se acerca al promedio y las desviaciones reflejarían al error pero 60 y 62 se acercan al máximo y las desviaciones no serían relevantes para el error básico.

    4b. Aplicación a datación termocronológica

    La edad del último evento tectónico ocurrido en un área, por el método de datación de trazas de fisión en su modalidad de detector externo es de acuerdo a [11]:


    (6)

    por el método de datación absoluta K-Ar, dicha edad es de 31,4 ± 0,5 Ma. Los resultados obtenidos de estas dataciones y el error estadístico asociado (σ y EEV) se muestran en la tabla 2. Las magnitudes de las desviaciones de dichos cálculos y la regresión polinómica asociada (Función Error con r=0,977) se muestran en la figura 2.

    A cada datación realizada a la muestra de apatito le corresponden 2 rangos de error (uno para σ y uno para EEV). Esta información se presenta en la figura 3. Puede observarse que a la desviación estándar le corresponde un intervalo constante para todas las muestras u observaciones y, en el caso del EEV, se observa un intervalo de error relativamente menor para las muestras más

    α

    α

    Donde λ

    = Constante de decaimiento por emisión de

    cercanas al promedio y uno relativamente mayor para las

    s

    s

    i

    i

    partículas alfa = 1,55125 x 10-10 años-1, N = Número de trazas espontáneas, N = Número de trazas inducidas, Z = Factor de

    más alejadas (Prom = 30,68). El cálculo de la proporción

    que representan para las muestras la σ y el EEV arrojó

    m

    m

    observación derivada del estándar y ρ

    en el vidrio o monitor.

    = Densidad de trazas

    como resultado que en promedio los errores variables

    (EEV) representan un porcentaje menor de las muestras

    La ecuación se aplicó a un conjunto de datos del

    estándar Apatito de Durango, del cual se conoce la edad


    Tabla 2

    u observaciones con respecto a la desviación estándar

    (31,29 % vs. 34,37 %).

    Datos de trazas de fisión medidas en una muestra de Apatito Durango, cálculo de la edad y del error estadístico asociado.


    #

    Ns

    Ni

    Ns/Ni

    t

    Desviación

    Magnitud de

    la desviación

    EEV

    Desviación

    estándar

    1

    8

    35

    0,229

    35,11

    4,43

    4,43

    2,84

    9,22

    2

    9

    42

    0,214

    32,93

    2,24

    2,24

    2,09

    9,22

    3

    10

    38

    0,263

    40,41

    9,73

    9,73

    7,90

    9,22

    4

    14

    69

    0,203

    31,18

    0,50

    0,50

    1,98

    9,22

    5

    17

    73

    0,233

    35,77

    5,09

    5,09

    3,21

    9,22

    6

    16

    59

    0,271

    41,64

    10,96

    10,96

    9,80

    9,22

    7

    13

    49

    0,265

    40,74

    10,06

    10,06

    8,38

    9,22

    8

    7

    47

    0,149

    22,90

    -7,78

    7,78

    6,26

    9,22

    9

    9

    58

    0,155

    23,86

    -6,83

    6,83

    5,43

    9,22

    10

    11

    56

    0,196

    30,19

    -0,50

    0,50

    2,10

    9,22

    11

    10

    62

    0,161

    24,80

    -5,89

    5,89

    4,69

    9,22

    12

    7

    60

    0,117

    17,95

    -12,74

    12,74

    11,54

    9,22

    13

    10

    43

    0,233

    35,73

    5,04

    5,04

    3,18

    9,22

    14

    9

    37

    0,243

    37,36

    6,68

    6,68

    4,39

    9,22

    15

    12

    53

    0,226

    34,78

    4,10

    4,10

    2,68

    9,22

    16

    3

    38

    0,079

    12,15

    -18,53

    18,53

    19,00

    9,22

    17

    11

    47

    0,234

    35,95

    5,27

    5,27

    3,33

    9,22

    18

    8

    42

    0,190

    29,28

    -1,41

    1,41

    2,31

    9,22

    19

    8

    43

    0,186

    28,60

    -2,09

    2,09

    2,54

    9,22

    20

    13

    66

    0,197

    30,27

    -0,41

    0,41

    2,08

    9,22

    21

    14

    52

    0,269

    41,34

    10,66

    10,66

    9,31

    9,22

    22

    13

    46

    0,283

    43,39

    12,70

    12,70

    13,03

    9,22

    23

    4

    50

    0,080

    12,31

    -18,37

    18,37

    18,78

    9,22

    24

    5

    55

    0,091

    13,99

    -16,70

    16,70

    16,56

    9,22

    25

    11

    49

    0,224

    34,49

    3,80

    3,80

    2,55

    9,22


    Figura 2. Magnitudes de las desviaciones y regresión polinomial asociada


    Edad calculada

    Edad calculada


    Figura 3. Intervalos de error asociado a las dataciones de la muestra de apatito,

    según el cálculo de la desviación estándar y del EEV.


  5. Discusión de resultados


    Desde el punto de vista de la estadística básica, se considera apropiado que en ciertos casos, el error estadístico pueda calcularse tanto por la Desviación Estándar como por el EEV, ya que la variación del error se considera consistente con la interpretación de datos estadísticos. El error estadístico se define con base en las desviaciones y a éstas, generalmente, se les reconoce un rango de variación aceptable, lo cual asocia variabilidad a la fuente del error. Esto puede constatarse cuando se realiza el análisis de las desviaciones durante el descarte de una muestra por estar fuera de rango. La variabilidad del error estadístico básico como condición posible, puede verse también cuando al error se le reconoce una tendencia definida, como por ejemplo cuando se realiza un cálculo iterativo hasta que el resultado es consistente con el criterio de convergencia [9].

    Al aplicar la metodología expuesta se obtiene un error estadístico que es relativamente menor en los valores cercanos al promedio aritmético y relativamente mayor en los valores que difieren más de dicho promedio. Esta variabilidad también se considera apropiada ya que se obtiene entonces que las muestras más representativas del conjunto muestral, resultan con un error estadístico relativamente menor y las menos representativas de dicho conjunto resultan con un error estadístico relativamente mayor. Las mismas observaciones se realizaron cuando se consideró la mediana en lugar del promedio aritmético.

    El análisis de los ejemplos expuestos muestra además que para el conjunto muestral el EEV, objeto de esta investigación, representa en promedio un porcentaje menor de las muestras y, en el caso de la muestra de termocronología los resultados se encuentran dentro de los límites aceptados: Para la muestra más cercana al promedio, la muestra 20, la edad datada es 30,27 ± 1,04 Ma (EEV=2,08) para el Apatito de Durango de edad 31,4

    ± 0,5 Ma. Los límites EEV son de 31,31 y 29,23 Ma y la edad K/Ar va de 31,9 a 30,9 Ma. Si se determina el error estadístico con la desviación estándar, en cambio, la edad datada es 30,27 ± 4,61 (σ=9,22), con rango de 34,88 a 25,66 Ma (Ver tabla 2).


  6. Conclusiones y recomendaciones


  1. Se considera apropiado incluir entre las características básicas de un conjunto muestral el grado de representatividad, el cual debe ser consistente con las otras características básicas, incluyendo al error estadístico.

  2. Considerando que el grado de representatividad de las muestras varía desde el grado máximo de la muestra que representa al conjunto hasta un grado mínimo,

    presente en las muestras posiblemente descartables, se considera además conveniente que el error estadístico pueda presentar en ciertos casos variabilidad, desde el punto de vista de la estadística básica.

  3. Considerando que el error estadístico de uso universal es la desviación estándar y que ésta se define por un valor asociado a una tendencia central constante, se considera factible el uso del EEV como opción variable del error estadístico básico. Este EEV se aplica al conjunto de las desviaciones, después de descartar los signos negativos por medio del uso de la función valor absoluto y según los casos analizados, está constituido por la función de regresión polinomial de máximo factor de correlación tipo Pearson.

  1. La función EEV permite estimar la forma como un error se propaga a lo largo de un conjunto de observaciones o muestras. Esta función puede ser usada para imponer condiciones máximas y mínimas a un conjunto o patrón con propiedades similares. Es decir, se espera que la función EEV pueda ser utilizada para imponer rangos. Por ejemplo, en la predicción de litologías, esto debería ser incorporado y analizado a futuro.

  2. El EEV asigna a las muestras más representativas un error relativamente menor y a las muestras menos representativas un error relativamente mayor.

6. Por lo anteriormente expuesto se recomienda considerar el posible uso del EEV para los casos de inconsistencia entre la representatividad variable de las observaciones o muestras y la aplicación de un valor único de error estadístico para todas y cada una de las observaciones o muestras. En las aplicaciones de la metodología acá presentada, las muestras son obtenidas en una primera fase y todo el análisis es realizado a posteriori, en el caso de incorporar nuevas muestras es importante realizar una comparación entre los resultados a priori, los que se tenían antes de incorporar las nuevas muestras y los análisis a posteriori, y analizar la influencia de la propagación del error sobre las nuevas mediciones mediante la aplicación de un test estadístico a fin de evitar sesgar el análisis.


7. Agradecimientos


Agradecemos a la empresa mixta de PDVSA Lagopetrol por haber suministrado parte de los datos y el permiso para la publicación de la información suministrada en este trabajo. Al financiamiento proporcionado por el proyecto GIAME-FUNVISIS. Al Proyecto 15-377-INT de la Universidad de Ibagué. Así mismo, agradecemos al Dr. Pedro Alson y a dos árbitros anónimos por los comentarios y explicaciones que ayudaron a mejorar la presente investigación.


8. Referencias Bibliográficas


[1] Goodman, L.: “On the Exact Variance of Products”, Journal of the American Statistical Association Vol. 55, No 292 (1960) 708-713. doi:10.2307/2281592.

[2] Socorro H. “Revisión de la ley de Darcy original”. Presentado ante el IX Congreso Geológico Venezolano, 2007.

[3] Socorro H.: “The United States Copyright Office”, Certificado de Registro TXu 1-751-835. (2010).

[4] Darcy H. : “Les fontaines publiques de la ville de Dijon’’, Victor Dalmont, Paris, 1856.

[5] Walpole R. y Myers R.: “Probabilidad y Estadística”.

McGraw-Hill., 1993.

[6] Sekander H.K.M.: “Standard deviation”.Miodrag Lovric (ed), International Encyclopedia of Statistical Science. Springer, Berlín, Alemania. (2014) 1378-

1379.

[7] Kendall, M., & Stuart, A.: “The Advanced Theory of Statistic, Distribution Theory”, Charles Griffin & Company Limited, London, Vol. 1. (1958) 433.

[8] Tellinghuisen, J. “Statistical Error Propagation”. J. Phys. Chem. A, 105, (2001) 3917-3921.

[9] Hagan M.T., Demuth, H.B., Beale, M.H., and De Jesús, O.: “Neural Network Design” Second edition, Oklahoma State University Ebook, (2014). 1012.

[10] InvDFG.: “Informe Técnico Final. Estudio Integrado de Yacimientos para la Generación del Modelo Estático del Mioceno para el Bloque 70/80. Yacimiento LAGNA 05”, Informe Interno Lagopetrol,

S. A, Maracaibo, (2009).

[11] Bermúdez M.A., Alson, P., y Mora, J.L. “Equivalencia entre las diversas fórmulas del cálculo de errores de la edad determinada por el método de huellas de fisión”. Rev. Fac. Ing. UCV, Vol. 19, No. 1 (2004) 119-

123.


Recibido el 17 de enero de 2016

En forma revisada el 16 de enero de 2017


REVISTA TECNICA

DE LA FACULTAD DE INGENIERIA UNIVERSIDAD DEL ZULIA


Vol. 40. N°1, Abril 2017


Esta revista fue editada en formato digital y publicada en Abril de 2017, por el Fondo Editorial Serbiluz, Universidad del Zulia. Maracaibo-Venezuela


www.luz.edu.ve www.serbi.luz.edu.ve produccioncientifica.luz.edu.ve