四种坐标函数对流式细胞术数据可视化的影响

2015-04-18 02:38杜庆华李庆山许艳丽
海南医学 2015年15期
关键词:对数线性运算

杜庆华,李庆山,许艳丽

(广州医科大学附属广州市第一人民医院血液内科,广东 广州 510180)

四种坐标函数对流式细胞术数据可视化的影响

杜庆华,李庆山,许艳丽

(广州医科大学附属广州市第一人民医院血液内科,广东 广州 510180)

目的 研究流式细胞术数据可视化中四种常见坐标函数的特点,探讨这四种坐标函数在数据可视化中的应用。方法对比分析线性、对数、HyperLog以及Logical四个坐标函数曲线的特点,使用不同坐标函数对同一个数据使用散点图进行显示,对比图形显示的差异。结果线性函数对数据呈等比例显示,但动态范围不足。对数函数能拉伸1附近的数值,压缩显示数值大的数值,但不能显示小于1的值。HyperLog与Logical函数数值小的时候近似线性显示,数值大时近似对数显示。结论不同的坐标函数有不同的特点,在进行流式细胞术数据分析时,要根据需要选择相应的坐标函数进行显示。

流式细胞术;坐标函数;数据可视化

数据可视化是流式细胞术数据分析中的一个重要环节,数据通过图形显示,然后才能通过设门操作进行进一步分析。流式数据的显示样式有直方图、散点图、等高图或者密度图等。每个细胞的荧光强度数据要在图中显示均需要通过坐标函数计算其位置,因此坐标函数的选择会直接影响图形的形状。流式细胞术中常用的坐标有线性坐标、对数坐标以及其他对数衍生的坐标。由于细胞表面及内部分子表达的差异很大,这些数据很难通过线性坐标显示[1-2],因此一直以来使用流式细胞术进行免疫表型分析基本都使用对数坐标以显示数据。但因为对数无法恰当地显示小于1的数据,故Bagwell及Parks建议使用对数衍生函数进行坐标转换[3-4]。而这些坐标函数间特性的比较暂时未见详细报道。本文将深入探讨不同坐标函数的特点,为坐标函数的选择提供指引。

1 材料与方法

1.1 仪器及软件 流式细胞仪为FACS Canto (美国BD公司),数据为常规淋巴细胞亚群临床检测的流式数据,软件使用本实验室自行研发的流式数据分析软件CFCS(软件著作权登记号:2010SR064983)。

1.2 方法

1.2.1 函数曲线的绘制 对数函数及其反函数为:

其中r为数据的分辨率,d为动态范围的数量级。HypherLog为隐函数[3],故仅能写出其反函数:

因此在进行HypherLog函数运算时,必须通过其反函数进行求根运算。函数中b为相关系数,是影响线性范围与对数范围的参数。当b=0时曲线最接近对数[3]。

Logical与HypherLog同样是隐函数[4-5],其反函数为:

其中M为图形显示宽宽的数量级,而W=2p log (p)/(p+1),为线性范围的宽度,其值可以根据以下公式求出:

其中n为负值范围参考点的值。

1.2.2 坐标函数曲线的绘制 使用MATLAB7.0绘制线性、对数函数、HyperLog函数以及Logical函数的函数曲线。

1.2.3 不同坐标函数对图形的影响 同一个数据在CFCS上分别使用线性坐标、对数坐标、HyperLog以及Logical显示,并对比四者图形的区别。

2 结果

2.1 不同的坐标函数曲线的特点 从函数曲线发现线性坐标能显示整个实数域的数据,且具有对称性。因其等比例的特性,当数据动态范围较大时会使数值小的数据被压缩,造成显示效果不佳。对数坐标能保证数值小数据的显示空间,但其缺点是仅仅能显示≥1的数据,对于<1的数值全按0来处理。HyperLog与Logical能显示实数域的数据,且二者在数值较小的时候函数曲线接近线性,在数值较大的时候接近对数曲线(见图1)。

图1 线性、对数、HyperLog以及Logical的函数曲线

2.2 不同的坐标函数对流式数据显示的影响 通过使用不同坐标显示相同的免疫荧光数据,发现线性坐标显示时细胞群体往往聚集在数轴的一端,难以对群体进行区分。对数坐标显示免疫荧光实验的数据时,细胞群体分布比较清晰,但是进行多色荧光分析进行补偿后,有8%的细胞堆叠在基线上,造成视觉误差,容易对分析结果造成影响。Logical与HypherLog两者显示效果无显著差异,均能很好地控制堆叠在基线上细胞的数量,细胞群体分布清晰,补偿后群体离散程度较对数坐标明显(见图2)。

图2 使用4种坐标函数对同一个数据生成散点图的比较

3 讨论

线性坐标就是把数据直接按比例显示在图形上,其优点是简单直接,能显示实数域的所有数据,一般用于DNA含量的的测定,如细胞周期分析。但细胞表面分子表达情况差异相当大,需要极宽的动态范围才能显示这类型的数据,而且这类型的数据低荧光强度群体离散程度小并近似正态分布,高荧光强度群体离散程度大接近对数正态分布。线性坐标显示动态范围宽的数据时,会压缩数值小数据的显示范围,造成细胞群体往往聚集在数轴的一端。而对数坐标能拉伸数值小数据的显示范围,压缩数值大的数据,拥有较宽的动态范围,因此对数坐标比线性坐标更适合显示免疫荧光的数据。但是对数坐标的缺陷是无法对<1的值进行变换,因此一般对于<1的值转换为0。

在实际应用中为了消除通道间的荧光渗漏,往往需要对数据进行补偿运算,该运算是多个通道间的减法运算。运算过程中会把某一通道的检测误差引入到其他通道中,因此会造成数据离散增大,如果细胞群体被影响通道的荧光强度较低时,数据的离散将造成<1甚者负值数据的产生,这些数据在对数坐标中堆叠在基线下,使该处细胞密度异常增高,造成假群体的产生[4,6]。从图2中我们可看到8%的细胞堆在x坐标上。如果设门分析时忽略了这些细胞,将对结果造成一定的影响。为了克服对数坐标的这些缺陷,Parks提出理想的坐标函数应具备以下特点:(1)函数可对不同的数据进行显示的优化;(2)为了提供足够宽的动态范围,更好地显示高荧光强度的对数正态分布数据,函数应在随数值增大逼近对数曲线;(3)函数应在接近0的区域对称并近似线性分布,这样更适合显示低荧光强度正态分布的数据;(4)线性区域应尽可能平滑地向对数区域过渡,以避免扭曲地显示数据;(5)线性化强度应随线性范围增大而增大[4]。

Bagwell及Parks分别提出了HypherLog与Logical函数。这两个函数的特点是能显示负值的数据,且小数值区域接近线性分布,高数值区接近对数分布,且线性区与对数区能平滑过渡。在实际显示中通过HypherLog及Logical两个坐标与对数坐标比较,发现对于荧光强度大的细胞群体差异不大。HypherLog及Logical两个坐标下,荧光强度低的群体比对数坐标更趋于聚集,更重要的是这两个坐标下能显示对数坐标不能显示的数值<1的值。此外,HypherLog及Logical能识别一些因过补偿而造成细胞群体落在坐标轴上的数据,并将之显示出来。不同数据<0的值往往是不一样的,故HypherLog与Logical需要适当调整参数使得数据能恰当地显示。HypherLog通过相关系数b来控制线性区的斜率,b越大线性区域越宽,b为0时曲线最接近对数曲线。但Bagwell发现b太小会使阴性区域的原来为一群的群体在视觉上分裂为两个,因此使用时要注意b的取值。Logical使用负值大小作为参数对曲线的先行范围进行控制,通过公式5计算W的值,-W与W之间即为线性区域。

HypherLog的二阶导数不为0而Logical为0,因此在0附近Logical比HypherLog更接近线性,且更快靠近对数曲线。从图2实际显示中看,这差异并不会对数据显示分析造成很大的影响。

由于不同的参数会对显示效果造成一定影响,因此HypherLog与Logical两个函数的稳定性不如对数。当进行表达模式分析(如白血病免疫学分型)的时候,细胞群体的位置及走向是极其重要的信息。当数据中含有个别极端数值时,要将其恰当显示则需要调整HypherLog及Logical函数的参数,细胞群体的形状及位置可能因此而发生扭曲改变(特别是荧光强度低的群体),容易导致分析错误。

对数函数能直接运算得到结果,而HypherLog与Logical无法显式写出其函数形式而无法直接进行运算,因此必须对方程进行求根运算。在分析软件中,一般使用牛顿迭代法进行求根运算,运算结果的精度随迭代次数增加而增加。HypherLog与Logical二者运算效率远低于对数运算。Logical运算的复杂程度大于HypherLog,故其运算效率最低。在进行大数据量的分析时我们可以预先建立一个函数表,进行运算时可通过二分查找法进行检索,从而极大地提高运算的效率。

变异范围小和正态分布的数据(如细胞周期分析)宜使用线性坐标显示。免疫荧光这类动态范围大的数据不宜使用线性显示。如果这类数据无需考虑群体形状走势等信息,仅仅进行群体划分,则直接使用HypherLog或Logical进行显示设门即可。如果需要进行表达模式分析,建议先使用对数显示以了解群体分布情况,再使用HypherLog或Logical进行设门,以避免负值数据的丢失。总之,不同的坐标函数有其不同的特性,对数据的显示及分析有着重要的影响。因此我们必须对不同坐标函数的特性有所了解,分析时使用不同的坐标函数显示数据,才能对数据有更全面的认识,以避免坐标函数选择不当而造成的视觉误差,进而影响分析结果。

[1]Muirhead KA,Schmitt TC,Muirhead AR.Muirhead,determination of linear fluorescence intensities from flow cytometric data accumulated with logarithmic amplifiers[J].Cytometry,1983,3(4):251-256.

[2]Watson JV,Chambers SH,Smith PJ.A pragmatic approach to the analysis of DNA histograms with a definable G1 peak[J].Cytometry,1987,8(1):1-8.

[3]Bagwell CB.Hyperlog-a flexible log-like transform for negative,zero,and positive valued data[J].CytometryA,2005,64(1):34-42.

[4]Parks DR,Roederer M,Moore WA.A new"Logicle"display method avoids deceptive effects of logarithmic scaling for low signals and compensated data[J].CytometryA,2006,69(6):541-551.

[5]Moore WA,Parks DR.Update for the logicle data scale including operational code implementations[J].Cytometry A,2012,81(4): 273-277.

[6]Finak G,Perez JM,Weng A,et al.Optimizing transformations for automated,high throughput analysis of flow cytometry data[J]. BMC Bioinformatics,2010,11:546.

Effects of four scaling functions on flow cytometry data visualization.

DU Qing-hua,LI Qing-shan,XU Yan-li.
Department of Hematology,Guangzhou First People's Hospital,Guangzhou Medical University,Guangzhou 510180, Guangdong,CHINA

ObjectiveTo explore the features of four scaling functions,and investigate the selection of 4 scaling functions in data visualization for flow cytometry.MethodsWe compared the features of 4 function curves, and dot plots from a same data file in 4 different scaling functions.ResultsLinear function displays data in a manner of proportion,but it is insufficient in dynamic range.Logarithmic function can stretch displaying the data value near zero,and can compress displaying the large data value,but it can not display data value less than zero.HyperLog and Logical function can display small data value similar to linear distribution,and display large data value similar to near logarithm.ConclusionThere are different features in different scaling functions.We should choose correct scaling function to display in data analyzing of flow cytometry.

Flow cytometry;Scaling function;Data visualization

R446

A

1003—6350(2015)15—2259—03

10.3969/j.issn.1003-6350.2015.15.0814

2015-03-02)

2013年广东省自然科学基金(编号:S2013010016726)

李庆山。E-mail:qingshanli@hotmail.com

猜你喜欢
对数线性运算
渐近线性Klein-Gordon-Maxwell系统正解的存在性
重视运算与推理,解决数列求和题
含有对数非线性项Kirchhoff方程多解的存在性
指数与对数
线性回归方程的求解与应用
指数与对数
有趣的运算
二阶线性微分方程的解法
对数简史
“整式的乘法与因式分解”知识归纳