学科分类
/ 1
20 个结果
  • 简介:基因子集选择为microarray数据的分类和分析是必要的。然而,自从基因表示数据,基因选择被知道是一项很困难的任务不仅有高维数,而且包含冗余的信息和噪音。应付这些困难,这份报纸介绍基于的预处理途径二个主要步骤填写了的模糊逻辑。首先,我们使用模糊推理规则把给定的数据集的基因表达式层次转变成模糊的值。然后,我们把一种类似关系用于这些模糊价值定义模糊等价组,包含强烈类似的基因的每个组。尺寸减小被基于相互的信息为每组类似的基因考虑一个单个代表完成。为了估计这的实用性,来临,广泛的试验用三个统计过滤器和三个分类器与一个联合分类模型一起在三著名公共数据集上被执行。

  • 标签: 模糊程序 基因选择 降维 生物信息
  • 简介:Inviewofpotentialapplicationtobiomedicaldiagnosis,tighttranscriptomedataqualitycontroliscompulsory.Usually,qualitycontrolisachievedusinglabelingandhybridizationcontrolsaddedatdifferentstagesthroughouttheprocessingofthebiologicRNAsamples.Thesecontrolmeasures,however,onlyreflecttheperformanceoftheindividualtechnicalmanipulationsduringtheentireprocessandhavenobearingastothecontinuedintegrityoftheRNAsampleitself.Herewedemonstratethatintrinsicstatisticalpropertiesoftheresultingtranscriptomedatasignalandsignal-variancedistributionsandtheirinvariancecanbeidentifiedindependentlyoftheanimalspeciesstudiedandthelabelingprotocolused.Fromtheseinvariantpropertieswehavedevelopedadatamodel,theparametersofwhichcanbeestimatedfromindividualexperimentsandusedtocomputerelativequalitymeasuresbasedonsimilaritywithlargereferencedatasets.Thesequalitymeasuresaddsupplementary,non-redundantinformationtostandardqualitycontrolestimatesbasedonspike-inandhybridizationcontrols,andareexploitableindataanalysis.AsoftwareapplicationforanalyzingdatasetsaswellasareferencedatasetforAB1700arraysareprovided.TheyshouldallowAB1700userstoeasilyintegratethismethodintotheiranalysispipeline,andmightinstigatesimilardevelopmentsforothertranscriptomeplatforms.

  • 标签: 质量评估 转录组 统计特性 数据质量控制 生物医学诊断 样品处理
  • 简介:Itiswidelyrecognizedthatexchange,distribution,andintegrationofbiologicaldataarethekeystoimprovebioinformaticsandgenomebiologyinpost-genomicera.However,theproblemofexchangingandintegratingbiologicaldataisnotsolvedsatisfactorily.TheeXtensibleMarkupLanguage(XML)israpidlyspreadingasanemergingstandardforstructuringdocumentstoexchangeandintegratedataontheWorldWideWeb(WWW).WebserviceisthenextgenerationofWWWandisfoundedupontheopenstandardsofW3C(WorldWideWebConsortium)andIETF(InternetEngineeringTaskForce).ThispaperpresentsXMLandWebServicestechnologiesandtheiruseforanappropriatesolutiontotheproblemofbioinformaticsdataexchangeandintegration.

  • 标签: 网络服务 XML语言 XSL语言 基因生物学 技术交流 数据共享
  • 简介:许多微数组研究的目的是发现在象处理类型或样品显型那样的基因表示和样品特征之间的协会。在那里,努力的巨浪为描出一直在开发不同方法协会。除了微数组数据的高维数,一很好公认的挑战是基因能复杂地被互连的事实,因此使许多统计方法不恰当在表达式数据上直接使用。Multivariate方法象主要部件分析(PCA)那样并且聚类经常被用作捕获基因关联的努力的部分,并且导出的部件或簇被用来描述在基因表示和样品显型之间的协会。我们建议一个方法因为用格言联盟者的耐心的人口dichotomization与PCA方法在联合选择了测试统计,它显示出有利结果。建议方法与一个当前认出得好的方法相比。

  • 标签: 生存监测 基因表达 研究方法 生物
  • 简介:Inthisstudy,wepresentapreprocessingmethodforquadrupoletime-of-flight(Q-TOF)tandemmassspectratoincreasetheaccuracyofdatabasesearchingforpeptide(protein)identification.Basedonthenaturalisotopicinformationinherentintandemmassspectra,weconstructadecisiontreeafterfeatureselectiontoclassifythenoiseandionpeaksintandemspectra.Furthermore,werecognizeoverlappingpeakstofindthemonoisotopicmassesofionsforthefollowingidentificationprocess.Theexperimentalresultsshowthatthispreprocessingmethodincreasesthesearchspeedandthereliabilityofpeptideidentification.

  • 标签: 光谱测定 缩氨酸 鉴别诊断 数据库
  • 简介:我们从基因表示数据为肿瘤分类建议一个新方法,它主要包含三步。第一,原来的DNAmicroarray基因表达式数据被独立部件分析(集成通信适配器)建模。第二,集成通信适配器提取的大多数判别式eigenassays被顺序的漂浮的前面的选择技术选择。最后,支持向量机器被用来分类当模特儿的数据。显示出建议方法的有效性,我们使用了它分类包含各种各样的人的正常和肿瘤织物样品的三DNAmicroarray数据集。试验性的结果证明方法有效、可行。

  • 标签: 独立组分分析 特征选择 支持向量原理 基因表达数据
  • 简介:技术显著地改进了定序产量并且减少的下一代的定序的出现(NGS)花费。然而,短读的长度,副本读并且数据的巨大的体积使处理的数据比归化为美国人的定序技术更困难、复杂。尽管有包裹开发了估计数据质量的某软件,那些包裹任何一个不对用户容易可得到或要求生物信息学技巧和计算机资源。而且,当前可得到的几乎所有优秀评价软件当在NGS数据处理副本评价时,考虑定序的错误。这里,我们在场一个新用户友好的优秀评价软件包裹叫了BIGpre,它为Illumina和454个平台工作。BIGpre包含另外的优秀评价软件的所有函数,例如关联在之间前面、反向读,读GC内容分发,和基础N质量。更重要地,BIGpre合并联系程序检测并且搬迁副本在订定序错误进报道并且整修低质量以后读也从未加工的数据读。BIGpre首先在Perl被写并且从统计包裹R集成图形的能力。这个包裹为从Illumina和454个平台定序数据集生产数据质量的平坦、图形的摘要。处理几百百万在分钟以内读,这个包裹提供立即的诊断信息让用户操作为下游的分析定序数据。BIGpre在http://bigpre.sourceforge.net是自由地可得到的。

  • 标签: 质量评估 序数 测序技术 数据读取 用户操作 数据处理
  • 简介:Expressedsequencetags(ESTs)arewidelyusedingenesurveyresearchtheseyears.TheESTPipelineSystem,softwaredevelopedbyHangzhouGenomicsInstitute(HGI),canautomaticallyanalyzedifferentscalarESTsequencesbysuitablemethods.Alltheanalysisreports,includingthoseofvectormasking,sequenceassembly,geneannotation,GeneOntologyclassification,andsomeotheranalyses,canbebrowsedandsearchedaswellasdownloadedintheExcelformatfromthewebinterface,savingresearcheffortsfromroutinedataprocessingforbiologicalrulesembeddedinthedata.

  • 标签: 表达序列标签 管道系统 信号加工 EST
  • 简介:象从应用Biosys-tems的AB1700站台那样的新奇微数组技术在信号答应重要增加为微弱地表示的抄本的动态范围和更高的敏感。我们把AB1700数据的一个代表性的集合与同样代表性的AffymetrixHG-U133A数据集作比较。AB1700设计扩大信号在由一个数量级的更低的界限的动态察觉范围。这些高敏感的数据的日志正常信号分发侧面需要被二独立分布表示。另外的秒分发盖住将用Affymetrix技术变未被发现的那些抄本。在AB1700数据的信号依赖者变化分发是信号紧张的重要功能,用合成功能可记述。这些高敏感的transcriptome侧面的急速地不同的结构要求改编或甚至标准微数组分析方法的重新开发。基于统计性质,我们为为如此的开发是必要的AB1700数据导出一个信号变化分发模型。有趣地,在AB1700数据观察的双木头正常分发反映抄写开始的二根本上不同的生物学的机制。

  • 标签: 高灵敏度 转录组学 数据结构 生物翻译 微阵列分析
  • 简介:构造生物网络是在系统生物学的最重要的问题之一。然而,手工地从数据构造一个网络拿一可观大量时间,因此,一个自动化过程被倡导。自动化网络建设的过程,在这个工作,我们使用二种聪明的计算技术,基因编程和神经计算,推断使用连续变量的二种网络模型。验证介绍途径,实验被进行了,初步的结果证明两条途径能被用来成功地推断网络。

  • 标签: 逆向工程 系统建模 遗传性 循环神经网络 表达数据
  • 简介:AhybridGA(geneticalgorithm)-basedclustering(HGACLUS)schema,combiningmeritsoftheSimulatedAnnealing,wasdescribedforfindinganoptimalornear-optimalsetofmedoids.Thisschemamaximizedtheclusteringsuccessbyachievinginternalclustercohesionandexternalclusterisolation.TheperformanceofHGACLUSandothermethodswascomparedbyusingsimulateddataandopenmicroarraygene-expressiondatasets.HGACLUSwasgenerallyfoundtobemoreaccurateandrobustthanothermethodsdiscussedinthispaperbytheexactvalidationstrategyandtheexplicitclusternumber.

  • 标签: 混合遗传法则 基因表达 HGACLUS 基因序列 基因突变 染色体重组
  • 简介:Microarrayhasbecomeapopularbiotechnologyinbiologicalandmedicalresearch.However,systematicandstochasticvariabilitiesinmicroarraydataareexpectedandunavoidable,resultingintheproblemthattherawmeasurementshaveinherent"noise"withinmicroarrayexperiments.Currently,logarithmicratiosareusuallyanalyzedbyvariousclusteringmethodsdirectly,whichmayintroducebiasinterpretationinidentifyinggroupsofgenesorsamples.Inthispaper,astatisticalmethodbasedonmixedmodelapproacheswasproposedformicroarraydataclusteranalysis.TheunderlyingrationaleofthismethodistopartitiontheobservedtotalgeneexpressionlevelintovariousvariationscausedbydifferentfactorsusinganANOVAmodel,andtopredictthedifferentialeffectsofGV(genebyvariety)interactionusingtheadjustedunbiasedprediction(AUP)method.ThepredictedGVinteractioneffectscanthenbeusedastheinputsofclusteranalysis.Weillustratedtheapplicationofourmethodwithageneexpressiondatasetandelucidatedtheutilityofourapproachusinganexternalvalidation.

  • 标签: 聚类基因 基因表达 微分结构 互感作用 基因多样性
  • 简介:识别蛋白质的细胞的本地化是的潜水艇在基因产品的功能的注解特别地有用。在这研究,我们使用机器学习和探索数据分析(EDA)技术检验并且描绘在九细胞的分隔空间局部性的人的蛋白质的氨基酸序列。代表人的蛋白质的3,749个蛋白质序列的数据集从SWISS-PROT数据库被提取。特征向量被创造捕获特定的氨基酸顺序特征。相对一台支持向量机器,一个多层的视感控器,和一个天真的Bayes分类器,C4.5决定树算法是越过在可靠地预言蛋白质的细胞的本地化基于他们的氨基酸定序的潜水艇的所有九分隔空间的最历久不渝的表演者(平均Precision=0.88;平均Sensitivity=0.86)。而且,EDA图形在每分隔空间描绘了蛋白质的必要特征。作为例子,在血浆膜上局部性的蛋白质有恐水病的氨基酸的更高的比例;细胞质的蛋白质有中立氨基酸的更高的比例;并且mitochondrial蛋白质有中立氨基酸的更高的比例和极的氨基酸的更低的比例。这些数据证明C4.5分类器和EDA工具能为描绘并且预言人的蛋白质的细胞的本地化基于他们的氨基酸定序的潜水艇是有效的。

  • 标签: 亚细胞 人类 蛋白质 数据分析
  • 简介:Wehavepreviouslydevelopedacombinedsignal/variancedistributionmodelthataccountsfortheparticularstatisticalpropertiesofdatasetsgeneratedontheAp-pliedBiosystemsAB1700transcriptomesystem.Hereweshowthatthismodelcanbeefficientlyusedtogeneratesyntheticdatasetswithstatisticalpropertiesvirtu-allyidenticaltothoseoftheactualdatabyaidoftheJAVAapplicationace.mapcreator1.0thatwehavedeveloped.ThefundamentallydifferentstructureofAB1700transcriptomeprofilesrequiresre-evaluation,adaptation,orevenrede-velopmentofmanyofthestandardmicroarrayanalysismethodsinordertoavoidmisinterpretationofthedataontheonehand,andtodrawfullbenefitfromtheirincreasedspecificityandsensitivityontheotherhand.Ourcompositedatamodelandtheace.mapcreator1.0applicationtherebynotonlypresentproofofthecor-rectnessofourparameterestimation,butalsoprovideatoolforthegenerationofsynthetictestdatathatwillbeusefulforfurtherdevelopmentandtestingofanalysismethods.

  • 标签: 生物系统 微阵列分析 信号传递 综合数据生成
  • 简介:单个核苷酸多型性(SNP)是决定任何二个无关的个人之间的差别的基因变化。各种各样的人口组能用SNP与对方被区分开来。例如,HapMap数据集与大约1000万SNP有四个人口组。为人的进化,种族变化,和人口赋值上的更多的卓见,我们建议发现哪个SNP在决定人口组是重要的然后作为输入特征用这些相关SNP分类不同人口。在这研究,我们开发了评价措施的修改t测试并且把它用于HapMap遗传型数据。第一,我们为赋值包括F统计和增进知识的海角与另外的特征重要性措施比较评价所有SNP。第二,我们作为输入选择最高度评价的SNP的不同数字到一个分类器,例如支持向量机器,以便发现最好的特征相应于最好的分类精确性的子集。试验性的结果证明建议方法在发现在决定人口组是重要的SNP是很有效的,与减少的计算负担和更好的分类精确性。

  • 标签: SNP SVM 基因型数据 统计方法
  • 简介:Computationalanalysisisessentialfortransformingthemassesofmicroarraydataintoamechanisticunderstandingofcancer.Herewepresentamethodforfindinggenefunctionalmodulesofcancerfrommicroarraydataandhaveappliedittocoloncancer.First,acoloncancergenenetworkandanormalcolontissuegenenetworkwereconstructedusingcorrelationsbetweenthegenes.Thenthemodulesthattendedtohaveahomogeneousfunctionalcompositionwereidentifiedbysplit-tingupthenetwork.Analysisofbothnetworksrevealedthattheyarescale-free.Comparisonofthegenefunctionalmodulesforcoloncancerandnormaltissuesshowedthatthemodules’functionschangedwiththeirstructures.

  • 标签: DNA微阵列数据 大肠癌 基因功能模块 GN算法 网络分割算法
  • 简介:Thelargeamountofrepeats,especiallyhighcopyrepeats,inthegenomesofhigheranimalsandplantsmakeswholegenomeassembly(WGA)quitedifficult.Inordertosolvethisproblem,wetriedtoidentifyrepeatsandmaskthempriortoassemblyevenatthestageofgenomesurvey.Itisknownthatrepeatsofdifferentcopynumberhavedifferentprobabilitiesofappearanceinshotgundata,sobasedonthisprinciple,weconstructedastatisticalmodelandinferredcriteriaformathematicallydefinedrepeats(MDRs)atdifferentshotguncoverages.Accordingtothesecriteria,wedevelopedsoftwareMDRmaskertoidentifyandmaskMDRsinshotgundata.Withrepeatsmaskedpriortoassembly,thespeedofassemblywasincreasedwithlowererrorprobability.Inaddition,clone-insertsizeaffectstheaccuracyofrepeatassemblyandscaffoldconstruction.Wealsodesignedlengthdistributionofclone-insertsusingourmodel.Inoursimulatedgenomesofhumanandrice,thelengthdistributionofrepeatsisdifferent,sotheiroptimallengthdistributionsofclone-insertswerenotthesame.Thuswithoptimallengthdistributionofclone-inserts,agivengenomecouldbeassembledbetteratlowercoverage.

  • 标签: 重复试验 嵌入式克隆 基因克隆 MDR 统计方法
  • 简介:TodeterminecancerpathwayactivitiesinninetypesofprimarytumorsandNCI60celllines,weappliedaninsilicoapproachbyexamininggenesignaturesreflectiveofconsequentpathwayactivationusinggeneexpressiondata.SupervisedlearningapproachespredictedthattheRaspathwayisactivein~70%oflungadenocarci-nomasbutinactiveinmostsquamouscellcarcinomas,pulmonarycarcinoids,andsmallcelllungcarcinomas.Incontrast,theTGF-β,TNF-α,Src,Myc,E2F3,andβ-cateninpathwaysareinactiveinlungadenocarcinomas.WepredictedanactiveRas,Myc,Src,and/orE2F3pathwayinsignificantpercentagesofbreastcancer,colorectalcarcinoma,andgliomas.OurresultsalsosuggestthatRasmaybethemostprevailingoncogenicpathway.Additionally,manyNCI60celllinesexhib-itedagenesignatureindicativeofanactiveRas,Myc,and/orSrc,butnotE2F3,β-catenin,TNF-α,orTGF-βpathway.Toourknowledge,thisisthefirstcom-prehensivesurveyofcancerpathwayactivitiesinninemajortumortypesandthemostwidelyusedNCI60celllines.The“geneexpressionpathwaysignatures”wehavedefinedcouldfacilitatetheunderstandingofmolecularmechanismsincan-cerdevelopmentandprovideguidancetotheselectionofappropriatecelllinesforcancerresearchandpharmaceuticalcompoundscreening.

  • 标签: 原发性肿瘤 基因表达 NCI60细胞 肿瘤发生
  • 简介:High-throughputSNPgenotypingplatformsuseautomatedgenotypecallingalgo-rithmstoassigngenotypes.Whilethesealgorithmsworkefficientlyforindividualplatforms,theyarenotcompatiblewithotherplatforms,andhaveindividualbiasesthatresultinmissedgenotypecalls.HerewepresentdataontheuseofasecondcomplementarySNPgenotypeclusteringalgorithm.ThealgorithmwasoriginallydesignedforindividualfluorescentSNPgenotypingassays,andhasbeenopti-mizedtopermittheclusteringoflargedatasetsgeneratedfromcustom-designedAffymetrixSNPpanels.Inananalysisofdatafroma3Karraygenotypedon1,560samples,theadditionalanalysisincreasedtheoverallnumberofgenotypesbyover45,000,significantlyimprovingthecompletenessoftheexperimentaldata.Thisanalysissuggeststhattheuseofmultiplegenotypecallingalgorithmsmaybead-visableinhigh-throughputSNPgenotypingexperiments.ThesoftwareiswritteninPerlandisavailablefromthecorrespondingauthor.

  • 标签: 聚类 SNP 基因型 算法
  • 简介:Thecommonapproachtofindco-regulatedgenesistoclustergenesbasedongeneexpression.However,duetothelimitedinformationpresentinanydataset,genesinthesameclustermightbeco-expressedbutnotnecessarilyco-regulated.Inthispaper,weproposetointegrateknowntranscriptionfactorbindingsiteinformationandgeneexpressiondataintoasingleclusteringscheme.Thisschemewillfindclustersofco-regulatedgenesthatarenotonlyexpressedsimilarlyunderthemeasuredconditions,butalsosharearegulatorystructurethatmayexplaintheircommonregulation.Wedemonstratetheutilityofthisapproachonamicroarraydatasetofyeastgrownunderdifferentnutrientandoxygenlimitations.Ourintegratedclusteringmethodnotonlyunravelsmanyregulatorymodulesthatareconsistentwithcurrentbiologicalknowledge,butalsoprovidesamoreprofoundunderstandingoftheunderlyingprocess.Theaddedvalueofourapproach,comparedwiththeclusteringsolelybasedongeneexpression,isitsabilitytouncoverclustersofgenesthatareinvolvedinmorespecificbiologicalprocessesandareevidentlyregulatedbyasetoftranscriptionfactors.

  • 标签: 基因聚类 基因调节 转录因子 结合因子 信息 基因表达