+高级检索
  • 2013年第40卷第Z1期文章目次
    全 选
    显示方式: |
    • 一种超低温漂的带隙基准电压源

      2013, 40(Z1):1-5.

      摘要 (1636) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:为提高带隙基准电压源的温度特性,采用Buck电压转移单元产生的正温度系数对VBE的负温度系数进行高阶曲率补偿.同时使用共源共栅结构(Cascode)提高电源抑制比(PSRR).电路采用0.5 μm CMOS工艺实现,在5 V电源电压下,基准输出电压为996.72 mV,温度范围在-25~125 ℃时电路的温漂系数为1.514 ppm/℃;当电源电压在2.5~5.5 V变化时,电压调整率为0.4 mV/V,PSRR达到59.35 dB.

    • 一种基于网格的芯片布局密度控制方法

      2013, 40(Z1):6-11.

      摘要 (1029) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:物理设计中,布局密度过高导致的拥塞是一直不可避免的问题.本文提出了一种基于网格划分的密度控制方法来改善EDA工具在自动优化拥塞方面的局限性,以Synopsys公司的后端工具IC Compiler为主要实验工具,通过将目标模块划分成网格(grid)的形式,分析每个网格内的布局密度信息,对可能出现拥塞的区域通过算法进行控制,以达到减少并解决布局拥塞的目的.实际工程试验表明,该方法可以有效地解决模块中由于布局密度过高引起的拥塞问题,同时改善了设计时序,具有较高的工程价值和实用性.

    • RC端角的定制与应用

      2013, 40(Z1):12-17.

      摘要 (1004) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:设计了互连线RC端角定制流程和方法,定制出了新的RC端角,并评估了定制的RC端角对其他端角的覆盖情况.测试结果表明,在少量增加违反路径的情况下定制的RC端角对其他端角的覆盖率能够达到99%.最后,采用定制的RC端角,改进了传统的MMMC时序分析流程.应用实例中的结果表明,改进后的分析流程在以增加缓冲器单元数目和牺牲单元面积为代价的情况下大大减少了时间开销.在时序收敛的情况下,缓冲单元数增加了22.07%,单元面积增加了21.65%,但是每次时序分析工具运行时间减少了84%.

    • 一种低复杂度LDPC译码器的FPGA设计与实现

      2013, 40(Z1):18-22.

      摘要 (1036) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:利用切比雪夫多项式良好的逼近性,提出了基于切比雪夫多项式拟合的BP译码算法,并将该算法在FPGA上进行了实现.该算法利用切比雪夫多项式拟合算法对传统BP算法中的复杂函数进行拟合,用少量的乘法和加法运算代替传统BP算法中的复杂函数.此外,调整得到的多项式系数,使其便于硬件实现.同时,提出一种基于移位运算的切比雪夫结构,减小因乘法器的实现带来的复杂度;并提出基于流水线设计的半并行结构,设计并实现了低复杂度的BP译码器.实验结果表明,相比于相关工作,这种结构能有效减少硬件资源.

    • 面向分组密码处理的可重构分簇式架构模型及其任务映射技术研究

      2013, 40(Z1):23-29.

      摘要 (962) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:提出了一种基于Crossbar互连的可重构分簇式分组密码处理模型RCCPA和面向RCCPA的任务映射方法.所建立的任务就绪列表避免了任务划分的死锁问题,通过开发分组密码组间并行及组内流水特性,提高了RCCPA架构的单元利用率和密码处理性能.在RCCPA架构上使用自动化映射方法适配了AES/DES/IDEA等密码算法,结果表明,该模型与方法有效提高了分组密码算法的处理性能.

    • 基于细粒度伪划分的多核私有Cache容量共享机制

      2013, 40(Z1):30-36.

      摘要 (1022) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对多核私有Cache结构面临的容量失效问题,提出了一种基于细粒度伪划分的核间容量共享机制.通过在细粒度层次为每个Cache Bank设置加权饱和计数器阵列来统计和预测各线程的访存需求差异情况,控制各个处理器核在每个Cache Set上的私有域与共享域划分比例,并以此指导各处理器核上的牺牲块替换、溢出与接收决策,利用智能的核间容量借用机制来均衡处理器间访存需求差异,缓解多核私有Cache结构面临的容量失效问题.在体系结构级全系统模拟器上的实验结果表明,该机制能够有效改善多核私有Cache结构的容量失效问题,降低多线程应用程序的平均存储访问延迟.

    • YHFT-DX移位分支部件的设计与优化

      2013, 40(Z1):37-43.

      摘要 (791) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:根据YHFT-DX移位分支部件的功能特点和性能要求,提出了一种结构划分与实现策略,确定了移位分支部件的关键路径及相应设计方法.对于时序紧张的定点算术操作模块、移位操作模块采用手工半定制设计优化.时序验证与分析表明:移位分支部件时序优化了6.86%,面积减少了10.64%,达到了主频1.0 GHz的设计目标.

    • 多线程微处理器指令双发射结构的设计与实现

      2013, 40(Z1):44-50.

      摘要 (1110) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:单线程性能是处理器设计中需要考虑的重要因素.基于T2设计并实现了单线程双发射结构,以开发单线程的指令级并行、提高单线程性能;并对此结构搭建了完备的验证平台,通过加速比对改善前后的两种结构进行了性能评估,评估结果表明,本文设计并实现的单线程双发射结构能够有效提高单线程的性能.

    • 深亚微米和3D背景Cache延迟设计与模拟关键技术

      2013, 40(Z1):51-60.

      摘要 (1154) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:研究了深亚微米和3D条件下的cache访问延迟的设计和模拟技术.对不同容量、不同关联度、不同技术的cache进行了模拟.实验结果显示,深亚微米条件下,互联网络成为影响cache访问延迟的重要因素,40 nm工艺下它可占cache总访问延迟的61.1%;tag比较器的延迟对cache访问延迟的影响可达9.5%.但后者并未得到已有模型的重视.鉴于此,对已有的cache访问延迟模型进行了改进.基于3D条件下多核处理器最后一级大容量cache(L3C)的容量不断增长的趋势,eDRAM在功耗和面积上的优势使其更具吸引力.模拟结果显示,在容量为1 MB, 4 MB及大于16 MB的L3C设计下,相同容量的eDRAM cache延迟比SRAM cache小,差值为8.1%(1 MB)至53.5%(512 MB).实验结果显示,未来3D多核处理器设计中eDRAM是设计L3C的更佳选择.

    • 面向3D图形处理器快速分层的深度预测试方法

      2013, 40(Z1):61-67.

      摘要 (943) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:提出了一种快速分层的深度预测试方法.通过结合Z_max和Z_min算法,从像素块和像素点两个单位层次,快速地预剔除了无需绘制的像素点,避免了诸如深度值、颜色值和纹理值的读写等针对像素点的绘制操作,降低了渲染场景所需的时间.合理的共享像素块缓存(TileZcache)的设计,有效地提高了命中率,进一步减少了预测试的时间.同时提出的动态更新像素块的方法,以更小的硬件代价,提高了深度预测试的效率.仿真结果表明,对于随机测试的绘制场景,这种快速分层的深度预测试方法,使得每帧绘制时间减少了12.5%~25.6%,访存的带宽节省与每个像素点的存储面积比最大增加了43.8%,适用于嵌入式3D的渲染引擎中.

    • 可变数据集合维护问题的硬件加速结构与方法

      2013, 40(Z1):68-73.

      摘要 (930) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对可变数据集合维护问题,提出了一种通用的硬件结构,根据接收到的操作指令灵活地实现链表数据结构的大多数常用功能,并支持一些高级功能.不仅能够使用链表指针对结点进行定位,还可以像传统的线性编址存储器一样直接使用物理地址进行数据访问.为了解决存储资源受限问题,设计了一种存储资源回收机制对失效结点进行回收.实验结果表明,提出的通用硬件链表结构可以优化对可变数据进行维护的处理过程,而且该结构资源占用较少、功耗较低,与PC上的软件链表数据结构相比,硬件链表结构在执行时间上也具有较高的加速比.

    • 片上谐振时钟阵列耦合特性分析

      2013, 40(Z1):74-78.

      摘要 (871) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:提出了一种基于层次化无缓冲谐振时钟网络的耦合时钟阵列结构,能够有效分布全局时钟,并实现局部时钟网络的频率及相位锁定.基于耦合振荡器理论,详细分析了耦合网络的电压幅值、频率锁定及耦合网络带宽特性,并通过SPICE模拟,对影响谐振时钟阵列耦合特性的关键因素进行了研究,包括时钟负载差异、能量补偿单元、以及耦合网络等.模拟结果表明,谐振时钟阵列具有较宽的频率锁定范围,在耦合特性发生变化的情况下,全局时钟偏斜最大为21 ps,小于时钟周期的2%.

    • 面向片上网络延迟优化的直通路径预构机制

      2013, 40(Z1):79-87.

      摘要 (1007) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对维序路由模式下报文传输时表现出的空间局部性,提出了一种适用于报文直向通信优化传输的直通路径预构(SFRP)路由器结构.通过在路由器内部输入端口N,S,E,W分别静态地预构一条连接其直向通信输出端口的开关直通路径,结合适当的重用以及中断机制,以期实现后续的报文在满足匹配条件的情况下可直接利用开关直通路径进行报文的传输,进而旁通开关分配流水站,降低报文传输延迟.合成通信负载下的模拟结果表明,SFRP路由器在报文注入率饱和前较BASE, BASE_LR, BASE_LR_SPC和PSEUDO_CIRCUIT等四种路由器结构均可获得非常明显的性能提升,其性能提升最大可达到59%, 46%, 25.6%和9.5%.真实应用负载下的模拟结果表明,SFRP路由器与PSEUDO_CIRCUIT路由器的平均延迟相当,但较其他几种路由器结构可分别获得57%, 45%和21%的性能提升.

    • 一种面向多核处理器的2 GHz片上网络通信单元

      2013, 40(Z1):88-95.

      摘要 (965) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:提出了一种面向多核微处理器的2 GHz片上网络通信单元设计方案,通信单元能够在45 nm工艺下达到2 GHz的工作频率,流水线级数为2,最多支持8个双向通信接口,每个端口单向峰值带宽32 GBps.构建了一种16核处理器片上网络测试环境,测试结果表明:使用提出的通信单元构建的片上网络能够满足16核处理器存储系统对网络带宽的要求,在对访存优化的情况下,聚合带宽能够随着处理器核心与线程的增加而线性增加.另外,通信单元还具有可重用的特性,能够通过优化与扩展进一步应用于众核处理器片上网络.研究成果已成功应用于某国产16核高性能微处理器,片上网络实测频率达到2 GHz.

    • 一种非阻塞多VP共享缓冲区的描述符提交机制

      2013, 40(Z1):96-104.

      摘要 (891) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对NIC芯片资源和面积受限的特点,设计了一种资源占用少的多VP共享缓冲区的描述符提交机制DAMQ-PD,设计了地址队列记录每个数据的存储地址,结合每个VP的头尾指针,将各VP分散存储于共享缓冲区的数据链接起来,实现了写、读数据的流水操作.设计了启发式信用管理机制HCM,按需动态给各VP分配信用,自动在PIO和DMA这两种描述符提交方式间切换,避免无信用可分配时可能造成对用户进程的阻塞.分析和模拟结果表明,DAMQ-PD资源占用少、缓冲区利用率高、读写流水、消息发射率高,满足了用户进程提交描述符对低延迟和大容量的性能要求.

    • 一种面向输入缓冲交换机的多VC共享预取结构

      2013, 40(Z1):105-111.

      摘要 (886) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对目前交换机的输入缓冲区读延迟增大导致交叉开关吞吐率下降的问题,提出了多VC共享预取结构SPB,用于隐藏数据缓冲区SRAM的读延迟.设计了旁路写入控制、读写地址管理、预取管理等关键功能,用Verilog语言实现了SPB结构,通过模拟器测试了SPB结构的读写性能.模拟和分析结果表明,采用SPB结构的输入缓冲区能够降低读写延迟,提高输入缓冲区的写入和读出吞吐率.SPB结构能够被方便地应用于静态分配多队列或动态分配多队列缓冲区中,加快缓冲区的读写速度,从而提高整个交换机的吞吐率.

    • 基于动态注入率的片上网络拥塞避免方法

      2013, 40(Z1):112-116.

      摘要 (1344) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:片上网络的拥塞现象极大地限制了路由器的有效性能,拥塞问题将直接影响到整个处理器芯片的性能.本文首先分析了片上网络中虚通道路由器通信流量的特性.提出设定不同的阈值将网络拥塞状态进行划分,将拥塞避免问题划分为拥塞预防和拥塞解除两个阶段.提出使用一种动态注入率策略,根据实时检测网络的拥塞状态,动态调整网络报文的注入率,将网络中的通信流量控制在一个合理水平内,减轻网络的负载压力,避免NoC完全陷入拥塞而出现瘫痪状态.仿真模拟结果表明,拥塞预防时NoC性能约在“最大负载点”,拥塞解除时性能约在“膝点”,注入率可以达到0.05,在避免拥塞的同时有效兼顾了网络性能.

    • “天河一号”互连网络中FC-Switch及其路由算法

      2013, 40(Z1):117-124.

      摘要 (816) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:提出了一种组合交换器——FC-Switch,定义了该组合交换器的交换级连接模式,初步分析了该组合交换器的性能.研究了FC-Switch的四种路由算法,并在“天河一号”(TH-1A)实际网络测试平台上,对这四种路由算法的性能进行了对比测试.研究结果表明,通过合理选择交换级连接模式和路由算法,FC-Switch可获得高带宽低延迟的优良性能.

    • 一种路由表分布式存储转发架构及其查找算法

      2013, 40(Z1):125-129.

      摘要 (1159) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:面向路由器FIS(Forwarding In Switch, FIS)处理机制,提出了一种基于路由表分布式存储的多级流水并行查找架构,采用多个低速的具有独立转发和交换功能的转发交换结点FSN(Forwarding and Switching Node)构成多级流水线,针对IPv6最长匹配前缀的查找需求,设计了一种基于前缀范围的二分查找算法PSB-BS(Prefix Scope Based Binary Search):将IPv6转发表组织为分层结构,每一层对应不同长度范围的前缀信息,采用二分查找策略对子树层进行搜索,通过构建非对称二分查找树实现了转发表在FSN结点的分布式存储并能有效降低存储开销及IP查找复杂度.仿真结果表明,与目前Cisco商业路由器广泛采用的树位图算法相比,PSB-BS算法显著降低了存储及访存开销.

    • 面向全分布式VLIW结构的部分互连研究

      2013, 40(Z1):130-135.

      摘要 (1093) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:随着VLSI技术的发展,传统的采用了全互连网络的全分布式超长指令字结构的功能单元通信开销,成为制约着处理器频率增加和规模扩大的瓶颈.在分析应用程序特征的基础上,利用定义的5种通信模式提出了多种全分布式超长指令字部分互连结构,分析了由全互连结构变为部分互连结构通信方式上的改变,并完成了功能单元指派和通信调度等相关的编译调整.模型分析和实验数据表明,相比全互连结构,部分互连结构在程序性能些微降低的情况下,面积、功耗等资源开销大幅减少,并呈现出良好的可扩展性.

    • 一种超大规模MPI栅栏同步的硬件卸载方法

      2013, 40(Z1):136-141.

      摘要 (1088) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:在大规模并行计算机中,聚合通信的性能一直是全系统的性能瓶颈.本文提出了一种在超大规模并行计算机系统中采用的基于NIC的硬件卸载MPI栅栏同步的方法.方法基于改进的Dissemination栅栏同步算法,由MPI驱动程序生成栅栏同步的算法框架,实际的通信操作由NIC硬件自动完成,针对算法设计了硬件易于实现的基于描述符的软硬件接口和硬件执行算法,大大提高了栅栏同步的效率.通过与软件实现的算法性能比较,本文方法的通信延迟比现有方法平均提高了40%.

    • ASIC仿真加速系统编译优化策略研究

      2013, 40(Z1):142-147.

      摘要 (1197) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:随着微处理器设计技术的发展,基于硬件仿真加速器的系统验证已成为业内公认的最有效的系统验证方法,而系统仿真频率是硬件仿真加速器验证系统最重要的性能指标之一.本文以某款国产高性能通用微处理器FT-xx在ASIC仿真加速平台上的系统仿真加速为工程背景,通过调整编译选项、分析编译结果展开研究.首先分析了ASIC硬件仿真加速的加速原理,然后重点研究了逻辑资源数量、通用寄存器类型设计映射方式、特殊寄存器类型设计映射方式对系统仿真频率的影响.研究结果表明,当待验证设计的规模一定时,ASIC仿真器的逻辑资源并非越多越好、memorysize值的选取存在一个较佳范围、对于某些特殊的寄存器采用强制映射能极大地提高系统仿真频率.

    • 矩阵乘在通用DSP上的峰值性能模型

      2013, 40(Z1):148-152.

      摘要 (1769) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:DSP具有能效比高的特点,可以用于通用高性能计算.矩阵乘是许多科学与计算问题的核心算法,在DSP上取得高性能具有重要的理论和现实意义.面向通用DSP,提出了矩阵乘并行算法,建立了矩阵乘峰值性能模型,根据性能模型,构建了矩阵乘性能达Tflops级DSP体系结构参数配置,对通用DSP的设计参数给出了明确的性能指标要求,包括乘加流水线数量、寄存器数目、带宽和延迟.

    • 网络论坛人类行为动力学实证分析

      2013, 40(Z1):153-160.

      摘要 (908) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:从帖子和用户两个角度对网络论坛的人类行为动力学特征进行实证统计和分析.对帖子属性的统计分析发现,帖子的回复次数、吸引的不同用户数均服从幂律分布,而帖子的浏览次数分布没有明显的规律性;帖子的浏览次数和回复次数之间存在明显的正相关性,且二者的比值大于等于10.对用户发帖、回帖行为的统计分析发现,用户发帖数、回帖数、回复的不同主帖数均服从幂律分布,说明网络论坛用户行为具有很强的异质性,大多数用户很少发帖或回帖,关注范围也比较小,只有少数活跃用户经常发帖或回帖,关注面非常广;还发现单个用户单日回帖数以及单个用户针对单个主帖的回复数也均服从幂律分布,存在少数用户在个别日子里发表大量回帖和少数用户针对少量主帖发表大量回帖的现象.这些结论对于在线用户行为建模具有重要的指导意义,也为网络舆情监控和网络水军发现提供了新的思路.

    • 基于GARCH误差修正的时间序列季节预测模型及应用

      2013, 40(Z1):161-164.

      摘要 (1184) HTML (0) PDF 0.00 Byte (0) 评论 (0) 收藏

      摘要:针对神经网络、支持向量机等方法对数据样本容量要求较高的问题,以及一般时间序列预测模型对最大负荷等随机因素拟合不足的问题,应用时间序列的季节乘法模型对地区月度最大负荷做预测,并用GARCH模型对预测误差进行修正.用某电网的真实数据作案例,结果表明,误差率仅为2%,预测精度良好.相比修正前的模型,误差率下降0.5%,证明误差修正模型有效.

湖南大学学报(自然科学版)编辑部

年第卷第

当期目录


文章目录

过刊浏览

刊期浏览
本期排行

PDF下载排行

HTML阅读排行

摘要点击排行

引用排行

作者稿件一经被我刊录用,如无特别声明,即视作同意授予我刊论文整体的全部复制传播的权利,包括但不限于复制权、发行权、信息网络传播权、广播权、表演权、翻译权、汇编权、改编权等著作使用权转让给我刊,我刊有权根据工作需要,允许合作的数据库、新媒体平台及其他数字平台进行数字传播和国际传播等。特此声明。
关闭