更快更省更强性能!市面自主架构SoC一览
【PConline 杂谈】 由于手机产业的高速发展,许多厂商已经不再满足于ARM公版的IP核架构,而是根据其指令集进一步优化架构,以获得更好的性能与能耗比,从而达到更快更省电更性能的目的,而这种架构我们就称之为自主架构,那么市面上面有哪些公司都在开发相应的自主架构,成品有哪些?或者将来我们能看到的有哪些呢?
一、什么是SoC架构?
System on Chip,简称Soc,也即片上系统。从狭义角度讲,它是信息系统核心的芯片集成,是将系统关键部件集成在一块芯片上;从广义角度讲,,SoC是一个微小型系统,如果说中央处理器(CPU)是大脑,那么SoC就是包括大脑、心脏、眼睛和手的系统。国内外学术界一般倾向将SoC定义为将微处理器、模拟IP核、数字IP核和存储器(或片外存储控制接口)集成在单一芯片上,它通常是客户定制的,或是面向特定用途的标准产品。
SoC有两个显著的特点:一是硬件规模庞大,通常基于IP设计模式;二是软件比重大,需要进行软硬件协同设计。城市相比农村的优势很明显,SoC也有类似城市的特点:配套齐全、交通便利、效率高。
二、市面上自主架构SoC一览
1.苹果A系列处理器:
苹果早年也是采用的ARM公版处理器,但是从苹果A6开始就自行设计SoC架构。苹果A6是属于苹果自己定制的第一个SOC,它不属于常规的cortex a系列架构,严格的说,他不属于A9,更不是A15,而是苹果全新自主开发的架构,当然这个架构还是基于ARM开发,苹果将这个架构取名为Swift,他甚至使用的不是常规的ARMv7指令集,而是基于ARMv7修改得来,苹果同样命名为ARMv7s,此款SoC参数上看起来跟普通的ARMv7没什么区别,但是苹果自己设计的Swift却有超越众多A9高频4核的性能。
苹果公司近几代SoC的性能和规格 Apple SoCCPU性能GPU性能晶粒大小晶体管制程A5~13x~20x122mm²<10亿45nmA6~26x~34x97mm²<10亿32nmA740x56x102mm²>10亿28nmA850x86x89mm²~20亿20nm目前苹果最新的SoC是搭载在iPhone 6上的苹果A8。Apple A8是苹果公司设计的第二代64位系统单片机(SoC)。在2014年9月9日发布,用于iPhone 6及iPhone 6 Plus。苹果公司宣称它比上代Apple A7在CPU性能高25%,绘图性能高50%,能源效益高50%。
苹果称,A8处理器集成了20亿个晶体管,相比于A7足足翻了一番,但是核心面积反而还小了13%,也就是大约89平方毫米。CPU部分为自家定制的“改良版Cyclone”,上代A7则是“Cyclone”,仍然维持双核心设计,但仍然能够有相当强悍的性能,这让现在动辄四核、八核的Android阵营感到羞愧。
2.高通骁龙系列处理器:
高通早年一直以自主架构闻名,最开始是基于ARMv7的Scorpion架构,随后在骁龙S4系列处理器中开始启用Krait架构。在近两年市场竞争激烈的情况下,高通也开始尝试公版的ARM架构,但是目前又传出消息称高通下一代的Kyro架构也在研发当中,并且将首次应用于骁龙820处理器。
高通在2015年世界移动通信大会(MWC 2015)上利用 Zeroth平台,预演下一代移动体验。Zeroth是高通Technologies的首个认知计算平台,旨在增强终端用户体验,为下一代顶级芯片高通820的处理器提供优化。骁龙820处理器基于领先的FinFET制程工艺,并将采用高通自主定制的64位CPU架构Kryo,预计将于2015年下半年开始出样。
高通的骁龙平台有着与其他处理器供应商与众不同的特点,高通骁龙具备集成通信技术SoC,这大幅度的降低了OEM厂商设计产品的复杂度和成本。从骁龙S4平台问世开始,绝大部分的S4 SoCs皆集成Wi-Fi、GPS/GLONASS和Bluetooth连接能力。此外,骁龙也受惠于先进半导体制造工艺,例如采用28nm制程的S4平台相较于其他使用旧制程的处理器,在电路设计配置、性能和耗能上都获取相当优势。
3.三星Exynos系列处理器:
三星此系列产品线一直都是采用的公版ARM架构,但是目前三星已经开始研发基于ARM v8架构的Morrgens新架构,目前样片已经流出。据悉这款自主架构SoC的代号为“Mongoose”。目前该款SoC已经在KitGuru开发网站、开发库工具GNU Binutils、编译器工具GNU Compiler Collection中均可以查到,这就意味着该款SoC或许已经接近研发完成,并且已经有了样品供软件开发人员进行测试。
三星自主架构“Mongoose”问世
Mongoose在英文中的原意为猫鼬,与我们熟知的高通自主架构Krait(金环蛇)正好是天敌。Mongoose的第一代产品被称为“Exynos M1”,与苹果的Cyclone一样也是基于ARMv8-A指令集修改而来。从初步的测试结果来看,Exynos M1的单核性能较最新的Exynos 7420提升了45%左右,可以说是非常大的性能提升了。如果不出意外,相信明年我们就能够见到。
四、总结
CPU热潮正在衰退,SoC相比CPU有太多的优点,相信最终SoC会越来越流行,所以我们也相信在此之后市面上也会出现更多的SoC。
既要代码小,又想速度快!单片机程序该如何优化?
对程序进行优化,通常是指优化程序代码或程序执行速度。优化代码和优化速度实际上是一个予盾的统一。一般是优化了代码的尺寸,就会带来执行时间的增加;如果优化了程序的执行速度,通常会带来代码增加的副作用。很难鱼与熊掌兼得,只能在设计时掌握一个平衡点。
一、程序结构的优化
1.1 程序的书写结构
虽然书写格式并不会影响生成的代码质量,但是在实际编写程序时还是应该尊循一定的书写规则,一个书写清晰、明了的程序,有利于以后的维护。在书写程序时,特别是对于While、for、do…while、if…else、switch…case 等语句或这些语句嵌套组合时,应采用“缩格”的书写形式。
1.2 标识符
程序中使用的用户标识符除要遵循标识符的命名规则以外,一般不要用代数符号(如a、b、x1、y1)作为变量名,应选取具有相关含义的英文单词(或缩写)或汉语拼音作为标识符,以增加程序的可读性,如:count、number1、red、work 等。
1.3 程序结构
C 语言是一种高级程序设计语言,提供了十分完备的规范化流程控制结构。因此在采用C 语言设计单片机应用系统程序时,首先要注意尽可能采用结构化的程序设计方法,这样可使整个应用系统程序结构清晰,便于调试和维护。
对于一个较大的应用程序,通常将整个程序按功能分成若干个模块,不同模块完成不同的功能。各个模块可以分别编写,甚至还可以由不同的程序员编写,一般单个模块完成的功能较为简单,设计和调试也相对容易一些。在C 语言中,一个函数就可以认为是一个模块。
所谓程序模块化,不仅是要将整个程序划分成若干个功能模块,更重要的是,还应该注意保持各个模块之间变量的相对独立性,即保持模块的独立性,尽量少使用全局变量等。对于一些常用的功能模块,还可以封装为一个应用程序库,以便需要时可以直接调用。但是在使用模块化时,如果将模块分成太细太小,又会导致程序的执行效率变低(进入和退出一个函数时保护和恢复寄存器占用了一些时间)。
1.4 定义常数
在程序化设计过程中,对于经常使用的一些常数,如果将它直接写到程序中去,一旦常数的数值发生变化,就必须逐个找出程序中所有的常数,并逐一进行修改,这样必然会降低程序的可维护性。因此,应尽量当采用预处理命令方式来定义常数,而且还可以避免输入错误。
1.5 减少判断语句
能够使用条件编译(ifdef)的地方就使用条件编译而不使用if 语句,有利于减少编译生成的代码的长度。
1.6 表达式
对于一个表达式中各种运算执行的优先顺序不太明确或容易混淆的地方,应当采用圆括号明确指定它们的优先顺序。一个表达式通常不能写得太复杂,如果表达式太复杂,时间久了以后,自己也不容易看得懂,不利于以后的维护。
1.7 函数
对于程序中的函数,在使用之前,应对函数的类型进行说明,对函数类型的说明必须保证它与原来定义的函数类型一致,对于没有参数和没有返回值类型的函数应加上“void”说明。如果果需要缩短代码的长度,可以将程序中一些公共的程序段定义为函数。如果需要缩短程序的执行时间,在程序调试结束后,将部分函数用宏定义来代替。注意,应该在程序调试结束后再定义宏,因为大多数编译系统在宏展开之后才会报错,这样会增加排错的难度。
1.8 尽量少用全局变量,多用局部变量
因为全局变量是放在数据存储器中,定义一个全局变量,MCU 就少一个可以利用的数据存储器空间,如果定义了太多的全局变量,会导致编译器无足够的内存可以分配;而局部变量大多定位于MCU 内部的寄存器中,在绝大多数MCU 中,使用寄存器操作速度比数据存储器快,指令也更多更灵活,有利于生成质量更高的代码,而且局部变量所的占用的寄存器和数据存储器在不同的模块中可以重复利用。
1.9 设定合适的编译程序选项
许多编译程序有几种不同的优化选项,在使用前应理解各优化选项的含义,然后选用最合适的一种优化方式。通常情况下一旦选用最高级优化,编译程序会近乎病态地追求代码优化,可能会影响程序的正确性,导致程序运行出错。因此应熟悉所使用的编译器,应知道哪些参数在优化时会受到影响,哪些参数不会受到影响。
二、代码的优化
2.1 选择合适的算法和数据结构
应熟悉算法语言。将比较慢的顺序查找法用较快的二分查找法或乱序查找法代替,插入排序或冒泡排序法用快速排序、合并排序或根排序代替,这样可以大大提高程序执行的效率。
选择一种合适的数据结构也很重要,比如在一堆随机存放的数据中使用了大量的插入和删除指令,比使用链表要快得多。数组与指针具有十分密切的关系,一般来说指针比较灵活简洁,而数组则比较直观,容易理解。对于大部分分的编译器,使用指针比使用数组生成的代码更短,执行效率更高。
但是在Keil 中则相反,使用数组比使用的指针生成的代码更短。
2.2 使用尽量小的数据类型
能够使用字符型(char)定义的变量,就不要使用整型(int)变量来定义;能够使用整型变量定义的变量就不要用长整型(long int),能不使用浮点型(float)变量就不要使用浮点型变量。当然,在定义变量后不要超过变量的作用范围,如果超过变量的范围赋值,C 编译器并不报错,但程序运行结果却错了,而且这样的错误很难发现。
2.3 使用自加、自减指令
通常使用自加、自减指令和复合赋值表达式(如a-=1 及a+=1 等)都能够生成高质量的程序代码,编译器通常都能够生成inc 和dec 之类的指令,而使用a=a+1 或a=a-1之类的指令,有很多C 编译器都会生成2~3个字节的指令。
2.4 减少运算的强度
可以使用运算量小但功能相同的表达式替换原来复杂的的表达式。如下:
(1)求余运算
a=a%8;可以改为:a=a&7;
说明:位操作只需一个指令周期即可完成,而大部分的C 编译器的“%”运算均是调用子程序来完成,代码长、执行速度慢。通常,只要求是求2n 方的余数,均可使用位操作的方法来代替。
(2)平方运算
a=pow(a,2.0);可以改为:a=a*a;
说明:在有内置硬件乘法器的单片机中(如51 系列),乘法运算比求平方运算快得多,因为浮点数的求平方是通过调用子程序来实现的,在自带硬件乘法器的AVR 单片机中,如ATMega163 中,乘法运算只需2 个时钟周期就可以完成。既使是在没有内置硬件乘法器的AVR单片机中,乘法运算的子程序比平方运算的子程序代码短,执行速度快。如果是求3 次方,如:a=pow(a,3.0);更改为:a=a*a*a;则效率的改善更明显。
(3)用移位实现乘除法运算
a=a*4;b=b/4;可以改为:a=a<<2;b=b>>2;
说明:通常如果需要乘以或除以2n,都可以用移位的方法代替。在ICCAVR 中,如果乘以2n,都可以生成左移的代码,而乘以其它的整数或除以任何数,均调用乘除法子程序。用移位的方法得到代码比调用乘除法子程序生成的代码效率高。实际上,只要是乘以或除以一个整数,均可以用移位的方法得到结果,如:a=a*9可以改为:a=(a<<3)+a
2.5 循环
(1)循环语
对于一些不需要循环变量参加运算的任务可以把它们放到循环外面,这里的任务包括表达式、函数的调用、指针运算、数组访问等,应该将没有必要执行多次的操作全部集合在一起,放到一个init 的初始化程序中进行。
(2)延时函数
通常使用的延时函数均采用自加的形式:
void delay (void){unsigned int i;for (i=0;i<1000;i++); }将其改为自减延时函数:void delay (void){unsigned int i;for (i=1000;i>0;i--); }
两个函数的延时效果相似,但几乎所有的C 编译对后一种函数生成的代码均比前一种代码少1~3 个字节,因为几乎所有的MCU 均有为0转移的指令,采用后一种方式能够生成这类指令。在使用while 循环时也一样,使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3 个字母。
但是在循环中有通过循环变量“i”读写数组的指令时,使用预减循环时有可能使数组超界,要引起注意。
(3)while 循环和do…while 循环
用while 循环时有以下两种循环形式:
unsigned int i;i=0;while (i<1000){i++; //用户程序}或:unsigned int i;i=1000;do
{i--; //用户程序
}
while (i>0);
在这两种循环中,使用do…while循环编译后生成的代码的长度短于while循环。
2.6 查表
在程序中一般不进行非常复杂的运算,如浮点数的乘除及开方等,以及一些复杂的数学模型的插补运算,对这些即消耗时间又消费资源的运算,应尽量使用查表的方式,并且将数据表置于程序存储区。如果直接生成所需的表比较困难,也尽量在启动时先计算,然后在数据存储器中生成所需的表,后以在程序运行直接查表就可以了,减少了程序执行过程中重复计算的工作量。
2.7 其它
比如使用在线汇编及将字符串和一些常量保存在程序存储器中,均有利于优化。
声明: 本文转载自网络,如涉及作品内容、版权和其它问题,请于联系工作人员微,我们将在第一时间和您对接删除处理!
相关问答
【按下16个矩阵键盘依次在数码管上显示1-16的 平方 .如按下第...[最佳回答]#include#defineucharunsignedchar#defineuintunsignedintucharb,bai,shi,ge;ucharconsttable[]=...
编写程序完成计算正整数3829的各位数字 平方和 _作业帮[最佳回答]#include"stdio.h"#include"stdlib.h"intmain(){intx=3829;inta1,a2,a3,a4;ints...
单片机 查表指令movc什么意思?查表指令:MOVCA,@A+DPTR不是单独使用的,在1000H处,应该有个DB伪指令,如下:DB0,1,4,9,16,25...它在ROM中,顺序存放了一系列的“平方”数据。MOVCA,@A+DP...
单片机 闹钟怎么设置?- 一起装修网一起装修网问答平台为您提供单片机闹钟怎么设置?的相关答案,并为您推荐了关于单片机闹钟怎么设置?的相关问题,一起装修网问答平台:装修问题,因我而止。
关于一个串级控制的问题请求解答!-盖德问答-化工人互助问答社区就几个点用普通表吧。造价可能要低点首先单片机是无法实现的,它需要pid的机器语言编程,这很难实现。还有就是单片机的处理速度与响应时间也无法达...
单片机 和外设(或外部系统)的通信方式除了串口通信之外还有那...1-line单总线,IIC总线通信I平方C,SMBUS,SPI.SPI,I2C总线都可以阿
铝单板 每平方 多少钱?[回答]一般来说,其实用铝合金门窗有较好的附加性能。eps铝单板施工要点在首次投入试生产前,市场上存在以下几种现象:一是先进施工方法模式难以采集到科学...
仪表英文缩写及简写?电子式汽车仪表是一种采用单片机控制步进电机和LCD来显示汽车行驶过程中的车速、转速、油量、水温、里程等相关数据,并用LED实现仪表背光和报警指示功能的组合...
led户外投影灯要怎么调形状?- 一起装修网[回答]1:单片机控制LED的亮度,用的是PWM技术。用的也是PWM技术对三色LED进行调光的。2:这种调光方法为通过调制LED驱动电流来完成LED灯的调光,由于LED芯片...
六 平方 的铝线可以带动几个电磁炉还要到别人两家拉两组六平方才够用尛嘴乱吃1天前扩展回答1美的电磁炉面板...7.MCU晶振及复位电路不良,使单片机运转程序不正常.8.因用户电磁炉插座或供电...