海天瑞声推千万轮对话预料库 7.9亿定增募资拟投向AI大模型训练数据集建设等项目
(资料图)
7月27日,海天瑞声宣布正式推出「中文千万轮对话语料库DOTS-NLP-216」。
海天瑞声方面分析认为,当前在中文对话领域,公开的数据集往往量少、分布有偏、价格昂贵甚至不能商用。导致一些大模型在中文对话方面的能力,相比英文对话略逊一筹。尤其是在一些需要比较深的中文语言理解能力的对话场景,无论开源的还是闭源的大模型,都往往表现不佳。
海天瑞声方面表示,真实场景采集,符合中文表达习惯的自然对话数据,将为中文大语言模型(LLM)带来新动能。
据海天瑞声方面介绍,此次发布的数据集,是一个符合中国人表达习惯的自然对话数据集,共计约1000万轮,上亿级token(标记)。
此前,海天瑞声发布公告称,拟定增募资不超过7.9亿元,其中,3.83亿元计划用于“AI大模型训练数据集建设项目”,4.07亿元计划投向“数据生产垂直大模型研发项目”。
海天瑞声在公告中表示,在人工智能产业进入以大模型为代表的新的发展时期,通过本次募投项目的实施,公司将建设一批适用性较强的大模型训练数据集,拓展潜在高增长价值的新型业务板块,并藉此进一步扩大公司业务规模;同时,以研发海天瑞声数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台,研发并引入多项新兴技术,促进公司科技创新水平的不断提升,巩固公司的核心技术壁垒,构建长期技术实力支撑,从而进一步增强公司核心竞争力。
(文章来源:每日经济新闻)
上一篇:渣打集团上半年经调整除税前利润33.1亿美元 高于预期
下一篇:最后一页
-
艺术家边剃头,边作画,用10万根白发创造“新东方明珠”这是一幅发人深思的画作。近日,上海艺术家杨烨炘走出封闭2个月的家门,以行为绘画的方式创作了《新东方明珠图》献给上海。杨烨炘以疫情期
-
花8000多元买的商品,白等两个月却没收到货?亚马逊回应“花8000多元买的商品,白等了两个月却没收到货。”近日,消费者赵先生向《中国消费者报》投诉,称他通过亚马逊购物APP下了两笔订单,在等待两个月后订单均被强制取消。
-
广东省消委会发布二手车买卖合同示范文本为配合广东省推进“阳光二手车”工作,促进二手车流通行业健康发展,推动经营主体树立诚信经营理念,规范二手车交易行为,切实保护消费者的合法权益。
-
国家卫健委:家庭医生签约服务“最后一公里”有望打通3月15日,国家卫生健康委、财政部等六部门共同提出的《关于推进家庭医生签约服务高质量发展的指导意见》(以下简称《意见》)发布。
-
2022年1~2月房企拿地榜出炉:冠军碧桂园近日,中指研究院公布了2022年1~2月房企拿地(金额)TOP100榜单。令业内惊讶的是,除了品牌房企名次“乾坤大挪移”,榜单内还冒出了许多“名不见经传”的新面孔。
X 关闭
资讯
X 关闭
聚焦