首页站长资讯这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

站长网2024-09-10 16:26:010阅

最近，开源大模型社区再次「热闹」了起来，主角是 AI 写作初创公司 HyperWrite 开发的新模型Reflection70B。

它的底层模型建立在 Meta Llama3.170B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了405B 的 Llama3.1。

凭借如此惊艳的效果，Reflection70B被冠以开源大模型新王。该模型更是由两位开发者（HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）花了3周完成，效率可谓惊人。

Reflection70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试，结果有点出乎意料。

该机构表示，Reflection Llama3.170B 的 MMLU 得分仅与 Llama370B 相同，并且明显低于 Llama3.170B。

图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识（GPQA）和定量推理(MATH)基准测试的结果，同样不如 Llama3.170B。

图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外，Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection70B 与Llama3.1、Llama3权重的差异，结果显示，Reflection 模型似乎是使用了经过 LoRA 调整的 Llama3而不是 Llama3.1。

贴主还提供了以上模型权重比较结果的代码来源。

fromtransformersimportAutoModelForCausalLM，AutoTokenizerimporttorchimportmatplotlib.pyplotaspltimportseabornassnsbase_model_name="meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name="mattshumer/Reflection-Llama-3.1-70B"base_model=AutoModelForCausalLM.from_pretrained（base_model_name，torch_dtype=torch.bfloat16）chat_model=AutoModelForCausalLM.from_pretrained(chat_model_name，torch_dtype=torch.bfloat16)defcalculate_weight_diff(base_weight，chat_weight):returntorch.abs(base_weight-chat_weight).mean().item()defcalculate_layer_diffs(base_model，chat_model):layer_diffs=[]forbase_layer，chat_layerinzip(base_model.model.layers，chat_model.model.layers):layer_diff={'input_layernorm':calculate_weight_diff(base_layer.input_layernorm.weight，chat_layer.input_layernorm.weight)，#'mlp_down_proj':calculate_weight_diff(base_layer.mlp.down_proj.weight，chat_layer.mlp.down_proj.weight)，#'mlp_gate_proj':calculate_weight_diff(base_layer.mlp.gate_proj.weight，chat_layer.mlp.gate_proj.weight)，#'mlp_up_proj':calculate_weight_diff(base_layer.mlp.up_proj.weight，chat_layer.mlp.up_proj.weight)，'post_attention_layernorm':calculate_weight_diff(base_layer.post_attention_layernorm.weight，chat_layer.post_attention_layernorm.weight)，'self_attn_q_proj':calculate_weight_diff(base_layer.self_attn.q_proj.weight，chat_layer.self_attn.q_proj.weight)，'self_attn_k_proj':calculate_weight_diff(base_layer.self_attn.k_proj.weight，chat_layer.self_attn.k_proj.weight)，'self_attn_v_proj':calculate_weight_diff(base_layer.self_attn.v_proj.weight，chat_layer.self_attn.v_proj.weight)，'self_attn_o_proj':calculate_weight_diff(base_layer.self_attn.o_proj.weight，chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)returnlayer_diffsdefvisualize_layer_diffs(layer_diffs):num_layers=len(layer_diffs)num_components=len(layer_diffs[0])fig，axs=plt.subplots(1，num_components，figsize=(24，8))fig.suptitle(f"{base_model_name}<>{chat_model_name}"，fontsize=16)fori，componentinenumerate(layer_diffs[0].keys()):component_diffs=[[layer_diff[component]]forlayer_diffinlayer_diffs]sns.heatmap(component_diffs，annot=True，fmt=".6f"，cmap="YlGnBu"，ax=axs[i]，cbar_kws={"shrink":0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs=calculate_layer_diffs(base_model，chat_model)visualize_layer_diffs(layer_diffs)

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection70B 配置文件名称的更改，可以看到从 Llama370B Instruct 到 Llama3.170B Instruct 的变化。