?? 记忆：只需几分钟！使用AI创建解说视频！

2024/10/15 21:04:02

本文主要是介绍?? 记忆：只需几分钟！使用AI创建解说视频！，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

这是提交给Pinata挑战的内容

✒️ 简介

制作引人入胜、有吸引人叙事的视频可能会既耗时又复杂，甚至显得不专业。这你有没有试过将旁白或配音外包给别人？为此你可能需要准备一笔不小的费用，这笔费用可能相当高。有没有更简单的方法，比如用AI来简化这个过程，并且更便宜？

让我们来认识Memoire，这是一款由AI驱动的工具，能在几分钟内帮你制作叙述性视频。无论你是内容创作者、营销人员，还是热爱分享故事的人，Memoire都能轻松地将你的想法转化为引人注目的视频。

在这篇文章中，我会带您探索Memoire，展示其功能，开发过程中遇到的挑战以及它所拥有的各种可能性。

🔐 关键特性

1/ 全面的身份验证功能：Memoire 使用 NextAuth 提供的身份验证系统，确保安全并提升用户体验。系统包括美观的电子邮件设计，用于账户验证和密码重置，从而增强功能性和用户参与度。

2/ 上传媒体并自动生成描述：您可以上传您的照片，Memoire 会自动生成这些照片的准确且吸引人的描述。如果描述缺少重要信息，您可以轻松添加更多细节并重新生成更合适的描述。

3/ 媒体转换：利用Memoire多种媒体转换功能，让您的视频叙事更上一层楼，提供多种选项，如“渐变”、“左滑”、“上滑”等。这些转换让您的视频看起来更专业，确保场景转换流畅且美观。

4/ Suanbu de Meiti Liebiao：批量上传照片时，顺序可能不固定。但您可以轻松拖放Memoire中的媒体，按照自己喜欢的顺序排列。

5/ AI脚本生成：Memoire 使用 Google 的 Gemini 1.5 Pro 模型为您生成视频脚本。这确保生成的脚本高质量且上下文相关，从而让您的视频叙事更加引人入胜。

6/ AI音频生成，可选声线：采用OpenAI的TTS-1模型，Memoire提供可自定义的声音供您使用。您可以从Echo、Alloy、Fable、Onyx、Nova和Shimmer这些选项中选择，以找到最适合您项目的完美声音。

7/ 项目设置：自定义您的项目，可以通过添加描述来实现，这有助于AI生成更好的脚本。您还可以调整项目的宽高比例和帧率以符合您的需求。

8/ 浏览器内生成预览：Memoire 使用 Remotion 在您的浏览器中直接生成视频预览。虽然预览与最终输出有些不同，改进工作正在进行中，以使预览更接近最终效果。

9/ AI作曲 ：Memoire使用Meta的Music Gen模型为您的视频制作背景音乐。这个功能还在开发中，暂时还没有对外开放测试。

10/ AI 驱动的字幕生成功能：Memoire 可以利用 OpenAI 的 Whisper 模型为您生成视频字幕。此功能正在开发中，很快就能使用。

🛠️ 技术栈（Tech Stack）

前端技术: TypeScript, Next.js, DND Kit
后端：Next.js API 路由端点，服务器端动作，Prisma
样式：Tailwind CSS，shadcn/ui 组件
文件存放 ：Pinata（一种文件存储服务）
限速： Upstash
身份验证——Next Auth
AI 模型：Google 的 Gemini 1.5 Pro，OpenAI 的文本转语音-1，Meta 的 Music Gen，OpenAI 的 Whisper
浏览器内预览功能 Remotion

🦄 我用了Pinata的哪些功能（彩蛋）

我在Pinata上尝试了几个东西，玩得很开心！具体如下：

1/ 多文件上传组件（带进度跟踪）（MediaPane.tsx）:
利用Pinata的原生API接口开发了一个具有实时进度跟踪的多文件上传组件。相比使用SDK，用户体验更好，从而提升了用户满意度。

主要功能：

使用 axios 直接上传到 Pinata 服务器
基于 JWT 的认证以实现安全上传
实时跟踪上传进度

这就是它的运作方式，

zh: a. 获取JWT用于认证:

const keyRequest = await fetch('/api/key');
const keyData = await keyRequest.json() as { JWT: 字符串 };

进入全屏模式退出

zh: b. 准备并发送上传数据请求：

    const UPLOAD_ENDPOINT = `https://uploads.pinata.cloud/v3/files`;
    const formData = new FormData();
    formData.append('file', addedFileState.file);

    const { data: uploadResponse }: AxiosResponse<{ data: PinataUploadResponse }> = await axios.post(UPLOAD_ENDPOINT, formData, {
        headers: {
            Authorization: `Bearer ${keyData.JWT}`
        },
        onUploadProgress: async (progressEvent) => {
            if (progressEvent.total) {
                const percentComplete = (progressEvent.loaded / progressEvent.total) * 100;
                // 更新文件进度
                updateFileProgress(addedFileState.key, percentComplete);
            }
        }
    });

按Enter键全屏，按Esc退出全屏

c. 查看上传进度：

onUploadProgress: async (progressEvent) => {
    if (progressEvent.total) {
        // 计算上传进度的百分比
        const percentComplete = (progressEvent.loaded / progressEvent.total) * 100;
        // 更新文件进度
        updateFileProgress(addedFileState.key, percentComplete);
    }
}

打开全屏，退出全屏

d. 处理上传响应并准备元数据：

await new Promise(resolve => setTimeout(resolve, 1000));
// 延迟1秒钟，然后更新文件进度为完成。
updateFileProgress(addedFileState.key, 'COMPLETE');

const data = addedFileState.type === 'PHOTO'
    ? await getPhotoDimensions(addedFileState.preview)
    : await getVideoDimensions(addedFileState.preview);
// 根据文件类型，获取照片或视频的尺寸。

const metadata = { ...data, cid: uploadResponse.data.cid, type: addedFileState.type };
// 创建一个包含尺寸、上传响应CID和文件类型的元数据对象。

切换到全屏模式，退出全屏

这种实现允许无缝的上传体验并带有视觉反馈，让用户在上传媒体内容时有更好的互动体验，即使这个过程可能会比较耗时。

2/ 自定义图片组件 (PinataImage.tsx):

创建了一个自定义的PinataImage组件，以高效地处理图像的获取、缓存和显示。这样可以减少不必要的网络请求，利用浏览器的本地存储来提升性能。

重要特点有：

利用IndexedDB实现本地缓存
生成签名URL以确保安全访问
懒加载及骨架占位符

这里列出它的主要功能

是否检查缓存图像：

    const cachedImage = await db.images.where({ cid, width, height }).first();
    if (cachedImage) {
        setImageUrl(URL.createObjectURL(cachedImage.blob));
        return;
    }

以下代码检索数据库中存储的图像，并根据给定的cid、宽度和高度创建一个URL。如果找到缓存的图像，则设置图像URL并返回。

点全屏关闭全屏

b. 生成安全的带签名URL：

const params = new URLSearchParams({
    cid,
    width: width?.toString() || '',
    height: height?.toString() || '',
    expires
});

// 获取包含签名URL所需的参数
const response = await fetch(`/api/getSignedUrl?${params}`);
if (!response.ok) {
    // 如果请求失败，则抛出异常
    throw new Error('获取签名URL失败');
}

// 解析响应中的数据
const data = await response.json() as { url: string };

全屏模式, 退出全屏

c. 取缓图片：

    const imageResponse = await fetch(`/api/getImage?url=${encodeURIComponent(data.url)}`);
    if (!imageResponse.ok) {
        throw new Error('获取图像失败');
    }

    const blob = await imageResponse.blob();
    const objectUrl = URL.createObjectURL(blob);
    setImageUrl(objectUrl);

    await db.images.put({ cid, width: Number(width), height: Number(height), blob });

全屏模式退出全屏

d. 显示图像或一个临时的骨架图：

    const renderedImage = useMemo(() => {
        if (imageUrl) {
            return (
                <Image
                    src={imageUrl}
                    unoptimized={!!src}
                    width={Number(width)}
                    height={Number(height)}
                    alt={alt}
                    className={className}
                    crossOrigin='匿名'
                    {...props}
                />
            );
        } else {
            return (
                <Skeleton className={className} />
            );
        }
    }, [imageUrl, width, height, src, alt, className, props]);

点击全屏退出

这个组件确保了存储在Pinata上的图片的快速加载和显示，从而提升了Memoire的整体性能和用户体验。

3/ 媒体管理与预览 (VideoPreview.tsx):

除了上传和显示图片之外，Pinata 还可用于存储和检索各种类型的媒体，包括音频和视频文件。这一点在 VideoPreview 组件中也很明显：

使用它们的 CIDs（内容ID）获取媒体文件

    const getMediaUrl = useCallback(async (cid: string, projectId: string, type: 'media' | 'audio'): Promise<string> => {
        try {
            if (typeof window === 'undefined') {
                return '';
            }

            const 表 = type === 'media' ? db.media : db.audio;
            let 数据项 = await 表.where({ cid }).first();
            if (数据项) {
                return URL.createObjectURL(数据项.file);
            }

            const 响应 = await fetch(`/api/getFile?cid=${encodeURIComponent(cid)}`);
            if (!响应.ok) {
                throw new Error(`HTTP 错误！状态码：${响应.status}`);
            }

            const 文件 = await 响应.blob();

            await 表.put({
                cid,
                file: 文件,
                projectId
            });

            return URL.createObjectURL(文件);
        } catch (e) {
            return ''
        }
    }, []);

全屏退出全屏

b. 加载叙述音频文件

    const loadAudio = useCallback(async () => {
        if (narration?.audioCid) {
            // 获取音频的 URL
            const audioUrl = await getMediaUrl(narration.audioCid, project.id, 'audio');
            setLoadedAudioUrl(audioUrl);
            // 设置 narration 中的 audioUrl
            setNarration({ audioUrl });
        }
        // eslint-disable-next-line react-hooks/exhaustive-deps // 禁用此行的 exhaustive-deps 检查
    }, [narration?.audioCid, project.id, getMediaUrl]);

全屏、退出全屏

c. 加载并整理媒体文件

    const loadMediaItems = useMemo(() => async () => {
        try {
            const loadedItems = await Promise.all(
                mediaItems.map(async (media) => ({
                    ...media,
                    url: await getMediaUrl(media.cid, project.id, 'media')
                }))
            );

            const sortedMediaItems = [...loadedItems].sort((first, next) =>
                project.mediaOrder.indexOf(first.id) - project.mediaOrder.indexOf(next.id)
            );

            // 比较排序后的媒体项与已加载的媒体项
            const hasChanged = loadedMediaItems.length === 0 ||
                sortedMediaItems.length !== loadedMediaItems.length ||
                sortedMediaItems.some((item, index) => {
                    const loadedItem = loadedMediaItems[index];
                    return !loadedItem ||
                        item.duration !== loadedItem.duration ||
                        item.transition !== loadedItem.transition;
                });

            if (hasChanged) {
                setLoadedMediaItems(sortedMediaItems);
            }

            await loadAudio();
        } catch (error) {
            console.error('Error loading media items :>>', error);
        }
    }, [mediaItems, loadedMediaItems, getMediaUrl, project.id, project.mediaOrder, loadAudio]);

进入全屏，退出全屏

这种全面的媒体管理方法可以高效地存储、检索和播放各种类型的媒体，在 Memoire 中。

💪 遇到的挑战

1/ Pinata集成：与Pinata的合作经历非常有趣。他们提供的JavaScript SDK在上传文件时遇到了挑战，因为它没有内置的进度跟踪功能，这对于我的项目至关重要，需要为用户提供实时的上传进度反馈。为了找到解决办法，我仔细研究了他们的文档，并发现可以直接调用API来实现这一点。

此外，我没有采用传统的预取已签名URL的做法，而是选择了不同的途径。我直接从前端发起API调用并通过IndexedDB缓存响应。这种方法使得每次只需加载每个文件一次，大大减少了对Pinata的API调用，最终节省了信用。这是一次充满挑战的经历，它让我不得不动脑筋，高效地思考！

2/ AI整合：整合AI服务以进行叙述服务和脚本生成是一个重要的挑战。确保AI能产出高质量的结果需要大量的测试和微调。在进行大量测试时，我还遇到了速率限制的问题。

3/ 用户体验：创建一个直观且用户友好的用户界面至关重要，这一点非常重要。我花了相当多的时间设计和迭代用户界面，以确保它满足用户需求的同时也具有美观的外观。这对我来说比较棘手，因为我没时间找设计师合作；(。

📸 屏幕截图

🔗 项目网址

链接地址: https://dub.sh/MemoireDemo

💻 代码库

链接地址：https://git.new/MemoireRepo（点击链接查看）

注意：已知问题

1/ 视频音频不同步，画面与声音不匹配。
2/ 视频预览组件在首次加载时会闪烁，这是不必要的闪屏。

🎉 结尾

Memoire致力于简化视频创作的过程。借助人工智能的力量，我已使几分钟内就能制作出高质量的配音视频，成本极低。无论您是为社交媒体、营销活动还是个人项目制作内容，Memoire都能帮您实现。

我很期待看到你用Memoire能创造些什么。欢迎随时分享你的想法和建议，并告诉我有什么我可以改进的地方。敬请期待更多更新和新功能！

这篇关于?? 记忆：只需几分钟！使用AI创建解说视频！的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

?? 记忆：只需几分钟！使用AI创建解说视频！

✒️ 简介

&#128272; 关键特性

&#128736;️ 技术栈（Tech Stack）

&#129412; 我用了Pinata的哪些功能（彩蛋）

&#128170; 遇到的挑战

&#128248; 屏幕截图

&#128279; 项目网址

&#128187; 代码库